LogoLogo
LogoLogo
  • Inicio
  • 🤗Modelos
    • 🔠Modelos de texto
    • ↔️Modelos de traducción automática
  • 📚Datasets
    • 🔠Datos y herramientas para modelos de texto
      • Datasets de pre entrenamiento ALIA 40B
    • 🗣️Datos y herramientas para modelos de voz
    • ↔️Datos para la traducción automática
  • 🕹️Demostradores
    • 🤗En Spaces de Hugging Face
    • Page
Con tecnología de GitBook
En esta página
  • Corpus textual masivo
  • Datos anotados para fine tuning y/o evaluación de modelos de texto
  • Datos para evaluar modelos de texto
  • Datasets de pre entrenamiento ALIA 40B
Exportar como PDF
  1. Datasets

Datos y herramientas para modelos de texto

AnteriorModelos de traducción automáticaSiguienteDatasets de pre entrenamiento ALIA 40B

Última actualización hace 1 mes

Corpus textual masivo

CATalog: Corpus formado por 17.450.496.729 palabras (alrededor de 23 mil millones de tokens) distribuidos en 34.816.765 documentos de gran variedad de fuentes y con un porcentaje importante de textos curados manualmente.

Acceso:


Datos anotados para fine tuning y/o evaluación de modelos de texto

Razonamiento causal

  • COPA-es: Traducción al castellano del corpus COPA, corpus de referencia para el razonamiento causal. Incluye 600 instancias, cada una de las cuales se compone de una premisa y dos hipótesis.

    Acceso:


Datos para evaluar modelos de texto

  • OpenBookQA_es: Traducción al castellano del corpus OpenBookQA, diseñado para evaluar conocimientos básicos del mundo y cierta capacidad de razonamiento. Incluye 1000 instancias con una pregunta, cuatro opciones posibles y la letra que indica la respuesta correcta.

    Acceso:

  • hhh_alignment_ca: Traducción al catalán del corpus hhh_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, divididos pragmáticamente en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.

    Acceso:

  • hhh_alignment_es: Traducción al castellano del corpus hhh_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, divididos pragmáticamente en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.

    Acceso:

  • IFEval_ca: Traducción al catalán del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.

    Acceso:

  • IFEval_es: Traducción al castellano del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.

    Acceso:

  • VeritasQA: Corpus diseñado para evaluar grandes modelos de lenguaje sobre la veracidad en un entorno zero-shot, basado en el corpus TruthfulQA. Incluye 353 pares de preguntas-respuestas inspiradas en ideas erróneas y falsedades comunes.

    Acceso:


Datasets de pre entrenamiento ALIA 40B



Acceso:

📚
🔠
https://huggingface.co/datasets/projecte-aina/CATalog
https://huggingface.co/datasets/BSC-LT/COPA-es
https://huggingface.co/datasets/BSC-LT/openbookqa-es
https://huggingface.co/datasets/projecte-aina/hhh_alignment_ca
https://huggingface.co/datasets/BSC-LT/hhh_alignment_es
https://huggingface.co/datasets/projecte-aina/IFEval_ca
https://huggingface.co/datasets/BSC-LT/IFEval_es
https://huggingface.co/datasets/projecte-aina/veritasQA
https://langtech-bsc.gitbook.io/alia-kit/datasets/datos-y-herramientas-para-modelos-de-texto/datasets-de-pre-entrenamiento-alia-40b