🔠Datos y herramientas para modelos de texto

Corpus textual masivo

CATalog: Corpus compuesto por 17.450.496.729 palabras (aproximadamente 23 mil millones de tokens), distribuidas en 34.816.765 documentos provenientes de una amplia variedad de fuentes, con un porcentaje significativo de textos curados manualmente.

Acceso: https://huggingface.co/datasets/projecte-aina/CATalog


Datos anotados para fine tuning y/o evaluación de modelos de texto

Razonamiento causal

  • COPA-es: Traducción al castellano del corpus COPA, corpus de referencia para el razonamiento causal. Incluye 600 instancias, cada una de las cuales se compone de una premisa y dos hipótesis.

    Acceso: https://huggingface.co/datasets/BSC-LT/COPA-es


Datos para instruir modelos de texto

  • InstruCAT: Corpus que recopila más de 200.000 instrucciones destinadas al entrenamiento de modelos de lenguaje (LLMs) en tareas downstream, generadas a partir de los siguientes conjuntos de datos: caBreu, CatalanQA, CoQCat, GuiaCat, IntoxiCat, Parafraseja, PAWS-ca, sts-ca, WikiCat, CEIL, TECA y NLUCat. Estas instrucciones abarcan categorías como paráfrasis, detección de toxicidad, pregunta-respuesta, clasificación, resumen y análisis de sentimientos. Acceso: https://huggingface.co/datasets/projecte-aina/InstruCAT

Datos para evaluar modelos de texto

  • OpenBookQA_es: Traducción al castellano del corpus OpenBookQA, diseñado para evaluar conocimientos básicos del mundo y cierta capacidad de razonamiento. Incluye 1000 instancias con una pregunta, cuatro opciones posibles y la letra que indica la respuesta correcta.

    Acceso: https://huggingface.co/datasets/BSC-LT/openbookqa-es

  • hhh_alignment_ca: Traducción al catalán del corpus hhh_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, con una clasificación pragmática en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.

    Acceso: https://huggingface.co/datasets/projecte-aina/hhh_alignment_ca

  • hhh_alignment_es: Traducción al castellano del corpus hhh_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, con una clasificación pragmática en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.

    Acceso: https://huggingface.co/datasets/BSC-LT/hhh_alignment_es

  • IFEval_ca: Traducción al catalán del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.

    Acceso: https://huggingface.co/datasets/projecte-aina/IFEval_ca

  • IFEval_es: Traducción al castellano del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.

    Acceso: https://huggingface.co/datasets/BSC-LT/IFEval_es

  • VeritasQA: Corpus diseñado para evaluar grandes modelos de lenguaje sobre la veracidad en un entorno zero-shot, basado en el corpus TruthfulQA. Incluye 353 pares de preguntas-respuestas inspiradas en ideas erróneas y falsedades comunes.

    Acceso: https://huggingface.co/datasets/projecte-aina/veritasQA

  • cobie_sst2: Modificación del SST-2 original para evaluar sesgos cognitivos en LLMs.

    Acceso: https://huggingface.co/datasets/BSC-LT/cobie_sst2

  • cobie_ai2_arc: Modificación del ARC original para evaluar sesgos cognitivos en LLMs.

    Acceso: https://huggingface.co/datasets/BSC-LT/cobie_ai2_arc


Datasets de pre entrenamiento ALIA 40B

Acceso: https://langtech-bsc.gitbook.io/alia-kit/datasets/datos-y-herramientas-para-modelos-de-texto/datasets-de-pre-entrenamiento-alia-40b



Última actualización