🔠Datos y herramientas para modelos de texto

Corpus textual masivo

CATalog: Corpus compuesto por 17.450.496.729 palabras (aproximadamente 23 mil millones de tokens), distribuidas en 34.816.765 documentos provenientes de una amplia variedad de fuentes, con un porcentaje significativo de textos curados manualmente.

Acceso: https://huggingface.co/datasets/projecte-aina/CATalog

Datos anotados para fine tuning y/o evaluación de modelos de texto

Razonamiento causal

COPA-es: Traducción al castellano del corpus COPA, corpus de referencia para el razonamiento causal. Incluye 600 instancias, cada una de las cuales se compone de una premisa y dos hipótesis.
Acceso: https://huggingface.co/datasets/BSC-LT/COPA-es

Datos para instruir modelos de texto

InstruCAT: Corpus que recopila más de 200.000 instrucciones destinadas al entrenamiento de modelos de lenguaje (LLMs) en tareas downstream, generadas a partir de los siguientes conjuntos de datos: caBreu, CatalanQA, CoQCat, GuiaCat, IntoxiCat, Parafraseja, PAWS-ca, sts-ca, WikiCat, CEIL, TECA y NLUCat. Estas instrucciones abarcan categorías como paráfrasis, detección de toxicidad, pregunta-respuesta, clasificación, resumen y análisis de sentimientos. Acceso: https://huggingface.co/datasets/projecte-aina/InstruCAT

Datos para evaluar modelos de texto

ALIA-legal-administrative: recurso que reúne y organiza una amplia colección de documentos oficiales del ámbito jurídico y administrativo español. Con más de 7 millones de documentos y 5 mil millones de tokens, incluye boletines oficiales estatales, autonómicos y provinciales, registros especializados, documentos ministeriales, licitaciones, contratos públicos y actas parlamentarias, cubriendo así todo el ecosistema normativo e institucional español.
Acceso: https://huggingface.co/datasets/SINAI/ALIA-legal-administrative
Multi-LMentry: Conjunto de datos en nueve idiomas diseñado para evaluar LLMs en tareas de razonamiento y comprensión de nivel elemental; facilitar comparaciones multilingües, en particular entre idiomas con abundantes recursos y aquellos con recursos limitados; y servir como herramienta de diagnóstico o como un conjunto de pruebas unitarias para examinar las habilidades fundamentales de los modelos. Se trata de una extensión multilingüe de LMentry.
Acceso: https://huggingface.co/datasets/BSC-LT/multi_lmentry
EQ-bench_ca: Versión traducida al calalán y adaptada lingüísticamente del conjunto de datos original EQ-Bench, diseñado para evaluar el razonamiento emocional en modelos de lenguaje mediante indicaciones basadas en diálogos. Su diseño responde a la necesidad de ajustar las capacidades de detección emocional de los modelos multilingües, reconociendo que la expresión y la percepción de las emociones pueden variar de manera significativa entre lenguas.
Acceso: https://huggingface.co/datasets/BSC-LT/EQ-bench_ca
EQ-bench_es: Versión traducida al castellano y adaptada lingüísticamente del conjunto de datos original EQ-Bench, diseñado para evaluar el razonamiento emocional en modelos de lenguaje mediante indicaciones basadas en diálogos. Su diseño responde a la necesidad de ajustar las capacidades de detección emocional de los modelos multilingües, reconociendo que la expresión y la percepción de las emociones pueden variar de manera significativa entre lenguas.
Acceso: https://huggingface.co/datasets/BSC-LT/EQ-bench_es
CaBBQ: Adaptación del conjunto de datos original BBQ a la lengua catalana y al contexto social de España. Este recurso se utiliza para evaluar el sesgo social en modelos de lenguaje a gran escala (LLM) en una tarea de preguntas y respuestas con opciones múltiples, centrada en diez categorías sociales: edad, discapacidad, género, identidad LGBTQIA, nacionalidad, apariencia física, raza/etnicidad, religión, nivel socioeconómico y región española.
Acceso: https://huggingface.co/datasets/BSC-LT/CaBBQ
EsBBQ: Adaptación del conjunto de datos original BBQ a la lengua castellana y al contexto social de España. Este recurso se utiliza para evaluar el sesgo social en modelos de lenguaje a gran escala (LLM) en una tarea de preguntas y respuestas con opciones múltiples, centrada en diez categorías sociales: edad, discapacidad, género, identidad LGBTQIA, nacionalidad, apariencia física, raza/etnicidad, religión, nivel socioeconómico y región española.
Acceso: https://huggingface.co/datasets/BSC-LT/EsBBQ
OpenBookQA_es: Traducción al castellano del corpus OpenBookQA, diseñado para evaluar conocimientos básicos del mundo y cierta capacidad de razonamiento. Incluye 1000 instancias con una pregunta, cuatro opciones posibles y la letra que indica la respuesta correcta.
Acceso: https://huggingface.co/datasets/BSC-LT/openbookqa-es
hhh_alignment_ca: Traducción al catalán del corpus hhh_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, con una clasificación pragmática en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.
Acceso: https://huggingface.co/datasets/projecte-aina/hhh_alignment_ca
hhh_alignment_es: Traducción al castellano del corpus hhh_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, con una clasificación pragmática en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.
Acceso: https://huggingface.co/datasets/BSC-LT/hhh_alignment_es
IFEval_ca: Traducción al catalán del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.
Acceso: https://huggingface.co/datasets/projecte-aina/IFEval_ca
IFEval_es: Traducción al castellano del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.
Acceso: https://huggingface.co/datasets/BSC-LT/IFEval_es
VeritasQA: Corpus diseñado para evaluar grandes modelos de lenguaje sobre la veracidad en un entorno zero-shot, basado en el corpus TruthfulQA. Incluye 353 pares de preguntas-respuestas inspiradas en ideas erróneas y falsedades comunes.
Acceso: https://huggingface.co/datasets/projecte-aina/veritasQA
cobie_sst2: Modificación del SST-2 original para evaluar sesgos cognitivos en LLMs.
Acceso: https://huggingface.co/datasets/BSC-LT/cobie_sst2
cobie_ai2_arc: Modificación del ARC original para evaluar sesgos cognitivos en LLMs.
Acceso: https://huggingface.co/datasets/BSC-LT/cobie_ai2_arc

Datasets de pre entrenamiento ALIA 40B

Acceso: https://langtech-bsc.gitbook.io/alia-kit/datasets/datos-y-herramientas-para-modelos-de-texto/datasets-de-pre-entrenamiento-alia-40b

Herramientas para el suministro de datos de texto

Para garantizar el suministro de datos, se han implantado distintos métodos de adquisición de datos que automatizan este proceso y garantizan el suministro y la actualización de los datos.

Extractor de texto de Wikipedia que interpreta correctamente textos en una gran variedad de lenguas, entre ellas el español y el catalán. Extracción de más de 675.000 documentos.
- Acceso: https://github.com/langtech-bsc/Wikiextractor-V2/

Por otra parte, se ha desarrollado un anonimizador de contenidos generados por usuarios. Canal de anonimización para introducir datos de fuera del BSC que puedan contener datos protegidos por el GDPR.

Acceso: https://github.com/langtech-bsc/AnonymizationPipeline

AnteriorModelos de traducción automática SiguienteDatasets de pre entrenamiento ALIA 40B

Última actualización hace 25 días