1 de 2

Datos y herramientas para modelos de texto

Corpus textuales

CATalog: Corpus textual masivo compuesto por 17.450.496.729 palabras (aproximadamente 23 mil millones de tokens), distribuidas en 34.816.765 documentos provenientes de una amplia variedad de fuentes, con un porcentaje significativo de textos curados manualmente.
Acceso: https://huggingface.co/datasets/projecte-aina/CATalog
ALIA_DOGV Dataset: Corpus textual bilingüe valenciano-español proveniente del Diari Oficial de la Generalitat Valenciana.
Acceso:
ALIA_BOUA Dataset: Corpus textual bilingüe valenciano-español proveniente del Boletín Oficial de la Universidad de Alicante.
Acceso:
ALIA_AMIC Dataset: Corpus textual en valenciano proveniente de periódicos/blogs del repositorio AMIC.
Acceso:
ALIA_LES_CORTS Dataset: Corpus textual bilingüe valenciano-español proveniente de Les Corts Valencianes.
Acceso:
MULTILINGUAL PARALLEL SENTENCES Dataset: Corpus de textos multilingües valenciano, español e inglés.
Acceso:

Corpus de dominio

ALIA_TOURISM: Corpus especializado en el dominio turístico que incluye textos en valenciano, español e inglés. Cada documento incluye su fuente original, lo que permite filtrar el contenido según la licencia necesaria para cada caso de uso. Incluye un total de 79.15M tokens, de ellos 12.56M en valenciano, 65.34M en español y 1.35M en inglés.
Acceso:
ALIA_INTELLECTUAL_PROPERTY: Corpus especializado en el dominio de la propiedad intelectual que incluye en su versión actual textos en español. Incluye un total de 1130M tokens en español.
Acceso:

Datos anotados para fine tuning y/o evaluación de modelos de texto

Razonamiento causal

COPA-es: Traducción al castellano del corpus COPA, corpus de referencia para el razonamiento causal. Incluye 600 instancias, cada una de las cuales se compone de una premisa y dos hipótesis.
Acceso:

Datos para instruir modelos de texto

InstruCAT: Corpus que recopila más de 200.000 instrucciones destinadas al entrenamiento de modelos de lenguaje (LLMs) en tareas downstream, generadas a partir de los siguientes conjuntos de datos: caBreu, CatalanQA, CoQCat, GuiaCat, IntoxiCat, Parafraseja, PAWS-ca, sts-ca, WikiCat, CEIL, TECA y NLUCat. Estas instrucciones abarcan categorías como paráfrasis, detección de toxicidad, pregunta-respuesta, clasificación, resumen y análisis de sentimientos. Acceso:
ALIA-legal-administrative-synthetic-instructions: Corpus sintético de instrucciones en español para el dominio legal-administrativo. Incluye más de 7,4 millones de pares instrucción–respuesta.
Acceso:

Generación de datos sintéticos

mPersonas: Conjunto de datos multilingüe y de código abierto que contiene descripciones de personalidad de alta calidad, generadas sintéticamente con DeepSeek-V3–0324. Emplea una metodología de síntesis de datos basada en personas, similar a la de .
Acceso:

Datos para evaluar modelos de texto

SIQA_es: Traducción y adaptación al español del conjunto de validación de (Social Interaction Question Answering), diseñado para evaluar el razonamiento social de sentido común en modelos de lenguaje, presentando una colección de preguntas basadas en situaciones sociales cotidianas, con el objetivo de desafiar a los modelos a inferir motivaciones, reacciones e implicaciones sociales detrás de las acciones humanas.
Acceso:
arc_es: Traducción y adaptación al español del conjunto de validación de (AI2 Reasoning Challenge), diseñado para evaluar el razonamiento científico en modelos de lenguaje, presentando una colección de preguntas auténticas de ciencias de nivel escolar en formato de opción múltiple, divididas en dos conjuntos de distinta dificultad: ARC Easy y ARC Challenging.

Datasets de clasificación

DISCRIMINATIVE CLEARSIM_ES Dataset: Conjunto de textos en español diseñado para entrenar o evaluar modelos en una tarea de clasificación relacionada con el lenguaje claro. El conjunto de datos está compuesto por pares y tríos de textos alineados en tres niveles de complejidad: lengua original, lengua facilitada y lectura fácil. Incluye un total de 13.953 textos, agrupados en 4.651 tripletas únicas.
Acceso:
DISCRIMINATIVE CLEARSIM_VA Dataset: Conjunto de textos en valenciano diseñado para entrenar o evaluar modelos en una tarea de clasificación relacionada con el lenguaje claro. El conjunto de datos está compuesto por pares y tríos de textos alineados en tres niveles de complejidad: lengua original, lengua facilitada y lectura fácil. Incluye un total de 13.953 textos, agrupados en 4.651 tripletas únicas.

Datasets de pre entrenamiento ALIA 40B

Acceso:

Herramientas para el suministro de datos de texto

Para garantizar el suministro de datos, se han implantado distintos métodos de adquisición de datos que automatizan este proceso y garantizan el suministro y la actualización de los datos.

Extractor de texto de Wikipedia que interpreta correctamente textos en una gran variedad de lenguas, entre ellas el español y el catalán. Extracción de más de 675.000 documentos.
- Acceso:

Por otra parte, se ha desarrollado un anonimizador de contenidos generados por usuarios. Canal de anonimización para introducir datos de fuera del BSC que puedan contener datos protegidos por el GDPR.

Acceso:

Datasets de pre entrenamiento ALIA 40B

Relación de datasets con referencias en el marco del pre entrenamiento del modelo ALIA 40B.

Los corpus de entrenamiento se listan a continuación:

Corpus

Lenguas

Link

Colossal OSCAR 1.0

bg, ca, cs, cy, da, de, el, en, es, et, eu, fi, fr, ga, gl, hr, hu, it, lt, lv, mt, nl, nn, no, oc, pl, pt, ro, ru, sh, sk, sl, sr, sv, uk

Aya Dataset (w/o Evaluation Suite)

eu, hr, nl, fi, ka, hu, lt, nn, ro, sk, lv, cy, bg, cs, en, fr, de, ga, mt, pl, ru, sl, sv, ca, da, et, gl, el, it, no, pt, sr, es, uk

Wikimedia dumps

Datos y herramientas para modelos de texto

Corpus textuales

CATalog: Corpus textual masivo compuesto por 17.450.496.729 palabras (aproximadamente 23 mil millones de tokens), distribuidas en 34.816.765 documentos provenientes de una amplia variedad de fuentes, con un porcentaje significativo de textos curados manualmente.
Acceso: https://huggingface.co/datasets/projecte-aina/CATalog
ALIA_DOGV Dataset: Corpus textual bilingüe valenciano-español proveniente del Diari Oficial de la Generalitat Valenciana.
Acceso:
ALIA_BOUA Dataset: Corpus textual bilingüe valenciano-español proveniente del Boletín Oficial de la Universidad de Alicante.
Acceso:
ALIA_AMIC Dataset: Corpus textual en valenciano proveniente de periódicos/blogs del repositorio AMIC.
Acceso:
ALIA_LES_CORTS Dataset: Corpus textual bilingüe valenciano-español proveniente de Les Corts Valencianes.
Acceso:
MULTILINGUAL PARALLEL SENTENCES Dataset: Corpus de textos multilingües valenciano, español e inglés.
Acceso:

Corpus de dominio

ALIA_TOURISM: Corpus especializado en el dominio turístico que incluye textos en valenciano, español e inglés. Cada documento incluye su fuente original, lo que permite filtrar el contenido según la licencia necesaria para cada caso de uso. Incluye un total de 79.15M tokens, de ellos 12.56M en valenciano, 65.34M en español y 1.35M en inglés.
Acceso:
ALIA_INTELLECTUAL_PROPERTY: Corpus especializado en el dominio de la propiedad intelectual que incluye en su versión actual textos en español. Incluye un total de 1130M tokens en español.
Acceso:

Datos anotados para fine tuning y/o evaluación de modelos de texto

Razonamiento causal

COPA-es: Traducción al castellano del corpus COPA, corpus de referencia para el razonamiento causal. Incluye 600 instancias, cada una de las cuales se compone de una premisa y dos hipótesis.
Acceso:

Datos para instruir modelos de texto

InstruCAT: Corpus que recopila más de 200.000 instrucciones destinadas al entrenamiento de modelos de lenguaje (LLMs) en tareas downstream, generadas a partir de los siguientes conjuntos de datos: caBreu, CatalanQA, CoQCat, GuiaCat, IntoxiCat, Parafraseja, PAWS-ca, sts-ca, WikiCat, CEIL, TECA y NLUCat. Estas instrucciones abarcan categorías como paráfrasis, detección de toxicidad, pregunta-respuesta, clasificación, resumen y análisis de sentimientos. Acceso:
ALIA-legal-administrative-synthetic-instructions: Corpus sintético de instrucciones en español para el dominio legal-administrativo. Incluye más de 7,4 millones de pares instrucción–respuesta.
Acceso:

Generación de datos sintéticos

mPersonas: Conjunto de datos multilingüe y de código abierto que contiene descripciones de personalidad de alta calidad, generadas sintéticamente con DeepSeek-V3–0324. Emplea una metodología de síntesis de datos basada en personas, similar a la de .
Acceso:

Datos para evaluar modelos de texto

SIQA_es: Traducción y adaptación al español del conjunto de validación de (Social Interaction Question Answering), diseñado para evaluar el razonamiento social de sentido común en modelos de lenguaje, presentando una colección de preguntas basadas en situaciones sociales cotidianas, con el objetivo de desafiar a los modelos a inferir motivaciones, reacciones e implicaciones sociales detrás de las acciones humanas.
Acceso:
arc_es: Traducción y adaptación al español del conjunto de validación de (AI2 Reasoning Challenge), diseñado para evaluar el razonamiento científico en modelos de lenguaje, presentando una colección de preguntas auténticas de ciencias de nivel escolar en formato de opción múltiple, divididas en dos conjuntos de distinta dificultad: ARC Easy y ARC Challenging.

Datasets de clasificación

DISCRIMINATIVE CLEARSIM_ES Dataset: Conjunto de textos en español diseñado para entrenar o evaluar modelos en una tarea de clasificación relacionada con el lenguaje claro. El conjunto de datos está compuesto por pares y tríos de textos alineados en tres niveles de complejidad: lengua original, lengua facilitada y lectura fácil. Incluye un total de 13.953 textos, agrupados en 4.651 tripletas únicas.
Acceso:
DISCRIMINATIVE CLEARSIM_VA Dataset: Conjunto de textos en valenciano diseñado para entrenar o evaluar modelos en una tarea de clasificación relacionada con el lenguaje claro. El conjunto de datos está compuesto por pares y tríos de textos alineados en tres niveles de complejidad: lengua original, lengua facilitada y lectura fácil. Incluye un total de 13.953 textos, agrupados en 4.651 tripletas únicas.

Datasets de pre entrenamiento ALIA 40B

Acceso:

Herramientas para el suministro de datos de texto

Para garantizar el suministro de datos, se han implantado distintos métodos de adquisición de datos que automatizan este proceso y garantizan el suministro y la actualización de los datos.

Extractor de texto de Wikipedia que interpreta correctamente textos en una gran variedad de lenguas, entre ellas el español y el catalán. Extracción de más de 675.000 documentos.
- Acceso:

Acceso:

Datos y herramientas para modelos de texto

hashtagCorpus textuales

hashtagCorpus de dominio

hashtagDatos anotados para fine tuning y/o evaluación de modelos de texto

hashtagRazonamiento causal

hashtagDatos para instruir modelos de texto

hashtagGeneración de datos sintéticos

hashtagDatos para evaluar modelos de texto

hashtagDatasets de clasificación

hashtagDatasets de pre entrenamiento ALIA 40B

hashtagHerramientas para el suministro de datos de texto

Datasets de pre entrenamiento ALIA 40B

Datos y herramientas para modelos de texto

hashtagCorpus textuales

hashtagCorpus de dominio

hashtagDatos anotados para fine tuning y/o evaluación de modelos de texto

hashtagRazonamiento causal

hashtagDatos para instruir modelos de texto

hashtagGeneración de datos sintéticos

hashtagDatos para evaluar modelos de texto

hashtagDatasets de clasificación

hashtagDatasets de pre entrenamiento ALIA 40B

hashtagHerramientas para el suministro de datos de texto

Datasets de pre entrenamiento ALIA 40B

Corpus textuales

Corpus de dominio

Datos anotados para fine tuning y/o evaluación de modelos de texto

Razonamiento causal

Datos para instruir modelos de texto

Generación de datos sintéticos

Datos para evaluar modelos de texto

Datasets de clasificación

Datasets de pre entrenamiento ALIA 40B

Herramientas para el suministro de datos de texto

Corpus textuales

Corpus de dominio

Datos anotados para fine tuning y/o evaluación de modelos de texto

Razonamiento causal

Datos para instruir modelos de texto

Generación de datos sintéticos

Datos para evaluar modelos de texto

Datasets de clasificación

Datasets de pre entrenamiento ALIA 40B

Herramientas para el suministro de datos de texto