# Datos y herramientas para modelos de texto

### Corpus textuales

* **CATalog***:* Corpus textual masivo compuesto por 17.450.496.729 palabras (aproximadamente 23 mil millones de tokens), distribuidas en 34.816.765 documentos provenientes de una amplia variedad de fuentes, con un porcentaje significativo de textos curados manualmente.

  Acceso: <https://huggingface.co/datasets/projecte-aina/CATalog>
* **MULTILINGUAL PARALLEL SENTENCES Dataset**: Corpus de textos multilingües valenciano, español e inglés.

  Acceso: <https://huggingface.co/datasets/gplsi/alia_multilingual_parallel_sentences>
* **ALIA\_DOGV Dataset**: Corpus textual bilingüe valenciano-español proveniente del Diari Oficial de la Generalitat Valenciana.

  Acceso: <https://huggingface.co/datasets/gplsi/alia_dogv>
* **ALIA\_BOUA Dataset**: Corpus textual bilingüe valenciano-español  proveniente del Boletín Oficial de la Universidad de Alicante.

  Acceso: <https://huggingface.co/datasets/gplsi/alia_boua>
* **ALIA\_AMIC Dataset**: Corpus textual en valenciano proveniente de periódicos/blogs del repositorio AMIC.

  Acceso: <https://huggingface.co/datasets/gplsi/alia_amic>
* **ALIA\_LES\_CORTS Dataset**: Corpus textual bilingüe valenciano-español proveniente de Les Corts Valencianes.

  Acceso: <https://huggingface.co/datasets/gplsi/alia_les_corts>
* **CorpusNÓS**: Corpus masivo en gallego concebido principalmente para entrenar grandes modelos lingüísticos. Está compuesto por textos procedentes de una amplia variedad de fuentes y géneros, incluidos libros, artículos de investigación, prensa, textos gubernamentales, datos enciclopédicos, contenidos web, rastreos web, blogs y corpus de traducción.

  Acceso: <https://huggingface.co/datasets/proxectonos/corpusnos>

### Corpus de dominio

* **ALIA\_TOURISM:** Corpus especializado en el dominio turístico que incluye textos en valenciano, español e inglés. Cada documento incluye su fuente original, lo que permite filtrar el contenido según la licencia necesaria para cada caso de uso. Incluye un total de 79.15M tokens, de ellos 12.56M en valenciano, 65.34M en español y 1.35M en inglés.

  Acceso: <https://huggingface.co/datasets/gplsi/alia_tourism>
* **ALIA\_INTELLECTUAL\_PROPERTY:** Corpus especializado en el dominio de la propiedad intelectual que incluye en su versión actual textos en español. Incluye un total de\
  1130M tokens en español.

  Acceso: <https://huggingface.co/datasets/gplsi/alia_intellectual_property>
* **latxa-corpus-v2**: Corpus en euskera que incluye de textos en los dominio legal, administrativo, periodístico y científico/académico, entre otros.

  Acceso: <https://huggingface.co/datasets/HiTZ/latxa-corpus-v2>
* **ALIA Spanish Biomedical and Healthcare Corpus** Corpus de textos biomédicos oficiales y científicos en español, que incluye guías clínicas, registros médicos, publicaciones y boletines de salud, con más de 10 millones de instancias y 5.000 millones de tokens. Cubre áreas clave como la farmacología, la epidemiología, la salud pública y la investigación médica especializada.

  Acceso: <https://huggingface.co/datasets/SINAI/ALIA-es-biomedical>
* **ALIA Spanish Biomedical and Healthcare Hard Negatives Corpus**: Conjunto de datos que contiene *hard negatives* para entrenar modelos de recuperación densa especializados en lenguaje biomédico en español. Los hard negatives se generaron automáticamente a partir de pares `<query, passage>` de [SINAI/ALIA-es-biomedical-pairs](https://huggingface.co/datasets/SINAI/ALIA-es-biomedical-pairs), mediante un pipeline basado en SentenceTransformers, FAISS y el modelo de embeddings Qwen3-Embedding-0.6B.

  Acceso:[ ](https://huggingface.co/datasets/SINAI/ALIA-es-biomedical-hard-negatives)<https://huggingface.co/datasets/SINAI/ALIA-es-biomedical-hard-negatives>
* **ALIA Spanish Cultural and Heritage Corpus:** Corpus de  documentos sobre patrimonio cultural en español que incluye inventarios patrimoniales, revistas especializadas, registros de archivo, publicaciones institucionales y recursos descriptivos sobre patrimonio material e inmaterial, con 236.399 instancias y 946.467.028 tokens, distribuidos en 102 conjuntos de datos de origen.

  Acceso:[ ](https://huggingface.co/datasets/SINAI/ALIA-es-cultural)<https://huggingface.co/datasets/SINAI/ALIA-es-cultural>
* **ALIA Spanish Cultural and Heritage Hard Negatives Corpus**: Conjunto de datos que contiene *hard negatives* para entrenar modelos de recuperación densa especializados lenguaje del patrimonio cultural en español. Los hard negatives se generaron automáticamente a partir de pares `<query, passage>` de [SINAI/ALIA-es-cultural-pairs](https://huggingface.co/datasets/SINAI/ALIA-es-cultural-pairs), mediante un pipeline basado en SentenceTransformers, FAISS y el modelo de embeddings Qwen3-Embedding-0.6B.

  Acceso: <https://huggingface.co/datasets/SINAI/ALIA-es-cultural-hard-negatives>
* **ALIA Spanish Legal and Administrative Corpus:** Recurso que reúne y organiza una amplia colección de documentos oficiales del ámbito jurídico y administrativo español. Con más de 7 millones de documentos y 5 mil millones de tokens, incluye boletines oficiales estatales, autonómicos y provinciales, registros especializados, documentos ministeriales, licitaciones, contratos públicos y actas parlamentarias, cubriendo así todo el ecosistema normativo e institucional español.

  Acceso: <https://huggingface.co/datasets/SINAI/ALIA-es-legal>
* **ALIA Spanish Legal and Administrative Hard Negatives Corpus:** Conjunto de datos que contiene hard negatives para entrenar modelos de recuperación densa especializados en lenguaje jurídico-administrativo en español. Los hard negatives se generaron automáticamente a partir de pares `<query, passage>` de [SINAI/ALIA-es-legal-triplets](https://huggingface.co/datasets/SINAI/ALIA-es-legal-triplets), mediante un pipeline basado en SentenceTransformers, FAISS y el modelo de embeddings Qwen3-Embedding-0.6B.

  Acceso: <https://huggingface.co/datasets/SINAI/ALIA-es-legal-hard-negatives>
* **Corpus Dominio Legal-Administrativo**: Corpus administrativo-legal que reúne textos oficiales de boletines y diarios institucionales gallegos, representativos del lenguaje jurídico-administrativo formal. Está formado por documentos completos y estructurados, con metadatos asociados, procedentes de tres fuentes principales: Boletín Oficial de la Provincia de A Coruña, Boletín Oficial de la Provincia de Pontevedra y Diario Oficial de Galicia.&#x20;

  Los textos originales estaban en HTML, XHTML o XML. Aunque estos subcorpora forman parte de CorpusNÓS, fueron modificados en formato y procesamiento para su publicación específica en este corpus.

  Acceso: <https://huggingface.co/datasets/proxectonos/corpus_dominio_legal_administrativo>
* **Corpus Dominio Periodístico**: Corpus periodístico que reúne textos informativos de prensa digital en gallego, representativos del registro periodístico contemporáneo y orientados a tareas de procesamiento del lenguaje natural. Incluye colecciones procedentes de CorpusNÓS con un esquema de datos simplificado, así como conjuntos más recientes con metadatos periodísticos completos. Las fuentes incluidas son medios digitales gallegos como Galicia é, Galicia Hoxe, Tempos Dixital, Xornal GL, A Nosa Terra, Nós Diario, Praza Pública y Código Cero.

  Acceso: <https://huggingface.co/datasets/proxectonos/corpus_dominio_periodistico>
* **Corpus Dominio Científico**: Corpus científico que reúne textos académicos y enciclopédicos procedentes de fuentes institucionales y abiertas, con el objetivo de servir como recurso para tareas de procesamiento del lenguaje natural. Está previsto que se amplíe con nuevas publicaciones científicas. El corpus incluye principalmente dos tipos de materiales:

  * Publicaciones académicas de la Universidad de Santiago de Compostela (USC)**:** artículos y textos obtenidos a partir de XML estructurado o de PDF mediante OCR. En el primer caso se conservan texto completo y metadatos editoriales; en el segundo, principalmente el texto extraído y limpiado.
  * Artículos científicos de Wikipedia: contenidos enciclopédicos en gallego y castellano, con texto limpio y metadatos básicos como título, URL y categoría temática.

  En conjunto, combina textos académicos especializados con contenidos divulgativos, aportando diversidad temática dentro del dominio científico.

  Acceso: <https://huggingface.co/datasets/proxectonos/corpus_dominio_cientifico>
* **Corpus Dominio Museístico-Patrimonio**: Corpus museístico-patrimonial que reúne recursos terminológicos especializados procedentes de tesauros oficiales, orientados a la descripción, clasificación y documentación del patrimonio cultural. Está compuesto por tres tesauros en español (bienes culturales, materias y técnicas) y una versión en gallego del tesauro de bienes culturales.

  Acceso: <https://huggingface.co/datasets/proxectonos/corpus_dominio_museistico_patrimonio>

### Corpus para instruir modelos de texto

* **InstruCAT**: Corpus que recopila más de 200.000 instrucciones destinadas al entrenamiento de modelos de lenguaje (LLMs) en tareas *downstream*, generadas a partir de los siguientes conjuntos de datos: caBreu, CatalanQA, CoQCat, GuiaCat, IntoxiCat, Parafraseja, PAWS-ca, sts-ca, WikiCat, CEIL, TECA y NLUCat. Estas instrucciones abarcan categorías como paráfrasis, detección de toxicidad, pregunta-respuesta, clasificación, resumen y análisis de sentimientos.\
  Acceso: <https://huggingface.co/datasets/projecte-aina/InstruCAT>
* **ALIA Spanish Biomedical and Healthcare Synthetic Instructions Corpus:** orpus sintético de instrucciones en español para el dominio biomédico Incluye 639.456 instancias.

  Acceso: <https://huggingface.co/datasets/SINAI/ALIA-es-biomedical-synthetic-instructions>
* **ALIA Spanish Cultural and Heritage Synthetic Instructions Corpus:** Corpus sintético de instrucciones en español para el dominio patrimonio cultural. Incluye 748.480 instancias.

  Acceso: <https://huggingface.co/datasets/SINAI/ALIA-es-cultural-synthetic-instructions>
* **ALIA Spanish Legal and Administrative Synthetic Instructions Corpus**: Corpus sintético de instrucciones en español para el dominio legal-administrativo. Incluye más de 7,4 millones de pares instrucción–respuesta.

  Acceso: <https://huggingface.co/datasets/SINAI/ALIA-legal-administrative-synthetic-instructions>
* **CPT Instruction Datasets**: Colección de conjuntos de datos sintéticos de instrucciones utilizados durante el preentrenamiento continuo de Model-small-instr-1, Model-small-instr-2 y Model-small-instr-3.

  Acceso: <https://huggingface.co/datasets/proxectonos/cpt_instruction_datasets>
* **Wikipedia Multiple-Choice QA**: Este conjunto de datos contiene dos subconjuntos de ajuste por instrucciones para responder preguntas de opción múltiple en gallego y portugués: gl\_wikipedia\_multiple\_choice\_qa (1.486 instancias) y pt\_wikipedia\_multiple\_choice\_qa (547 instancias). Ambos subconjuntos son versiones reformateadas de datos de preguntas y respuestas incluidos originalmente en la colección cpt\_instruction\_datasets, adaptados aquí como conjuntos de datos independientes con formato de instrucciones. Cada ejemplo contiene un contexto, una consigna de instrucción, una pregunta, una lista de respuestas candidatas, la respuesta correcta, el índice correspondiente de la respuesta y el número de palabras del contexto.

  Acceso: <https://huggingface.co/datasets/proxectonos/wikipedia_multiple_choice_qa>

### Corpus para generar datos sintéticos

* **mPersonas**: Conjunto de datos multilingüe y de código abierto que contiene descripciones de personalidad de alta calidad, generadas sintéticamente con DeepSeek-V3–0324. Emplea una metodología de síntesis de datos basada en *personas*, similar a la de [PersonaHub](https://huggingface.co/datasets/proj-persona/PersonaHub).

  Acceso: <https://huggingface.co/datasets/BSC-LT/m-personas>

### Corpus anotados para ajustar y/o evaluar modelos de texto

* **Salamandra Guard dataset**: corpus de clasificación de seguridad multilingüe diseñado para entrenar y evaluar sistemas de moderación de contenido en catalán y español. Consta de 21.335 ejemplos conversacionales cuidadosamente seleccionados y anotados según una taxonomía de seguridad jerárquica. Este conjunto de datos representa un avance significativo en datos de seguridad con base cultural, con especial énfasis en el catalán junto con el español y el inglés.

  Acceso: <https://huggingface.co/datasets/BSC-LT/salamandra-guard-dataset>
* **Multi-LMentry**: Conjunto de datos en nueve idiomas diseñado para evaluar LLMs en tareas de razonamiento y comprensión de nivel elemental; facilitar comparaciones multilingües, en particular entre idiomas con abundantes recursos y aquellos con recursos limitados; y servir como herramienta de diagnóstico o como un conjunto de pruebas unitarias para examinar las habilidades fundamentales de los modelos. Se trata de una extensión multilingüe de [LMentry](https://aclanthology.org/2023.findings-acl.666/).

  Acceso: <https://huggingface.co/datasets/BSC-LT/multi_lmentry>
* **VeritasQA**: Corpus diseñado para evaluar grandes modelos de lenguaje sobre la veracidad en un entorno *zero-shot*, basado en el corpus TruthfulQA. Incluye 353 pares de preguntas-respuestas inspiradas en ideas erróneas y falsedades comunes.

  Acceso: <https://huggingface.co/datasets/projecte-aina/veritasQA>
* **EQ-bench\_es**: Versión traducida al castellano y adaptada lingüísticamente del conjunto de datos original [EQ-Bench](https://huggingface.co/datasets/pbevan11/EQ-Bench), diseñado para evaluar el razonamiento emocional en modelos de lenguaje mediante indicaciones basadas en diálogos. Su diseño responde a la necesidad de ajustar las capacidades de detección emocional de los modelos multilingües, reconociendo que la expresión y la percepción de las emociones pueden variar de manera significativa entre lenguas.

  Acceso: <https://huggingface.co/datasets/BSC-LT/EQ-bench_es>
* **EQ-bench\_ca**: Versión traducida al calalán y adaptada lingüísticamente del conjunto de datos original [EQ-Bench](https://huggingface.co/datasets/pbevan11/EQ-Bench), diseñado para evaluar el razonamiento emocional en modelos de lenguaje mediante indicaciones basadas en diálogos. Su diseño responde a la necesidad de ajustar las capacidades de detección emocional de los modelos multilingües, reconociendo que la expresión y la percepción de las emociones pueden variar de manera significativa entre lenguas.

  Acceso: <https://huggingface.co/datasets/BSC-LT/EQ-bench_ca>
* **EsBBQ**: Adaptación del conjunto de datos original [BBQ](https://huggingface.co/datasets/heegyu/bbq) a la lengua castellana y al contexto social de España. Este recurso se utiliza para evaluar el sesgo social en modelos de lenguaje a gran escala (LLM) en una tarea de preguntas y respuestas con opciones múltiples, centrada en diez categorías sociales: edad, discapacidad, género, identidad LGBTQIA, nacionalidad, apariencia física, raza/etnicidad, religión, nivel socioeconómico y región española.

  Acceso: <https://huggingface.co/datasets/BSC-LT/EsBBQ>
* **CaBBQ**: Adaptación del conjunto de datos original [BBQ](https://huggingface.co/datasets/heegyu/bbq) a la lengua catalana y al contexto social de España. Este recurso se utiliza para evaluar el sesgo social en modelos de lenguaje a gran escala (LLM) en una tarea de preguntas y respuestas con opciones múltiples, centrada en diez categorías sociales: edad, discapacidad, género, identidad LGBTQIA, nacionalidad, apariencia física, raza/etnicidad, religión, nivel socioeconómico y región española.

  Acceso: <https://huggingface.co/datasets/BSC-LT/CaBBQ>
* **OpenBookQA\_es**: Traducción al castellano del corpus OpenBookQA, diseñado para evaluar conocimientos básicos del mundo y cierta capacidad de razonamiento. Incluye 1000 instancias con una pregunta, cuatro opciones posibles y la letra que indica la respuesta correcta.

  Acceso: <https://huggingface.co/datasets/BSC-LT/openbookqa-es>
* **hhh\_alignment\_es**: Traducción al castellano del corpus hhh\_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, con una clasificación pragmática en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.

  Acceso: <https://huggingface.co/datasets/BSC-LT/hhh_alignment_es>
* **hhh\_alignment\_ca**: Traducción al catalán del corpus hhh\_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, con una clasificación pragmática en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.

  Acceso: <https://huggingface.co/datasets/projecte-aina/hhh_alignment_ca>
* **IFEval\_es**: Traducción al castellano del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.

  Acceso: <https://huggingface.co/datasets/BSC-LT/IFEval_es>
* **IFEval\_ca**: Traducción al catalán del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.

  Acceso: <https://huggingface.co/datasets/projecte-aina/IFEval_ca>
* **SIQA\_es**: Traducción y adaptación al español del conjunto de validación de [SIQA](https://huggingface.co/datasets/allenai/social_i_qa) (Social Interaction Question Answering), diseñado para evaluar el razonamiento social de sentido común en modelos de lenguaje, presentando una colección de preguntas basadas en situaciones sociales cotidianas, con el objetivo de desafiar a los modelos a inferir motivaciones, reacciones e implicaciones sociales detrás de las acciones humanas.

  Acceso: <https://huggingface.co/datasets/BSC-LT/SIQA_es>
* **arc\_es**: Traducción y adaptación al español del conjunto de validación de [ARC](https://huggingface.co/datasets/allenai/ai2_arc) (AI2 Reasoning Challenge), diseñado para evaluar el razonamiento científico en modelos de lenguaje, presentando una colección de preguntas auténticas de ciencias de nivel escolar en formato de opción múltiple, divididas en dos conjuntos de distinta dificultad: ARC Easy y ARC Challenging.

  Acceso: <https://huggingface.co/datasets/BSC-LT/arc_es>
* **COPA-es**: Traducción al castellano del corpus COPA, corpus de referencia para el razonamiento causal. Incluye 600 instancias, cada una de las cuales se compone de una premisa y dos hipótesis.

  Acceso:  <https://huggingface.co/datasets/BSC-LT/COPA-es>
* **cobie\_sst2**: Modificación del [SST-2](https://huggingface.co/datasets/stanfordnlp/sst2) original para evaluar sesgos cognitivos en LLMs.

  Acceso: <https://huggingface.co/datasets/BSC-LT/cobie_sst2>
* **cobie\_ai2\_arc**: Modificación del [ARC](https://huggingface.co/datasets/allenai/ai2_arc) original para evaluar sesgos cognitivos en LLMs.

  Acceso: <https://huggingface.co/datasets/BSC-LT/cobie_ai2_arc>
* **RAG\_eu**: Corpus de evaluación para RAGs en diferentes dominios (legal-administrativo, parlamentos, periodistico) y tareas (clasificación de dominio, p**r**edicción de capacidad de respuesta y recuperación de información).

  Acceso: <https://huggingface.co/datasets/HiTZ/RAG_eu>
* **ALIA Spanish Biomedical and Healthcare Retrieval Pairs Corpus**: Instancias tabulares diseñadas para entrenar y evaluar modelos orientados a la recuperación de información, como recuperadores densos o codificadores de embeddings. El conjunto de datos se basa en consultas fundamentadas en pasajes, generadas mediante un flujo de trabajo de prompting de estilo Qwen3 e integrado en el pipeline de codificadores de ALIA.

  Acceso: <https://huggingface.co/datasets/SINAI/ALIA-es-biomedical-pairs>
* **ALIA Spanish Cultural and Heritage Retrieval Pairs Corpus:** Instancias tabulares diseñadas para entrenar y evaluar modelos orientados a la recuperación de información, como recuperadores densos o codificadores de embeddings. El conjunto de datos se basa en consultas fundamentadas en pasajes, generadas mediante un flujo de trabajo de prompting de estilo Qwen e integrado en el pipeline de codificadores de ALIA.

  Acceso: <https://huggingface.co/datasets/SINAI/ALIA-es-cultural-pairs>
* **ALIA Spanish Legal and Administrative Triplets Corpus**: Instancias tabulares diseñadas para entrenar y evaluar modelos orientados a la recuperación de información, como recuperadores densos o codificadores de embeddings. El conjunto de datos se basa en pares de pregunta-respuesta fundamentados en pasajes, generados mediante un flujo de trabajo de prompting de estilo Qwen3 e integrado en el pipeline de codificadores de ALIA.

  Acceso: <https://huggingface.co/datasets/SINAI/ALIA-es-legal-triplets>
* **ALIA Spanish Legal and Administrative for Context Question Answering Corpus**: Corpus de preguntas-respuestas en el dominio legal-administrativo

  Acceso: <https://huggingface.co/datasets/SINAI/ALIA-es-legal-cqa>
* **GlBBQ: A**daptación al gallego de BBQ (*Bias Benchmark for QA*), un benchmark diseñado para medir sesgos sociales en sistemas de preguntas y respuestas (QA) de opción múltiple. En concreto, GlBBQ deriva de EsBBQ, la adaptación al español de BBQ. El conjunto de datos sigue el marco de BBQ, en el que los modelos se evalúan en dos tipos de contexto: contextos ambiguos, en los que no se puede determinar la respuesta correcta y el modelo debe evitar recurrir a estereotipos, y contextos desambiguados, en los que la respuesta correcta está respaldada explícitamente por el contexto, pero los sesgos pueden conducir a predicciones incorrectas.

  GlBBQ amplía este marco al gallego mediante una versión lingüísticamente adaptada de EsBBQ.

  Acceso: <https://huggingface.co/datasets/proxectonos/GlBBQ>
* **VeritasQA\_gl**: Versión gallega de VeritasQA, un benchmark para evaluar la veracidad de sistemas de preguntas y respuestas y modelos lingüísticos. Está diseñado para comprobar si los modelos reproducen conceptos erróneos y falsedades comunes en lugar de ofrecer respuestas veraces.

  Acceso: <https://huggingface.co/datasets/proxectonos/veritasqa_gl>
* **CALAME-gl**: Traducción/adaptación al gallego del benchmark portugués CALAME-PT.

  El conjunto de datos está compuesto por textos o contextos breves y sus respectivas últimas palabras. Estos contextos están diseñados para contener información suficiente para que una persona o un modelo pueda inferir la palabra final, evitando al mismo tiempo contextos excesivamente específicos o demasiado ambiguos. Esta versión contiene 930 instancias en formato JSON y está destinada principalmente a la evaluación.

  Acceso: <https://huggingface.co/datasets/proxectonos/calame-gl>
* **XNLI\_gl**: Extensión de XNLI traducida al gallego. Ha sido diseñada como un conjunto de datos multilingüe para la tarea de inferencia en lenguaje natural (*Natural Language Inference*), una tarea de clasificación textual que consiste en clasificar pares de oraciones —una premisa y una hipótesis— según su relación semántica, entre tres etiquetas posibles: implicación, contradicción y neutral.

  Acceso: <https://huggingface.co/datasets/proxectonos/xnli_gl>
* **TruthfulQA\_gl:** La versión gallega del conjunto de datos TruthfulQA. Este conjunto de datos se utiliza para medir la veracidad de un modelo lingüístico al generar respuestas a preguntas. Incluye preguntas de distintas categorías que algunas personas responderían incorrectamente debido a creencias falsas o ideas erróneas. Esta versión incluye únicamente la partición de generación.

  Acceso: <https://huggingface.co/datasets/proxectonos/truthfulqa_gl>
* **Belebele\_gl**: Conjunto de datos de comprensión lectora automática (MRC) de opción múltiple. El conjunto de datos original incluye 122 variantes lingüísticas; con este conjunto de datos se incorpora la lengua gallega. Está compuesto por 900 ítems traducidos y adaptados al gallego a partir de la versión en español.

  Acceso: <https://huggingface.co/datasets/proxectonos/belebele_gl>
* **OpenBookQA\_gl**: Conjunto de datos de preguntas y respuestas en gallego, traducido a partir del conjunto de datos inglés OpenBookQA.

  Acceso: <https://huggingface.co/datasets/proxectonos/openbookqa_gl>
* **PAWS-gl**: Traducción al gallego del conjunto de datos inglés PAWS.

  Acceso: <https://huggingface.co/datasets/proxectonos/PAWS-gl>
* **summarization\_gl**: Conjunto de datos gallego de resumen construido a partir de artículos de noticias y resúmenes extraídos automáticamente de tres fuentes de noticias gallegas: Nós Diario, Que Pasa na Costa y Praza Pública. El conjunto de datos contiene 80.829 instancias en total. Cada instancia incluye un texto periodístico y su resumen asociado.

  Acceso: <https://huggingface.co/datasets/proxectonos/summarization_gl>
* **xstorycloze\_gl**: Conjunto de datos gallego de comprensión narrativa de opción múltiple traducido a partir del conjunto de datos inglés StoryCloze. Cada instancia contiene un contexto narrativo de cuatro oraciones, dos posibles finales y una etiqueta que indica cuál de los finales es correcto. El conjunto de datos está pensado para evaluar la comprensión lectora, la coherencia narrativa y el razonamiento de sentido común en gallego.

  Acceso: <https://huggingface.co/datasets/proxectonos/xstorycloze_gl>
* **Parafrases\_gl**: Conjunto de datos para la evaluación de recursos de paráfrasis en gallego.

  Dado que la paráfrasis es una noción compleja y carece de una definición plenamente precisa y universalmente aceptada, este conjunto de datos adopta un esquema de anotación de tres categorías diseñado para capturar tanto paráfrasis claras como casos límite.

  Acceso: <https://huggingface.co/datasets/proxectonos/parafrases_gl>
* **GalCoLA**: Conjunto de datos de aceptabilidad gramatical en gallego en formato TSV. Está diseñado para la clasificación binaria a nivel de oración, en la que cada oración se etiqueta como gramaticalmente correcta o gramaticalmente incorrecta. El conjunto de datos reúne adaptaciones de materiales gallegos al estilo CoLA procedentes de dos contextos de investigación previos: conjuntos de datos de evaluación sintáctica dirigida de PROPOR 2022 y conjuntos de datos de dependencias de control de ACL 2023. GalCoLA contiene 17.088 oraciones en total.

  Acesso: <https://huggingface.co/datasets/proxectonos/galcola>
* **mgsm\_gl**: Versión gallega del conjunto de datos MGSM (*Multilingual Grade School Math*). Sirve como benchmark de problemas matemáticos de nivel escolar. Incluye 8 instancias en la partición de entrenamiento y otras 250 instancias en la partición de prueba. Cada instancia contiene problemas matemáticos básicos que requieren razonamiento de varios pasos, e incluye un problema matemático, una respuesta paso a paso, el resultado final del problema y la solución formulada mediante ecuaciones.

  Acceso: [https://huggingface.co/datasets/proxectonos/mgsm\_g](https://huggingface.co/datasets/proxectonos/mgsm_gl)
* **Galician NER**: Corpus en lengua gallega anotados y revisados manualmente para entrenar y evaluar modelos de reconocimiento de entidades nombradas (NER), que permiten identificar, delimitar y clasificar semánticamente nombres propios en categorías estandarizadas como persona, organización, localización y otras.&#x20;

  Acceso: <https://huggingface.co/datasets/proxectonos/Galician_NER>
* **sentimento-gl**: Corpus en lengua gallega para entrenar y evaluar modelos de análisis de sentimiento, con más de 45.000 oraciones y cerca de 80.000 tokens.&#x20;

  Acceso: <https://huggingface.co/datasets/proxectonos/sentimento-gl>
* **UD\_Galician-PUD**: Corpus de 1.000 frases gallegas anotadas con sus dependencias sintácticas . Es relevante tanto por su utilidad en el desarrollo de herramientas de PLN en gallego como por su valor para realizar comparaciones sintácticas con el resto de las lenguas del PUD.&#x20;

  Acceso: [https://huggingface.co/datasets/proxectonos/UD\_Galician-PUD ](https://huggingface.co/datasets/proxectonos/UD_Galician-PUD)

### Corpus para clasificación

* **LexBOE**: clasificación de textos legales del Boletín Oficial del Estado, con etiquetas unificadas y datos anonimizados, para evaluar modelos en un contexto jurídico-administrativo español realista.&#x20;

  Acceso: <https://huggingface.co/datasets/BSC-LT/LexBOE>
* **AbSanitas**: recuperación de información biomédica, combinando abstracts en español con consultas sintéticas validadas y distractores controlados para medir la precisión en el emparejamiento pregunta-documento.&#x20;

  Acceso: <https://huggingface.co/datasets/BSC-LT/AbSanitas>
* **AbScientia**: clasificación temática de abstracts científicos en español, cuidadosamente filtrados y normalizados para ofrecer categorías científicas coherentes.&#x20;

  Acceso: <https://huggingface.co/datasets/BSC-LT/AbScientia>
* **DISCRIMINATIVE CLEARSIM\_ES Dataset:** Conjunto de textos en español diseñado para entrenar o evaluar modelos en una tarea de clasificación relacionada con el lenguaje claro. El conjunto de datos está compuesto por pares y tríos de textos alineados en tres niveles de complejidad: lengua original, lengua facilitada y lectura fácil. Incluye un total de 13.953 textos, agrupados en 4.651 tripletas únicas.

  Acceso: <https://huggingface.co/datasets/gplsi/discriminative_clearsim_es>
* **DISCRIMINATIVE CLEARSIM\_VA Dataset**: Conjunto de textos en valenciano diseñado para entrenar o evaluar modelos en una tarea de clasificación relacionada con el lenguaje claro. El conjunto de datos está compuesto por pares y tríos de textos alineados en tres niveles de complejidad: lengua original, lengua facilitada y lectura fácil. Incluye un total de 13.953 textos, agrupados en 4.651 tripletas únicas.

  Acceso: <https://huggingface.co/datasets/gplsi/discriminative_clearsim_va>&#x20;
* **BALANCED\_FAKE\_JOB\_POSTINGS\_EN Dataset:** Conjunto de textos en inglés diseñado para entrenar o evaluar modelos en una tarea de detección de fraude. Versión balanceada en inglés del conjunto de datos original de Kaggle *Fake Job Postings Dataset:* [*Real or Fake? Fake Job Posting Prediction*](https://www.kaggle.com/datasets/shivamb/real-or-fake-fake-jobposting-prediction/data). Incluye 1.730 ofertas de empleo, distribuidas equitativamente entre anuncios fraudulentos (falsos) y no fraudulentos (reales).

  Acceso:[ https://huggingface.co/datasets/gplsi/fake\_job\_postings\_balanced\_en](https://huggingface.co/datasets/gplsi/fake_job_postings_balanced_en)
* **BALANCED\_FAKE\_JOB\_POSTINGS\_VA Dataset**: Conjunto de textos en valenciano diseñado para entrenar o evaluar modelos en una tarea de detección de fraude. Versión traducida del conjunto de datos original de Kaggle *Fake Job Postings Dataset:* [*Real or Fake? Fake Job Posting Prediction*](https://www.kaggle.com/datasets/shivamb/real-or-fake-fake-jobposting-prediction/data). Incluye 1.730 ofertas de empleo, distribuidas equitativamente entre anuncios fraudulentos (falsos) y no fraudulentos (reales).

  Acceso: <https://huggingface.co/datasets/gplsi/fake_job_postings_balanced_va>&#x20;
* **DISCRIMINATIVE COUNTERFEIT\_ES Dataset**: Conjunto de textos en español diseñado para entrenar o evaluar modelos en una tarea de verificación de marcas y detección de productos falsificados  en entornos jurídicos y administrativos.

  Acceso: <https://huggingface.co/datasets/gplsi/discriminative_counterfeit_es>
* **DISCRIMINATIVE COUNTERFEIT\_EN Dataset**: Conjunto de textos en inglés diseñado para entrenar o evaluar modelos en una tarea de verificación de marcas y detección de productos falsificados  en entornos jurídicos y administrativos.

  Acceso: <https://huggingface.co/datasets/gplsi/discriminative_counterfeit_en>

### Corpus de pre entrenamiento ALIA 40B

Acceso: <https://langtech-bsc.gitbook.io/alia-kit/datasets/datos-y-herramientas-para-modelos-de-texto/datasets-de-pre-entrenamiento-alia-40b>

***

### Herramientas para el suministro de datos de texto

Para garantizar el suministro de datos, se han implantado distintos métodos de adquisición de datos que automatizan este proceso y garantizan el suministro y la actualización de los datos.

* Extractor de texto de Wikipedia que interpreta correctamente textos en una gran variedad de lenguas, entre ellas el español y el catalán. Extracción de más de 675.000 documentos.
  * Acceso: [https://github.com/langtech-bsc/Wikiextractor-V2/​](https://github.com/langtech-bsc/Wikiextractor-V2/%E2%80%8B)

Por otra parte, se ha desarrollado un anonimizador de contenidos generados por usuarios. Canal de anonimización para introducir datos de fuera del BSC que puedan contener datos protegidos por el GDPR.

* Acceso: <https://github.com/langtech-bsc/AnonymizationPipeline>

***


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://langtech-bsc.gitbook.io/alia-kit/datasets/datos-y-herramientas-para-modelos-de-texto.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
