🔠Datos y herramientas para modelos de texto

Corpus textuales

Corpus de dominio

  • ALIA_TOURISM: Corpus especializado en el dominio turístico que incluye textos en valenciano, español e inglés. Cada documento incluye su fuente original, lo que permite filtrar el contenido según la licencia necesaria para cada caso de uso. Incluye un total de 79.15M tokens, de ellos 12.56M en valenciano, 65.34M en español y 1.35M en inglés.

    Acceso: https://huggingface.co/datasets/gplsi/alia_tourismarrow-up-right

  • ALIA_INTELLECTUAL_PROPERTY: Corpus especializado en el dominio de la propiedad intelectual que incluye en su versión actual textos en español. Incluye un total de 1130M tokens en español.

    Acceso: https://huggingface.co/datasets/gplsi/alia_intellectual_propertyarrow-up-right

  • latxa-corpus-v2: Corpus en euskera que incluye de textos en los dominio legal, administrativo, periodístico y científico/académico, entre otros.

    Acceso: https://huggingface.co/datasets/HiTZ/latxa-corpus-v2arrow-up-right

  • ALIA_biomedical: Corpus de textos biomédicos oficiales y científicos en español, que incluye guías clínicas, registros médicos, publicaciones y boletines de salud, con más de 10 millones de instancias y 5.500 millones de tokens. Cubre áreas clave como la farmacología, la epidemiología, la salud pública y la investigación médica especializada.

    Acceso: https://huggingface.co/datasets/SINAI/ALIA-biomedicalarrow-up-right

  • ALIA Cultural Heritage Corpus: Corpus de documentos sobre patrimonio cultural en español que incluye inventarios patrimoniales, revistas especializadas, registros de archivo, publicaciones institucionales y recursos descriptivos sobre patrimonio material e inmaterial, con 236.399 instancias y 946.467.028 tokens, distribuidos en 102 conjuntos de datos de origen.

    Acceso: https://huggingface.co/datasets/SINAI/ALIA-cultural-heritagearrow-up-right

  • ALIA-legal-administrative: Recurso que reúne y organiza una amplia colección de documentos oficiales del ámbito jurídico y administrativo español. Con más de 7 millones de documentos y 5 mil millones de tokens, incluye boletines oficiales estatales, autonómicos y provinciales, registros especializados, documentos ministeriales, licitaciones, contratos públicos y actas parlamentarias, cubriendo así todo el ecosistema normativo e institucional español.

    Acceso: https://huggingface.co/datasets/SINAI/ALIA-legal-administrativearrow-up-right

  • ALIA Legal Hard Negatives: Conjunto de datos que reúne negativos destinados al entrenamiento de sistemas de recuperación, generados a partir de un corpus jurídico-administrativo en español compuesto por pares <consulta, pasaje>. El conjunto de datos se ha generado de forma automática mediante un pipeline de minería de negativos duros basado en SentenceTransformers, utilizando búsqueda de similitud con FAISS y el modelo de embeddings Qwen3-Embedding-0.6B.

    Acceso: https://huggingface.co/datasets/SINAI/ALIA-legal-administrative-hard-negativesarrow-up-right

Corpus para instruir modelos de texto

Corpus para generar datos sintéticos

Corpus anotados para ajustar y/o evaluar modelos de texto

  • Salamandra Guard dataset: corpus de clasificación de seguridad multilingüe diseñado para entrenar y evaluar sistemas de moderación de contenido en catalán y español. Consta de 21.335 ejemplos conversacionales cuidadosamente seleccionados y anotados según una taxonomía de seguridad jerárquica. Este conjunto de datos representa un avance significativo en datos de seguridad con base cultural, con especial énfasis en el catalán junto con el español y el inglés.

    Acceso: https://huggingface.co/datasets/BSC-LT/salamandra-guard-datasetarrow-up-right

  • Multi-LMentry: Conjunto de datos en nueve idiomas diseñado para evaluar LLMs en tareas de razonamiento y comprensión de nivel elemental; facilitar comparaciones multilingües, en particular entre idiomas con abundantes recursos y aquellos con recursos limitados; y servir como herramienta de diagnóstico o como un conjunto de pruebas unitarias para examinar las habilidades fundamentales de los modelos. Se trata de una extensión multilingüe de LMentryarrow-up-right.

    Acceso: https://huggingface.co/datasets/BSC-LT/multi_lmentryarrow-up-right

  • VeritasQA: Corpus diseñado para evaluar grandes modelos de lenguaje sobre la veracidad en un entorno zero-shot, basado en el corpus TruthfulQA. Incluye 353 pares de preguntas-respuestas inspiradas en ideas erróneas y falsedades comunes.

    Acceso: https://huggingface.co/datasets/projecte-aina/veritasQAarrow-up-right

  • EQ-bench_es: Versión traducida al castellano y adaptada lingüísticamente del conjunto de datos original EQ-Bencharrow-up-right, diseñado para evaluar el razonamiento emocional en modelos de lenguaje mediante indicaciones basadas en diálogos. Su diseño responde a la necesidad de ajustar las capacidades de detección emocional de los modelos multilingües, reconociendo que la expresión y la percepción de las emociones pueden variar de manera significativa entre lenguas.

    Acceso: https://huggingface.co/datasets/BSC-LT/EQ-bench_esarrow-up-right

  • EQ-bench_ca: Versión traducida al calalán y adaptada lingüísticamente del conjunto de datos original EQ-Bencharrow-up-right, diseñado para evaluar el razonamiento emocional en modelos de lenguaje mediante indicaciones basadas en diálogos. Su diseño responde a la necesidad de ajustar las capacidades de detección emocional de los modelos multilingües, reconociendo que la expresión y la percepción de las emociones pueden variar de manera significativa entre lenguas.

    Acceso: https://huggingface.co/datasets/BSC-LT/EQ-bench_caarrow-up-right

  • EsBBQ: Adaptación del conjunto de datos original BBQarrow-up-right a la lengua castellana y al contexto social de España. Este recurso se utiliza para evaluar el sesgo social en modelos de lenguaje a gran escala (LLM) en una tarea de preguntas y respuestas con opciones múltiples, centrada en diez categorías sociales: edad, discapacidad, género, identidad LGBTQIA, nacionalidad, apariencia física, raza/etnicidad, religión, nivel socioeconómico y región española.

    Acceso: https://huggingface.co/datasets/BSC-LT/EsBBQarrow-up-right

  • CaBBQ: Adaptación del conjunto de datos original BBQarrow-up-right a la lengua catalana y al contexto social de España. Este recurso se utiliza para evaluar el sesgo social en modelos de lenguaje a gran escala (LLM) en una tarea de preguntas y respuestas con opciones múltiples, centrada en diez categorías sociales: edad, discapacidad, género, identidad LGBTQIA, nacionalidad, apariencia física, raza/etnicidad, religión, nivel socioeconómico y región española.

    Acceso: https://huggingface.co/datasets/BSC-LT/CaBBQarrow-up-right

  • OpenBookQA_es: Traducción al castellano del corpus OpenBookQA, diseñado para evaluar conocimientos básicos del mundo y cierta capacidad de razonamiento. Incluye 1000 instancias con una pregunta, cuatro opciones posibles y la letra que indica la respuesta correcta.

    Acceso: https://huggingface.co/datasets/BSC-LT/openbookqa-esarrow-up-right

  • hhh_alignment_es: Traducción al castellano del corpus hhh_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, con una clasificación pragmática en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.

    Acceso: https://huggingface.co/datasets/BSC-LT/hhh_alignment_esarrow-up-right

  • hhh_alignment_ca: Traducción al catalán del corpus hhh_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, con una clasificación pragmática en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.

    Acceso: https://huggingface.co/datasets/projecte-aina/hhh_alignment_caarrow-up-right

  • IFEval_es: Traducción al castellano del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.

    Acceso: https://huggingface.co/datasets/BSC-LT/IFEval_esarrow-up-right

  • IFEval_ca: Traducción al catalán del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.

    Acceso: https://huggingface.co/datasets/projecte-aina/IFEval_caarrow-up-right

  • SIQA_es: Traducción y adaptación al español del conjunto de validación de SIQAarrow-up-right (Social Interaction Question Answering), diseñado para evaluar el razonamiento social de sentido común en modelos de lenguaje, presentando una colección de preguntas basadas en situaciones sociales cotidianas, con el objetivo de desafiar a los modelos a inferir motivaciones, reacciones e implicaciones sociales detrás de las acciones humanas.

    Acceso: https://huggingface.co/datasets/BSC-LT/SIQA_esarrow-up-right

  • arc_es: Traducción y adaptación al español del conjunto de validación de ARCarrow-up-right (AI2 Reasoning Challenge), diseñado para evaluar el razonamiento científico en modelos de lenguaje, presentando una colección de preguntas auténticas de ciencias de nivel escolar en formato de opción múltiple, divididas en dos conjuntos de distinta dificultad: ARC Easy y ARC Challenging.

    Acceso: https://huggingface.co/datasets/BSC-LT/arc_esarrow-up-right

  • COPA-es: Traducción al castellano del corpus COPA, corpus de referencia para el razonamiento causal. Incluye 600 instancias, cada una de las cuales se compone de una premisa y dos hipótesis.

    Acceso: https://huggingface.co/datasets/BSC-LT/COPA-esarrow-up-right

  • cobie_sst2: Modificación del SST-2arrow-up-right original para evaluar sesgos cognitivos en LLMs.

    Acceso: https://huggingface.co/datasets/BSC-LT/cobie_sst2arrow-up-right

  • cobie_ai2_arc: Modificación del ARCarrow-up-right original para evaluar sesgos cognitivos en LLMs.

    Acceso: https://huggingface.co/datasets/BSC-LT/cobie_ai2_arcarrow-up-right

  • RAG_eu: Corpus de evaluación para RAGs en diferentes dominios (legal-administrativo, parlamentos, periodistico) y tareas (clasificación de dominio, predicción de capacidad de respuesta y recuperación de información).

    Acceso: https://huggingface.co/datasets/HiTZ/RAG_euarrow-up-right

  • ALIA-administrative-triplets: conjunto de datos diseñado para entrenar y evaluar modelos orientados a la recuperación de información.

    Acceso: https://huggingface.co/datasets/SINAI/ALIA-administrative-tripletsarrow-up-right

  • ALIA-legal-administrative-cqa: Corpus de preguntas-respuestas en el dominio legal-administrativo

    Acceso: https://huggingface.co/datasets/SINAI/ALIA-legal-administrative-cqaarrow-up-right

  • Galician NER: Corpus en lengua gallega anotados y revisados manualmente para entrenar y evaluar modelos de reconocimiento de entidades nombradas (NER), que permiten identificar, delimitar y clasificar semánticamente nombres propios en categorías estandarizadas como persona, organización, localización y otras.

    Acceso: https://huggingface.co/datasets/proxectonos/Galician_NERarrow-up-right

  • sentimento-gl: Corpus en lengua gallega para entrenar y evaluar modelos de análisis de sentimiento, con más de 45.000 oraciones y cerca de 80.000 tokens.

    Acceso: https://huggingface.co/datasets/proxectonos/sentimento-glarrow-up-right

  • UD_Galician-PUD: Corpus de 1.000 frases gallegas anotadas con sus dependencias sintácticas . Es relevante tanto por su utilidad en el desarrollo de herramientas de PLN en gallego como por su valor para realizar comparaciones sintácticas con el resto de las lenguas del PUD.

    Acceso: https://huggingface.co/datasets/proxectonos/UD_Galician-PUD arrow-up-right

Corpus para clasificación

Corpus de pre entrenamiento ALIA 40B

Acceso: https://langtech-bsc.gitbook.io/alia-kit/datasets/datos-y-herramientas-para-modelos-de-texto/datasets-de-pre-entrenamiento-alia-40barrow-up-right


Herramientas para el suministro de datos de texto

Para garantizar el suministro de datos, se han implantado distintos métodos de adquisición de datos que automatizan este proceso y garantizan el suministro y la actualización de los datos.

Por otra parte, se ha desarrollado un anonimizador de contenidos generados por usuarios. Canal de anonimización para introducir datos de fuera del BSC que puedan contener datos protegidos por el GDPR.


Última actualización