1 de 11

ALIA Kit

Inicio

ALIA Kit, el espacio de recursos lingüísticos

ALIA kit es el espacio que da acceso a todos los recursos en castellano y lenguas cooficiales como los modelos del lenguaje, los modelos multimodales (texto, voz e imagen), las metodologías, la documentación y los conjuntos de datos de entrenamiento y evaluación.

Los recursos publicados del ALIA Kit se han desarrollado en el marco del Plan Nacional de Tecnologías de Lenguaje de la Estrategia Nacional de Inteligencia Artificial, y está financiado por el Ministerio para la Transformación Digital y de la Función Pública, con fondos de la Unión Europea – NextGenerationEU.

Usos y aplicaciones

Los modelos de lenguaje están diseñados para ayudar en diversas tareas generando texto basado en los datos con los que fueron entrenados. Sin embargo, tienen limitaciones y posibles riesgos. Las respuestas de los modelos pueden no ser correctas o estar desactualizadas, por lo que es importante verificar siempre la información relevante en fuentes confiables. Además, los modelos pueden reproducir sesgos presentes en los datos de entrenamiento o generar contenido inapropiado; por ello, se deben usar con precaución.

Se recomienda no introducir información sensible, confidencial o personal. Asimismo, se recomienda también el uso ético y legal, evitando emplearlo para generar contenido dañino, ofensivo o ilegal.

El modelo no tiene comprensión real ni juicio humano; su texto se basa en patrones estadísticos y no debe considerarse como un asesor experto. Al usar los modelos, el usuario acepta estas limitaciones y se responsabiliza del uso adecuado y de garantizar el cumplimiento de las regulaciones aplicables, incluidas las que rigen el uso de la inteligencia artificial.

El Barcelona Supercomputing Center-Centro Nacional de Supercomputación, como creador del modelo, no será responsable de los resultados derivados del uso por parte de terceros.

Modelos

Modelos de texto

Descripción / Función

Nombre modelo

Model card

Comentarios

Descripción / Función

Nombre modelo

Model card

Comentarios

Descripción / Función

Nombre modelo

Model card

Comentarios

Descripción / Función

Nombre modelo

Model card

Comentarios

Descripción / Función

Nombre modelo

Model card

Comentarios

Modelos de traducción automática

Datasets

Datos y herramientas para modelos de texto

Corpus textual masivo

CATalog: Corpus formado por 17.450.496.729 palabras (alrededor de 23 mil millones de tokens) distribuidos en 34.816.765 documentos de gran variedad de fuentes y con un porcentaje importante de textos curados manualmente.

Acceso:

Datos anotados para fine tuning y/o evaluación de modelos de texto

Razonamiento causal

COPA-es: Traducción al castellano del corpus COPA, corpus de referencia para el razonamiento causal. Incluye 600 instancias, cada una de las cuales se compone de una premisa y dos hipótesis.
Acceso:

Datos para evaluar modelos de texto

OpenBookQA_es: Traducción al castellano del corpus OpenBookQA, diseñado para evaluar conocimientos básicos del mundo y cierta capacidad de razonamiento. Incluye 1000 instancias con una pregunta, cuatro opciones posibles y la letra que indica la respuesta correcta.
Acceso:
hhh_alignment_ca: Traducción al catalán del corpus hhh_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, divididos pragmáticamente en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.
Acceso:
hhh_alignment_es: Traducción al castellano del corpus hhh_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, divididos pragmáticamente en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.
Acceso:
IFEval_ca: Traducción al catalán del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.
Acceso:
IFEval_es: Traducción al castellano del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.
Acceso:
VeritasQA: Corpus diseñado para evaluar grandes modelos de lenguaje sobre la veracidad en un entorno zero-shot, basado en el corpus TruthfulQA. Incluye 353 pares de preguntas-respuestas inspiradas en ideas erróneas y falsedades comunes.
Acceso:

Datos y herramientas para modelos de voz

Corpus de voz

Corpus de voz con transcripción

corts_valencianes_asr_a: Conjunto de datos formado por grabaciones de voz de las sesiones de las Corts Valencianes. Incluye 270 horas, 5 minutos y 34 segundos de voz, incluyendo 239h 05m 24s para los segmentos cortos y 31h 00m 11s para los segmentos largos, con un total de 2.621.096 palabras.
Tarea: Reconocimiento del habla
Acceso: https://huggingface.co/datasets/projecte-aina/corts_valencianes_asr_a
commonvoice_benchmark_catalan_accents: Nueva versión del corpus Common Voice en catalán (v17) que incluye la anotación de metadatos (género y dialecto) hecha por un grupo de expertos de la Universidad de Barcelona de los 263 hablantes que en la v13 habían grabado más de 1.200 segundos de voz .
Tarea: Reconocimiento del habla
Acceso: https://huggingface.co/datasets/projecte-aina/commonvoice_benchmark_catalan_accents
escagleu-64k: Corpus paralelo de 64.091 frases traducidas del español al catalán, adaptación al valenciano, gallego y vasco. Las frases originales son en español y provienen del corpus Common Voice en español. La traducción al gallego y al vasco se realizó con traducción automática.
Tarea: Traducción automática, traducción de voz a texto y traducción de voz a voz
Acceso: https://huggingface.co/datasets/projecte-aina/escagleu-64k
Synthetic DEM Corpus: Conjunto de datos compuesto por grabaciones de voz con el acento característico del español del centro de México. El corpus tiene un tamaño de 371 horas e incluye palabras, definiciones, ejemplos y ejemplos generados por LLM. Este conjunto de datos es el resultado de la primera fase de una colaboración entre El Colegio de México (COLMEX) y el Barcelona Supercomputing Center (BSC).
Tarea: Reconocimiento del habla
Acceso: https://huggingface.co/datasets/projecte-aina/synthetic_dem

Datos para la traducción automática

Corpus paralelos para el entrenamiento de modelos de traducción automática

Idiomas

Núm. de Frases

Origen de los datos

Disponible en

Nombre del corpus

Idiomas

Núm. de Frases

Origen de los datos

Disponible en

Nombre del corpus

Idiomas

Núm. de Frases

Origen de los datos

Disponible en

Nombre del corpus

Idiomas

Núm. de Frases

Origen de los datos

Disponible en

Nombre del corpus

Idiomas

Núm. de Frases

Origen de los datos

Disponible en

Nombre del corpus

Demostradores

En Spaces de Hugging Face

Dentro de Hugging Face Spaces se han abierto servicios con una API gratuita (desde python, javascript o curl) con la que se pueden realizar pruebas.

Modelos de traducción automática utilizando SalamandraTA-2B

Datos y herramientas para modelos de voz

Corpus de voz

Corpus de voz con transcripción

corts_valencianes_asr_a: Conjunto de datos formado por grabaciones de voz de las sesiones de las Corts Valencianes. Incluye 270 horas, 5 minutos y 34 segundos de voz, incluyendo 239h 05m 24s para los segmentos cortos y 31h 00m 11s para los segmentos largos, con un total de 2.621.096 palabras.
Tarea: Reconocimiento del habla
Acceso: https://huggingface.co/datasets/projecte-aina/corts_valencianes_asr_a
commonvoice_benchmark_catalan_accents: Nueva versión del corpus Common Voice en catalán (v17) que incluye la anotación de metadatos (género y dialecto) hecha por un grupo de expertos de la Universidad de Barcelona de los 263 hablantes que en la v13 habían grabado más de 1.200 segundos de voz .
Tarea: Reconocimiento del habla
Acceso: https://huggingface.co/datasets/projecte-aina/commonvoice_benchmark_catalan_accents
escagleu-64k: Corpus paralelo de 64.091 frases traducidas del español al catalán, adaptación al valenciano, gallego y vasco. Las frases originales son en español y provienen del corpus Common Voice en español. La traducción al gallego y al vasco se realizó con traducción automática.
Tarea: Traducción automática, traducción de voz a texto y traducción de voz a voz
Acceso: https://huggingface.co/datasets/projecte-aina/escagleu-64k
Synthetic DEM Corpus: Conjunto de datos compuesto por grabaciones de voz con el acento característico del español del centro de México. El corpus tiene un tamaño de 371 horas e incluye palabras, definiciones, ejemplos y ejemplos generados por LLM. Este conjunto de datos es el resultado de la primera fase de una colaboración entre El Colegio de México (COLMEX) y el Barcelona Supercomputing Center (BSC).
Tarea: Reconocimiento del habla
Acceso: https://huggingface.co/datasets/projecte-aina/synthetic_dem

Inicio

ALIA Kit, el espacio de recursos lingüísticos

Usos y aplicaciones

El Barcelona Supercomputing Center-Centro Nacional de Supercomputación, como creador del modelo, no será responsable de los resultados derivados del uso por parte de terceros.

Datos y herramientas para modelos de texto

Corpus textual masivo

Acceso:

Datos anotados para fine tuning y/o evaluación de modelos de texto

Razonamiento causal

COPA-es: Traducción al castellano del corpus COPA, corpus de referencia para el razonamiento causal. Incluye 600 instancias, cada una de las cuales se compone de una premisa y dos hipótesis.
Acceso:

Datos para evaluar modelos de texto

OpenBookQA_es: Traducción al castellano del corpus OpenBookQA, diseñado para evaluar conocimientos básicos del mundo y cierta capacidad de razonamiento. Incluye 1000 instancias con una pregunta, cuatro opciones posibles y la letra que indica la respuesta correcta.
Acceso:
hhh_alignment_ca: Traducción al catalán del corpus hhh_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, divididos pragmáticamente en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.
Acceso:
hhh_alignment_es: Traducción al castellano del corpus hhh_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, divididos pragmáticamente en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.
Acceso:
IFEval_ca: Traducción al catalán del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.
Acceso:
IFEval_es: Traducción al castellano del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.
Acceso:
VeritasQA: Corpus diseñado para evaluar grandes modelos de lenguaje sobre la veracidad en un entorno zero-shot, basado en el corpus TruthfulQA. Incluye 353 pares de preguntas-respuestas inspiradas en ideas erróneas y falsedades comunes.
Acceso:

ALIA Kit

Inicio

ALIA Kit, el espacio de recursos lingüísticos

Modelos

Modelos de texto

Modelos de traducción automática

Datasets

Datos y herramientas para modelos de texto

Corpus textual masivo

Datos anotados para fine tuning y/o evaluación de modelos de texto

Razonamiento causal

Datos para evaluar modelos de texto

Datos y herramientas para modelos de voz

Corpus de voz

Corpus de voz con transcripción

Datos para la traducción automática

Corpus paralelos para el entrenamiento de modelos de traducción automática

Demostradores

En Spaces de Hugging Face

Page

Datos para la traducción automática

Corpus paralelos para el entrenamiento de modelos de traducción automática

Datos y herramientas para modelos de voz

Corpus de voz

Corpus de voz con transcripción

Inicio

ALIA Kit, el espacio de recursos lingüísticos

Modelos de texto

Datos y herramientas para modelos de texto

Corpus textual masivo

Datos anotados para fine tuning y/o evaluación de modelos de texto

Razonamiento causal

Datos para evaluar modelos de texto

Modelos de traducción automática

En Spaces de Hugging Face