Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Catalán-Gallego
33.668.599
NOS + AINA
CA-GL_Parallel_Corpus
Catalán-Euskera
10.471.139
GAITU + AINA
CA-EU_Parallel_Corpus
Español-Aragonés
47.521
Corpus sintético + OPUS
ES-AN Parallel Corpus
Español-Asturiano
704.378
Corpus sintético + OPUS
ES-AST Parallel Corpus
Español-Aranés
419.908
Corpus sintético + OPUS
ES-OC Parallel Corpus
corts_valencianes_asr_a: Conjunto de datos formado por grabaciones de voz de las sesiones de las Corts Valencianes. Incluye 270 horas, 5 minutos y 34 segundos de voz, incluyendo 239h 05m 24s para los segmentos cortos y 31h 00m 11s para los segmentos largos, con un total de 2.621.096 palabras.
Tarea: Reconocimiento del habla
Acceso: https://huggingface.co/datasets/projecte-aina/corts_valencianes_asr_a
commonvoice_benchmark_catalan_accents: Nueva versión del corpus Common Voice en catalán (v17) que incluye la anotación de metadatos (género y dialecto) hecha por un grupo de expertos de la Universidad de Barcelona de los 263 hablantes que en la v13 habían grabado más de 1.200 segundos de voz .
Tarea: Reconocimiento del habla
Acceso: https://huggingface.co/datasets/projecte-aina/commonvoice_benchmark_catalan_accents
escagleu-64k: Corpus paralelo de 64.091 frases traducidas del español al catalán, adaptación al valenciano, gallego y vasco. Las frases originales son en español y provienen del corpus Common Voice en español. La traducción al gallego y al vasco se realizó con traducción automática.
Tarea: Traducción automática, traducción de voz a texto y traducción de voz a voz
Acceso: https://huggingface.co/datasets/projecte-aina/escagleu-64k
Synthetic DEM Corpus: Conjunto de datos compuesto por grabaciones de voz con el acento característico del español del centro de México. El corpus tiene un tamaño de 371 horas e incluye palabras, definiciones, ejemplos y ejemplos generados por LLM. Este conjunto de datos es el resultado de la primera fase de una colaboración entre El Colegio de México (COLMEX) y el Barcelona Supercomputing Center (BSC).
Tarea: Reconocimiento del habla
Acceso: https://huggingface.co/datasets/projecte-aina/synthetic_dem
ALIA kit es el espacio que da acceso a todos los recursos en castellano y lenguas cooficiales como los modelos del lenguaje, los modelos multimodales (texto, voz e imagen), las metodologías, la documentación y los conjuntos de datos de entrenamiento y evaluación.
Los recursos publicados del ALIA Kit se han desarrollado en el marco del Plan Nacional de Tecnologías de Lenguaje de la Estrategia Nacional de Inteligencia Artificial, y está financiado por el Ministerio para la Transformación Digital y de la Función Pública, con fondos de la Unión Europea – NextGenerationEU.
Usos y aplicaciones
Los modelos de lenguaje están diseñados para ayudar en diversas tareas generando texto basado en los datos con los que fueron entrenados. Sin embargo, tienen limitaciones y posibles riesgos. Las respuestas de los modelos pueden no ser correctas o estar desactualizadas, por lo que es importante verificar siempre la información relevante en fuentes confiables. Además, los modelos pueden reproducir sesgos presentes en los datos de entrenamiento o generar contenido inapropiado; por ello, se deben usar con precaución.
Se recomienda no introducir información sensible, confidencial o personal. Asimismo, se recomienda también el uso ético y legal, evitando emplearlo para generar contenido dañino, ofensivo o ilegal.
El modelo no tiene comprensión real ni juicio humano; su texto se basa en patrones estadísticos y no debe considerarse como un asesor experto. Al usar los modelos, el usuario acepta estas limitaciones y se responsabiliza del uso adecuado y de garantizar el cumplimiento de las regulaciones aplicables, incluidas las que rigen el uso de la inteligencia artificial.
El Barcelona Supercomputing Center-Centro Nacional de Supercomputación, como creador del modelo, no será responsable de los resultados derivados del uso por parte de terceros.
Modelo masivo de lenguaje (LLM) de propósito general (modelo base)
ALIA-40B
Modelo generativo multilingüe (35 lenguas de Europa) de 40 mil millones de parámetros, entrenado desde cero con 9,2 billones de tokens.
Modelo masivo de lenguaje (LLM) de propósito general (modelo base)
salamandra-7b
Modelo generativo multilingüe (35 lenguas de Europa) de 7 mil millones de parámetros, entrenado desde cero con 7,8 billones de tokens.
Modelo masivo de lenguaje (LLM) de propósito general (instruido)
salamandra-7b-instruct
Modelo salamandra-7b entrenado con 276 mil instrucciones en inglés, castellano y catalán recogidas de varios corpus abiertos.
Modelo masivo de lenguaje (LLM) de propósito general (modelo base)
salamandra-2b
Modelo generativo multilingüe (35 lenguas de Europa) de 2 mil millones de parámetros, entrenado desde cero con 7,8 billones de tokens.
Modelo masivo de lenguaje (LLM) de propósito general (instruido)
salamandra-2b-instruct
Modelo salamandra-2b entrenado con 276 mil instrucciones en inglés, castellano y catalán recogidas de varios corpus abiertos.
CATalog: Corpus formado por 17.450.496.729 palabras (alrededor de 23 mil millones de tokens) distribuidos en 34.816.765 documentos de gran variedad de fuentes y con un porcentaje importante de textos curados manualmente.
Acceso:
COPA-es: Traducción al castellano del corpus COPA, corpus de referencia para el razonamiento causal. Incluye 600 instancias, cada una de las cuales se compone de una premisa y dos hipótesis.
Acceso:
OpenBookQA_es: Traducción al castellano del corpus OpenBookQA, diseñado para evaluar conocimientos básicos del mundo y cierta capacidad de razonamiento. Incluye 1000 instancias con una pregunta, cuatro opciones posibles y la letra que indica la respuesta correcta.
Acceso:
hhh_alignment_ca: Traducción al catalán del corpus hhh_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, divididos pragmáticamente en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.
Acceso:
hhh_alignment_es: Traducción al castellano del corpus hhh_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, divididos pragmáticamente en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.
Acceso:
IFEval_ca: Traducción al catalán del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.
Acceso:
IFEval_es: Traducción al castellano del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.
Acceso:
VeritasQA: Corpus diseñado para evaluar grandes modelos de lenguaje sobre la veracidad en un entorno zero-shot, basado en el corpus TruthfulQA. Incluye 353 pares de preguntas-respuestas inspiradas en ideas erróneas y falsedades comunes.
Acceso:
Traducción automática multilingüe
salamandraTA-2b
Model entrenado con 70.000 millones de tokens de datos paralelos en 30 idiomas diferentes. Es el primer modelo de la serie SalamandraTA, está entrenado para una traducción automática a nivel de frases y párrafos.
Traducción automática multilingüe
Plume256k
Primer LLM entrenado desde cero para traducción automática neuronal con sólo datos paralelos centrados en catalán. Tiene la misma arquitectura que .
Traducción automática multilingüe
Plume128k
Primer LLM entrenado desde cero para traducción automática neuronal con sólo datos paralelos centrados en catalán. Tiene la misma arquitectura que .
Traducción automática multilingüe
Plume32k
Primer LLM entrenado desde cero para traducción automática neuronal con sólo datos paralelos centrados en catalán. Tiene la misma arquitectura que .
Traducción automática Gallego → Catalán
aina-translator-gl-ca
Modelo de traducción gallego-catalán entrenado desde cero con y un conjunto de aproximadamente 75 millones de pares de frases, que incluye datos paralelos auténticos recogidos de la web, y datos paralelos sintéticos creados con el traductor .
Traducción automática Vasco → Catalán
aina-translator-eu-ca
Modelo de traducción vasco-catalán entrenado desde cero con y un conjunto de aproximadamente 75 millones de pares de frases, que incluye datos paralelos auténticos recogidos de la web, y datos paralelos sintéticos creados con el traductor ES-EU .
Traducción automática Español-Asturiano
aina-translator-es-ast
Modelo de traducción español-asturiano resultado de un ajuste completo del modelo con un corpus español-asturiano.
Traducción automática Español-Aragonés
aina-translator-es-an
Modelo de traducción español-aragonés resultado de un ajuste completo del modelo con un corpus español-aragonés.
Traducción automática Español-Aranés
aina-translator-es-oc
Modelo de traducción español-aranés resultado de un ajuste completo del modelo con un corpus español-aranés.
Dentro de Hugging Face Spaces se han abierto servicios con una API gratuita (desde python, javascript o curl) con la que se pueden realizar pruebas.
Modelos de traducción automática utilizando SalamandraTA-2B