Modelos para desarrolladores (fundacionales y para fine-tuning)
Adaptación de modelos para tareas específicas
Descripción / Función
LLM instruido (multilingüe)
Nombre modelo
ALIA-40b-instruct-2601
Model card
Comentarios
Última versión de la familia de modelos ALIA. Aunque el desarrollo sigue en curso y se prevén nuevas actualizaciones, esta versión ya integra varias mejoras significativas con respecto a lanzamientos anteriores, destacando un seguimiento de instrucciones más preciso, mayor robustez ante entradas ruidosas o ambiguas, una alineación de seguridad reforzada y capacidades ampliadas para el manejo de contextos largos.
Descripción / Función
LLM instruido (multilingüe)
ALIA-40b-instruct-2601-GGUF
Model card
Versión cuantizada GGUF del modelo ALIA-40b-instruct-2601
Descripción / Función
LLM instruido (inglés, español, catalán)
Nombre modelo
salamandra-7b-instruct
Model card
Comentarios
Modelo salamandra-7b entrenado con 276 mil instrucciones en inglés, español y catalán, recopiladas de diversos corpus abiertos.
Descripción / Función
LLM instruido (inglés, español, catalán)
Nombre modelo
salamandra-2b-instruct
Model card
Comentarios
Modelo salamandra-2b entrenado con 276 mil instrucciones en inglés, español y catalán, recopiladas de diversos corpus abiertos.
Modelo de lenguaje causal de 8 mil millones de parámetros, diseñado para gallego, portugués, español, inglés y catalán. Es el resultado de un preentrenamiento continuo del modelo meta-llama/Llama-3.1-8B con un corpus multilingüe de 340 millones de tokens, con un énfasis especial en el gallego.
Descripción / Función
LLM instruido (euskera)
Nombre modelo
Latxa 3.1 Instruct 70B
Model card
Comentarios
Modelo instruido de 70 mil millones de parametros basado en Llama-3.1 (Instruct) y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.
Descripción / Función
LLM instruido (euskera)
Nombre modelo
Latxa 3.1 Instruct 8B
Model card
Comentarios
Modelo instruido de 8 mil millones de parametros basado en Llama-3.1 (Instruct) y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.
Descripción / Función
LLM (multilingüe)
Nombre modelo
salamandra-7b
Model card
Comentarios
Modelo generativo multilingüe, entrenado desde cero en 35 idiomas europeos, con 8 mil millones de parámetros y 12,875 billones de tokens.
Descripción / Función
LLM (multilingüe)
Nombre modelo
salamandra-2b
Model card
Comentarios
Modelo generativo multilingüe, entrenado desde cero en 35 idiomas europeos, con 2 mil millones de parámetros y 12,875 billones de tokens.
Descripción / Función
LLM (gallego, portugués, español, inglés)
Nombre modelo
Llama-Carvalho-PT-GL
Model card
Comentarios
Modelo de lenguaje causal de 8 mil millones de parámetros, diseñado para gallego, portugués, español e inglés. Es el resultado de un preentrenamiento continuo del modelo utilizando un corpus multilingüe compuesto por 540 millones de tokens de texto plano y 72 millones de tokens de instrucciones.
Modelo de lenguaje generativo de 8 mil millones de parámetros, diseñado para gallego, portugués, español, catalán e inglés. Es el resultado de un preentrenamiento continuo del modelo con un corpus multilingüe de casi 20 mil millones de tokens, con especial énfasis en textos en gallego.
Descripción / Función
LLM (euskera)
Nombre modelo
Latxa 3.1 8B
Model card
Comentarios
Modelo fundacional de 8 mil millones de parametros basado en Llama 3.1 y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.
Descripción / Función
LLM (valenciano)
Nombre modelo
Aitana-2B-S
Model card
Comentarios
Modelo de lenguaje generativo entrenado a partir de , utilizando datos en valenciano para lograr una mayor representación de esta lengua minoritaria, muy similar al catalán.
Descripción / Función
LLM (valenciano, español, inglés - turismo)
Nombre modelo
Aitana-2B-S-tourism-base-1.0
Model card
Comentarios
Modelo de lenguaje generativo basado en y entrenado adicionalmente con datos del dominio turístico para mejorar su rendimiento en la generación de textos relacionados con el turismo.
Descripción / Función
LLM (valenciano, español, inglés)
Nombre modelo
Aitana-2B-S-base-1.0
Model card
Comentarios
Modelo de lenguaje generativo entrenado a partir de , utilizando datos en valenciano, español e inglés.
Descripción / Función
Modelo transformer (multilingüe)
Nombre modelo
mRoBERTa
Model card
Comentarios
Modelo multilingüe, entrenado en 35 idiomas y 92 lenguajes de programación, con un volumen total de 12,8 TB de datos.
Descripción / Función
Modelo transformer (catalán)
Nombre modelo
RoBERTa-ca
Model card
Comentarios
Modelo para catalán basado en , con pesos inicializados desde y ajustes en embeddings para diferencias de tokenización. Preentrenado de forma continua con 95 GB de datos en catalán de alta calidad.
Descripción / Función
Modelo transformer (euskera)
Nombre modelo
BERnaT-base
Model card
Comentarios
Modelo discriminativo BERnaT de 100M de parámetros, basado en la arquitecutra , entrenado from scratch con corpus en euskera que combina texto estándar y no estándar (redes sociales e histórico).
Descripción / Función
Modelo transformer (euskera)
Nombre modelo
BERnaT-large
Model card
Comentarios
Modelo discriminativo BERnaT de 400M de parámetros, basado en la arquitecutra entrenado from scratch con corpus en euskera que combina texto estándar y no estándar (redes sociales e histórico).
Descripción / Función
Modelo transformer (euskera)
Nombre modelo
BERnaT-medium
Model card
Comentarios
Modelo discriminativo BERnaT de 51,4M de parámetros, basado en la arquitecutra , entrenado from scratch con corpus en euskera que combina texto estándar y no estándar (redes sociales e histórico).
Modelo fine-tuneado a partir de para la clasificación binaria de la detección de phishing en textos en inglés. Predice si un determinado SMS o correo electrónico pertenece o no a la categoría de phishing.
Modelo de traducción automática que sirve para capitalizar y puntuar texto normalizado en euskera. El modelo ha sido entrenado desde cero utilizando y un dataset de 9,784,905 frases en euskera
Modelo de traducción automática de texto que sirve para capitalizar y puntuar texto normalizado en castellano. El modelo ha sido entrenado desde cero utilizando y un dataset de 9,784,905 frases en castellano.
Modelo preentrenado de forma continua con datos del dominio del turismo en español y valenciano. Este modelo especializado está optimizado para comprender textos relacionados con el turismo, incluidos descripciones de hoteles, guías de destinos, servicios de viaje y contenidos de patrimonio cultural.
Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería , a partir del corpus Sabela del dataset . Requiere transcripción fonética generada mediante la herramienta , la cual también realiza la normalización previa del texto.
Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería , a partir del corpus Icía del dataset . Requiere transcripción fonética generada mediante la herramienta , la cual también realiza la normalización previa del texto.
Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería , a partir del corpus Iago del dataset . Requiere transcripción fonética generada mediante la herramienta , la cual también realiza la normalización previa del texto.
Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería , a partir del corpus Paulo del dataset . Requiere transcripción fonética generada mediante la herramienta , la cual también realiza la normalización previa del texto.
Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería , a partir del corpus . Requiere transcripción fonética generada mediante la herramienta , la cual también realiza la normalización previa del texto.
Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería , a partir del corpus . Requiere transcripción fonética generada mediante la herramienta , la cual también realiza la normalización previa del texto.
Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería , a partir del corpus . El modelo fue entrenado directamente con grafemas como entrada, de modo que no necesita una transcripción fonética. La herramienta , puede utilizarse para llevar a cabo la normalización del texto de entrada.
Colección de 12 modelos de síntesis de voz en euskera (2), gallego (6), catalán (2), español (2), entrenados para el modelo VITS. Requiere el uso del script de síntesis de
Modelo HuBERT Base preentrenado con 2.000 horas de datos de voz en lenguas ibéricas (español, catalán, euskera y gallego). La arquitectura del modelo es la misma que la del
Modelo de reconocimiento de voz derivado a partir del modelo preentrenado , entrenado con un corpus de 1.366,18 horas de grabaciones en euskera, español y habla bilingüe con eventos de code-switching.
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Modelos de traducción automática
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Reconocimiento de voz (euskera-español)
BBS-S2TC_conformer_transducer_large
Modelo diseñado específicamente para una participación en el BBS-S2TC (Bilingual Basque Spanish Speech-to-Text Challenge) de la sección de desafíos de las evaluaciones Albayzin de IBERSPEECH 2024. El modelo transcribe habla en español utilizando el alfabeto en minúsculas, incluidos los espacios, y fue entrenado con un conjunto de datos compuesto por 1462 horas de audio en español y euskera. Se afinó (fine-tuned) a partir del modelo vasco preentrenado stt_eu_conformer_transducer_large mediante el toolkit Nvidia NeMo.
Reconocimiento de voz (español)
spanish-verification-model-pkt-a
Modelo de verificación, basado en diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-b para realizar verificación cruzada y aumentar la confianza en las transcripciones.
Reconocimiento de voz (español)
spanish-verification-model-pkt-b
Modelo de verificación, basado en diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-a para realizar verificación cruzada y aumentar la confianza en las transcripciones.
Reconocimiento de voz (español)
spanish-verification-model-pkt-c
Modelo de verificación, basado en diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-d para realizar verificación cruzada y aumentar la confianza en las transcripciones.
Reconocimiento de voz (español)
spanish-verification-model-pkt-d
Modelo de verificación, basado en diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-c para realizar verificación cruzada y aumentar la confianza en las transcripciones.
Reconocimiento de voz (español)
parakeet-rnnt-1.1b_cv17_es_ep18_1270h
Modelo acústico derivado de nvidia/parakeet-rnnt-1.1b, optimizado para tareas de reconocimiento automático de voz en español.
Diarización de hablantes (español)
pyannote-segmentation-3.0-RTVE
Este sistema consta de tres modelos ajustados, diseñados para fusionarse mediante DOVER-Lap. Cada modelo se entrena poniendo el foco en un componente distinto de la métrica Diarization Error Rate (Falsas Alarmas, Detecciones Omitidas y Confusión de Hablantes).
Modelo para el reconocimiento automático de voz en catalán, optimizado a partir del modelo whisper-large-v3 con 4.700 horas de grabaciones en catalán. El modelo está diseñado para transcribir audio en catalán a texto plano, sin signos de puntuación.
Modelo para el reconocimiento automático de voz en valenciano, optimizado a partir del modelo whisper-large-v3 con 397 horas y 55 minutos de grabaciones.
Modelo para el reconocimiento automático de voz en balear, optimizado a partir del modelo whisper-large-v3 con 90 horas.
Reconocimiento de voz (euskera)
stt_eu_conformer_ctc_large
Este modelo transcribe habla en euskera utilizando el alfabeto vasco en minúsculas, con inclusión de espacios. Ha sido entrenado con un conjunto de datos que reúne 548 horas de audio en euskera y refinado (fine-tuned) a partir del modelo español preentrenado stt_es_conformer_ctc_large mediante el toolkit Nvidia NeMo.
Reconocimiento de voz (euskera)
stt_eu_conformer_transducer_large
Este modelo transcribe habla en euskera utilizando el alfabeto vasco en minúsculas, incluidos los espacios. Ha sido entrenado con un conjunto de datos compuesto por 548 horas de habla en euskera. Se afinó (fine-tuned) a partir del modelo español preentrenado stt_es_conformer_transducer_large utilizando el toolkit Nvidia NeMo.
Reconocimiento de voz (euskera)
whisper-tiny-eu
Modelo para el reconocimiento automático de voz en el euskera. Ha sido ajustado a partir de openai/whisper-tiny utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.
Reconocimiento de voz (euskera)
whisper-small-eu
Modelo para el reconocimiento automático de voz en el euskera. Ha sido ajustado (fine-tuned) a partir de openai/whisper-small utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.
Reconocimiento de voz (euskera)
whisper-medium-eu
Modelo para el reconocimiento automático de voz en el euskera. Ha sido ajustado (fine-tuned) a partir de openai/whisper-medium utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.
Reconocimiento de voz (euskera)
whisper-base-eu
Modelo para el reconocimiento automático de voz en el euskera. Ha sido ajustado (fine-tuned) a partir de openai/whisper-base utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.
Reconocimiento de voz (euskera)
whisper-large-eu
Modelo para el reconocimiento automático de voz en el euskera. Ha sido ajustado (fine-tuned) a partir de openai/whisper-large utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.
Reconocimiento de voz (euskera)
whisper-large-v2-eu
Modelo para el reconocimiento automático de voz en el euskera. Ha sido ajustado (fine-tuned) a partir de openai/whisper-large-v2 utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.
Reconocimiento de voz (euskera)
whisper-large-v3-eu
Modelo para el reconocimiento automático de voz en el euskera. Ha sido ajustado (fine-tuned) a partir de openai/whisper-large-v3 utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.
SalamandraTA-7b-instruct ajustado con el conjunto de datos ACAD-Train.
Traducción automática multilingüe
SalamandraTA-7b-instruct-GGUF
Versión cuantizada GGUF del modelo SalamandraTA-7b-instruct.
Traducción automática multilingüe
SalamandraTA-7b-instruct
SalamandraTA-7b-instruct es el resultado de un proceso de preentrenamiento continuo de Salamandra-7b con datos paralelos y técnicas de instrucción. SalamandraTA-7b-instruct destaca por su competencia en 35 lenguas europeas, además de 3 variedades regionales.
Traducción automática multilingüe
SalamandraTA-2b-academic
SalamandraTA-2b-instruct ajustado con el conjunto de datos ACAD-Train.
Traducción automática multilingüe
SalamandraTA-2b-instruct-GGUF
Versión cuantizada GGUF del modelo SalamandraTA-2b-instruct.
Traducción automática multilingüe
SalamandraTA-2b-instruct
SalamandraTA-2b-instruct es el resultado de un proceso de preentrenamiento continuo de Salamandra-2b con datos paralelos y técnicas de instrucción. SalamandraTA-7b-instruct destaca por su competencia en 35 lenguas europeas, además de 3 variedades regionales.
Traducción automática Español-Valenciano
Aitana-TA-2B-S
Modelo de lenguaje para traducción (LLM) que ha sido ajustado mediante aprendizaje por instrucciones a partir de . Este modelo está específicamente optimizado para la traducción entre español y valenciano, con un enfoque centrado en la traducción a nivel de oración.
Traducción automática Español → Gallego
Nos_MT-CT2-es-gl
Modelo de traducción español-gallego desarrollado con OpenNMT-py 3.5.2, utilizando una arquitectura Transformer. Posteriormente, el modelo fue convertido al formato de CTranslate2.
Traducción automática Gallego → Español
Nos_MT-CT2-gl_es
Modelo de traducción gallego-español desarrollado con OpenNMT-py 3.5.2, utilizando una arquitectura Transformer. Posteriormente, el modelo fue convertido al formato de CTranslate2.
Traducción automática Inglés → Gallego
Nos_MT-CT2-en-gl
Modelo de traducción inglés-gallego desarrollado con OpenNMT-py 3.5.2, utilizando una arquitectura Transformer. Posteriormente, el modelo fue convertido al formato de CTranslate2.
Traducción automática Gallego → Inglés
Nos_MT-CT2-gl-en
Modelo de traducción gallego-inglés desarrollado con OpenNMT-py 3.5.2, utilizando una arquitectura Transformer. Posteriormente, el modelo fue convertido al formato de CTranslate2.
Traducción automática Gallego → Catalán
aina-translator-gl-ca
Modelo de traducción gallego-catalán desarrollado desde cero con Fairseq, entrenado sobre un corpus de cerca de 75 millones de pares de frases, que integra datos paralelos auténticos recopilados de la web y datos sintéticos generados mediante el traductor Proxecto Nós.
Traducción automática Vasco → Catalán
aina-translator-eu-ca
Modelo de traducción vasco-catalán desarrollado desde cero con Fairseq, entrenado sobre un corpus de cerca de 75 millones de pares de frases, que integra datos paralelos auténticos recopilados de la web y datos sintéticos generados mediante el traductor ES-EU HiTZ.
Traducción automática Español-Asturiano
aina-translator-es-ast
Modelo de traducción español-asturiano, resultado de un ajuste completo (full fine-tuning) del modelo NLLB-200-600M sobre un corpus paralelo español-asturiano.
Traducción automática Español-Aragonés
aina-translator-es-an
Modelo de traducción español-aragonés, resultado de un ajuste completo (full fine-tuning) del modelo NLLB-200-600M sobre un corpus paralelo español-aragonés.
Traducción automática Español-Aranés
aina-translator-es-oc
Modelo de traducción español-aranés, resultado de un ajuste completo (full fine-tuning) del modelo NLLB-200-600M sobre un corpus paralelo español-aranés.
CATalog: Corpus textual masivo compuesto por 17.450.496.729 palabras (aproximadamente 23 mil millones de tokens), distribuidas en 34.816.765 documentos provenientes de una amplia variedad de fuentes, con un porcentaje significativo de textos curados manualmente.
ALIA_DOGV Dataset: Corpus textual bilingüe valenciano-español proveniente del Diari Oficial de la Generalitat Valenciana.
Acceso:
ALIA_BOUA Dataset: Corpus textual bilingüe valenciano-español proveniente del Boletín Oficial de la Universidad de Alicante.
Acceso:
ALIA_AMIC Dataset: Corpus textual en valenciano proveniente de periódicos/blogs del repositorio AMIC.
Acceso:
ALIA_LES_CORTS Dataset: Corpus textual bilingüe valenciano-español proveniente de Les Corts Valencianes.
Acceso:
MULTILINGUAL PARALLEL SENTENCES Dataset: Corpus de textos multilingües valenciano, español e inglés.
Acceso:
Corpus de dominio
ALIA_TOURISM: Corpus especializado en el dominio turístico que incluye textos en valenciano, español e inglés. Cada documento incluye su fuente original, lo que permite filtrar el contenido según la licencia necesaria para cada caso de uso. Incluye un total de 79.15M tokens, de ellos 12.56M en valenciano, 65.34M en español y 1.35M en inglés.
Acceso:
ALIA_INTELLECTUAL_PROPERTY: Corpus especializado en el dominio de la propiedad intelectual que incluye en su versión actual textos en español. Incluye un total de
1130M tokens en español.
Acceso:
Datos anotados para fine tuning y/o evaluación de modelos de texto
Razonamiento causal
COPA-es: Traducción al castellano del corpus COPA, corpus de referencia para el razonamiento causal. Incluye 600 instancias, cada una de las cuales se compone de una premisa y dos hipótesis.
Acceso:
Datos para instruir modelos de texto
InstruCAT: Corpus que recopila más de 200.000 instrucciones destinadas al entrenamiento de modelos de lenguaje (LLMs) en tareas downstream, generadas a partir de los siguientes conjuntos de datos: caBreu, CatalanQA, CoQCat, GuiaCat, IntoxiCat, Parafraseja, PAWS-ca, sts-ca, WikiCat, CEIL, TECA y NLUCat. Estas instrucciones abarcan categorías como paráfrasis, detección de toxicidad, pregunta-respuesta, clasificación, resumen y análisis de sentimientos.
Acceso:
ALIA-legal-administrative-synthetic-instructions: Corpus sintético de instrucciones en español para el dominio legal-administrativo. Incluye más de 7,4 millones de pares instrucción–respuesta.
Acceso:
Generación de datos sintéticos
mPersonas: Conjunto de datos multilingüe y de código abierto que contiene descripciones de personalidad de alta calidad, generadas sintéticamente con DeepSeek-V3–0324. Emplea una metodología de síntesis de datos basada en personas, similar a la de .
Acceso:
Datos para evaluar modelos de texto
SIQA_es: Traducción y adaptación al español del conjunto de validación de (Social Interaction Question Answering), diseñado para evaluar el razonamiento social de sentido común en modelos de lenguaje, presentando una colección de preguntas basadas en situaciones sociales cotidianas, con el objetivo de desafiar a los modelos a inferir motivaciones, reacciones e implicaciones sociales detrás de las acciones humanas.
Acceso:
arc_es: Traducción y adaptación al español del conjunto de validación de (AI2 Reasoning Challenge), diseñado para evaluar el razonamiento científico en modelos de lenguaje, presentando una colección de preguntas auténticas de ciencias de nivel escolar en formato de opción múltiple, divididas en dos conjuntos de distinta dificultad: ARC Easy y ARC Challenging.
Datasets de clasificación
DISCRIMINATIVE CLEARSIM_ES Dataset: Conjunto de textos en español diseñado para entrenar o evaluar modelos en una tarea de clasificación relacionada con el lenguaje claro. El conjunto de datos está compuesto por pares y tríos de textos alineados en tres niveles de complejidad: lengua original, lengua facilitada y lectura fácil. Incluye un total de 13.953 textos, agrupados en 4.651 tripletas únicas.
Acceso:
DISCRIMINATIVE CLEARSIM_VA Dataset: Conjunto de textos en valenciano diseñado para entrenar o evaluar modelos en una tarea de clasificación relacionada con el lenguaje claro. El conjunto de datos está compuesto por pares y tríos de textos alineados en tres niveles de complejidad: lengua original, lengua facilitada y lectura fácil. Incluye un total de 13.953 textos, agrupados en 4.651 tripletas únicas.
Datasets de pre entrenamiento ALIA 40B
Acceso:
Herramientas para el suministro de datos de texto
Para garantizar el suministro de datos, se han implantado distintos métodos de adquisición de datos que automatizan este proceso y garantizan el suministro y la actualización de los datos.
Extractor de texto de Wikipedia que interpreta correctamente textos en una gran variedad de lenguas, entre ellas el español y el catalán. Extracción de más de 675.000 documentos.
Acceso:
Por otra parte, se ha desarrollado un anonimizador de contenidos generados por usuarios. Canal de anonimización para introducir datos de fuera del BSC que puedan contener datos protegidos por el GDPR.
Acceso:
Datasets de pre entrenamiento ALIA 40B
Relación de datasets con referencias en el marco del pre entrenamiento del modelo ALIA 40B.
Los corpus de entrenamiento se listan a continuación:
Corpus
Lenguas
Link
Colossal OSCAR 1.0
bg, ca, cs, cy, da, de, el, en, es, et, eu, fi, fr, ga, gl, hr, hu, it, lt, lv, mt, nl, nn, no, oc, pl, pt, ro, ru, sh, sk, sl, sr, sv, uk
Aya Dataset (w/o Evaluation Suite)
eu, hr, nl, fi, ka, hu, lt, nn, ro, sk, lv, cy, bg, cs, en, fr, de, ga, mt, pl, ru, sl, sv, ca, da, et, gl, el, it, no, pt, sr, es, uk
Wikimedia dumps
Modelos multimodales
Inicio - ALIA Kit
¿Qué es el proyecto ALIA?
ALIA es una iniciativa pionera en la Unión Europea que busca proporcionar una infraestructura pública de recursos de IA, como modelos de lenguaje abiertos y transparentes, para fomentar el impulso del castellano y lenguas cooficiales -catalán y valenciano, euskera y gallego- en el desarrollo y despliegue de la IA en el mundo.
El objetivo es facilitar la creación de una nueva generación de recursos y servicios tecnológicos innovadores enriquecidos con el inmenso patrimonio lingüístico del castellano, hablado por 600 millones de personas en el mundo, y las lenguas cooficiales.
Datos para la traducción automática
Corpus paralelos para el entrenamiento de modelos de traducción automática
latxa-corpus-v2: Corpus en euskera que incluye de textos en los dominio legal, administrativo, periodístico y científico/académico, entre otros.
ALIA-legal-administrative: Recurso que reúne y organiza una amplia colección de documentos oficiales del ámbito jurídico y administrativo español. Con más de 7 millones de documentos y 5 mil millones de tokens, incluye boletines oficiales estatales, autonómicos y provinciales, registros especializados, documentos ministeriales, licitaciones, contratos públicos y actas parlamentarias, cubriendo así todo el ecosistema normativo e institucional español.
Multi-LMentry: Conjunto de datos en nueve idiomas diseñado para evaluar LLMs en tareas de razonamiento y comprensión de nivel elemental; facilitar comparaciones multilingües, en particular entre idiomas con abundantes recursos y aquellos con recursos limitados; y servir como herramienta de diagnóstico o como un conjunto de pruebas unitarias para examinar las habilidades fundamentales de los modelos. Se trata de una extensión multilingüe de LMentry.
EQ-bench_ca: Versión traducida al calalán y adaptada lingüísticamente del conjunto de datos original EQ-Bench, diseñado para evaluar el razonamiento emocional en modelos de lenguaje mediante indicaciones basadas en diálogos. Su diseño responde a la necesidad de ajustar las capacidades de detección emocional de los modelos multilingües, reconociendo que la expresión y la percepción de las emociones pueden variar de manera significativa entre lenguas.
EQ-bench_es: Versión traducida al castellano y adaptada lingüísticamente del conjunto de datos original EQ-Bench, diseñado para evaluar el razonamiento emocional en modelos de lenguaje mediante indicaciones basadas en diálogos. Su diseño responde a la necesidad de ajustar las capacidades de detección emocional de los modelos multilingües, reconociendo que la expresión y la percepción de las emociones pueden variar de manera significativa entre lenguas.
CaBBQ: Adaptación del conjunto de datos original BBQ a la lengua catalana y al contexto social de España. Este recurso se utiliza para evaluar el sesgo social en modelos de lenguaje a gran escala (LLM) en una tarea de preguntas y respuestas con opciones múltiples, centrada en diez categorías sociales: edad, discapacidad, género, identidad LGBTQIA, nacionalidad, apariencia física, raza/etnicidad, religión, nivel socioeconómico y región española.
EsBBQ: Adaptación del conjunto de datos original BBQ a la lengua castellana y al contexto social de España. Este recurso se utiliza para evaluar el sesgo social en modelos de lenguaje a gran escala (LLM) en una tarea de preguntas y respuestas con opciones múltiples, centrada en diez categorías sociales: edad, discapacidad, género, identidad LGBTQIA, nacionalidad, apariencia física, raza/etnicidad, religión, nivel socioeconómico y región española.
OpenBookQA_es: Traducción al castellano del corpus OpenBookQA, diseñado para evaluar conocimientos básicos del mundo y cierta capacidad de razonamiento. Incluye 1000 instancias con una pregunta, cuatro opciones posibles y la letra que indica la respuesta correcta.
hhh_alignment_ca: Traducción al catalán del corpus hhh_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, con una clasificación pragmática en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.
hhh_alignment_es: Traducción al castellano del corpus hhh_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, con una clasificación pragmática en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.
IFEval_ca: Traducción al catalán del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.
IFEval_es: Traducción al castellano del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.
VeritasQA: Corpus diseñado para evaluar grandes modelos de lenguaje sobre la veracidad en un entorno zero-shot, basado en el corpus TruthfulQA. Incluye 353 pares de preguntas-respuestas inspiradas en ideas erróneas y falsedades comunes.
RAG_eu: Corpus de evaluación para RAGs en diferentes dominios (legal-administrativo, parlamentos, periodistico) y tareas (clasificación de dominio, predicción de capacidad de respuesta y recuperación de información).
BALANCED_FAKE_JOB_POSTINGS_EN Dataset: Conjunto de textos en inglés diseñado para entrenar o evaluar modelos en una tarea de detección de fraude. Versión balanceada en inglés del conjunto de datos original de Kaggle Fake Job Postings Dataset: Real or Fake? Fake Job Posting Prediction. Incluye 1.730 ofertas de empleo, distribuidas equitativamente entre anuncios fraudulentos (falsos) y no fraudulentos (reales).
BALANCED_FAKE_JOB_POSTINGS_VA Dataset: Conjunto de textos en valenciano diseñado para entrenar o evaluar modelos en una tarea de detección de fraude. Versión traducida del conjunto de datos original de Kaggle Fake Job Postings Dataset: Real or Fake? Fake Job Posting Prediction. Incluye 1.730 ofertas de empleo, distribuidas equitativamente entre anuncios fraudulentos (falsos) y no fraudulentos (reales).
DISCRIMINATIVE COUNTERFEIT_ES Dataset: Conjunto de textos en español diseñado para entrenar o evaluar modelos en una tarea de verificación de marcas y detección de productos falsificados en entornos jurídicos y administrativos.
DISCRIMINATIVE COUNTERFEIT_EN Dataset: Conjunto de textos en inglés diseñado para entrenar o evaluar modelos en una tarea de verificación de marcas y detección de productos falsificados en entornos jurídicos y administrativos.
Se trata de la primera infraestructura pública europea, abierta y multilingüe que, gracias a las capacidades únicas de supercomputación del Barcelona Supercomputing Center, refuerza la soberanía tecnológica de España y Europa en el desarrollo de una IA transparente, responsable y al servicio de las personas.
¿Qué es el ALIA Kit?
El Alia Kit es la materialización tangible del proyecto Alia. Es una colección completa y organizada de modelos y conjuntos de datos abiertos desarrollados por el proyecto para la comunidad. Funciona como un conjunto de herramientas (kit) para que cualquier persona o entidad interesada pueda construir productos y servicios basados en inteligencia artificial en lengua catalana.
Los recursos publicados del ALIA Kit se han desarrollado en el marco del Plan Nacional de Tecnologías de Lenguaje de la Estrategia Nacional de Inteligencia Artificial, y está financiado por el Ministerio para la Transformación Digital y de la Función Pública, con fondos de la Unión Europea – NextGenerationEU.
El contenido del Alia Kit es diverso y abarca todo el ciclo de vida del desarrollo de aplicaciones de IA:
Modelos de Lenguaje: Incluye una amplia gama de modelos de IA instruidos y fundacionales para tareas de texto (generación, clasificación, etc.), habla (reconocimiento y síntesis de voz) y traducción automática.
Datasets (Conjuntos de Datos): Ofrece los corpus de texto, voz y traducción automática, tanto generales como especializados, que se han utilizado para entrenar y evaluar los modelos.
Herramientas de Integración: Proporciona herramientas para facilitar la integración de estos recursos en aplicaciones y flujos de trabajo existentes.
Guía de Adopción (FAQ): La recoge de manera estructurada toda la información esencial para entender y aprovechar los recursos de Alia Kit: qué familias de modelos existen, cómo se pueden utilizar (instruidos, fundacionales, etc.), cómo desplegarlos y adaptarlos a cada caso. También incluye información sobre licencias, requisitos técnicos y herramientas de soporte.
Demostradores: Los muestran ejemplos prácticos y aplicaciones de los modelos en funcionamiento, que sirven de inspiración y punto de partida.
Los modelos y datasets (conjuntos de datos) creados en el marco del proyecto Alia están a disposición de todas aquellas entidades públicas y privadas que los quieran utilizar. Los recursos se publican en abierto y con licencias permisivas.
Éste es un documento vivo, que irá evolucionando. Si quieres enviarnos comentarios, correcciones y/o sugerencias de mejora puedes hacerlo vía el formulario de contacto.
Manténgase al día del proyecto ALIA
El proyecto ALIA se encuentra en constante evolución. Para todos aquellos interesados en seguir de cerca su desarrollo, resolver dudas o incluso colaborar activamente con ellos, existen diversas plataformas y canales de comunicación.
Como primer recurso, esta misma página del Alia Kit, con las descripciones de los recursos.
Si no se encuentra la respuesta, consulta la guía de adopción (FAQ), que contiene respuestas a las preguntas más frecuentes, breves tutoriales y vídeos específicos.
Un tercer nivel se realizará colectivamente con un canal Discord en el que se puede compartir dudas y soluciones. Si hay preguntas más específicas, existen canales específicos de modelos de Texto, Voz, Traducción y Datasets donde tanto la comunidad como los investigadores del BSC podrán resolver las dudas.
A continuación están disponibles los enlaces oficiales para no perder ninguna novedad y formar parte de esta comunidad:
Nueva versión de la familia de modelos de visión Salamandra y presenta importantes mejoras en su arquitectura y entrenamiento. Incorpora un codificador de imágenes , utiliza la base de ajustada con datos de instrucciones recientes y un enfoque especial en lenguas europeas, y mejora su comprensión visual gracias a la integración de los conjuntos de datos , que refuerzan el anclaje visual preciso y las capacidades de conteo.
Versión ajustada de , que utiliza como codificador de voz. Ha sido entrenado con 12.000 horas de datos de reconocimiento de voz, 900 horas de datos de traducción de voz a texto y 113 millones de tokens de traducción de texto a texto para mantener el rendimiento del modelo original.
Modelo multimodal y multilingüeinstruido, adaptado al euskera y construido sobre .
EL modelo ha sido entrenado con un corpus en euskera de 4,3 millones de documentos, así como un corpus de tamaño equivalente en Catalán y Gallego.
Datos y herramientas para modelos de voz
Corpus de voz
Corpus de voz con transcripción
Nos_ParlaSpeech-GL: Conjunto de datos formado por más de 1.600 horas de audio y texto alineados automáticamente, creado a partir de grabaciones y transcripciones oficiales de las sesiones parlamentarias gallegas celebradas entre 2015 y 2022.
Acceso:
Nos_Transcrispeech-GL: Corpus ASR en gallego transcrito manualmente y alineado con texto mediante reconocimiento de voz, que contiene 50 horas de habla multidominio. Incluye distintos tipos de audio: conferencias, debates, discursos e entrevistas.
Acceso:
Nos_RG-Podcast-GL: Conjunto de datos en gallego de 328 horas, transcrito y alineado automáticamente para tareas de reconocimiento automático del habla (ASR). Incluye 33 series de pódcast en gallego, organizadas en siete géneros principales: cultura, sociedad, historia, igualdad, ciencia, humor y ficción.
Acceso:
CommonPhone-SE: Conjunto de datos de referencia derivado de Commonphone. Contiene muestras de audio en siete idiomas, grabadas por personas de entre 18 y 80 años. Su objetivo es ofrecer un conjunto de datos diverso en cuanto a los hablantes, destinado a evaluar y comparar algoritmos de mejora del habla en condiciones reales.
Acceso:
distilled-yodas-spanish: Subconjunto de alta calidad de la sección en español del YouTube-Oriented Dataset for Audio and Speech (). Mientras que el corpus completo de YODAS incluye más de 37.000 horas de habla en español distribuidas en 43 millones de archivos, este conjunto ofrece una versión depurada y validada que comprende aproximadamente 8.000 horas de grabaciones.
Acceso:
Nos_Celtia-GL: Corpus compuesto por 20.000 frases (aproximadamente 200.000 palabras). Está formado por dos subcorpus: el primero, elaborado previamente por el Grupo de Tecnoloxías Multimedia (GTM) en colaboración con el Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH), incluye texto periodístico (escrito) y frases diseñadas manualmente (interrogativas, exclamativas, imperativas, listas de números, etc.); el segundo, compilado por el Proyecto Nós a partir de textos de distintos dominios temáticos, reúne transcripciones de discurso oral, definiciones de diccionario, transcripciones de discursos parlamentarios, transcripciones de informativos y oraciones breves (<4 palabras), interrogativas, exclamativas, imperativas y elípticas.
Acceso:
Nos_Brais-GL: Corpus basado en un corpus textual de 16.121 frases (aproximadamente 168.000 palabras) compuesto por tres subcorpus: frases seleccionadas de un corpus compilado por el Proyecto Nós a partir de textos multidominio y previamente utilizado en el corpus TTS Nos_Celtia-GL; frases seleccionadas de un corpus elaborado anteriormente por el Grupo de Tecnoloxías Multimedia (GTM) y el Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH); y, por último, un subcorpus de 500 palabras fonéticamente ricas extraído del Dicionario de pronuncia da lingua galega. Nos_Brais-GL fue grabado en un entorno controlado (estudio de grabación) por un locutor profesional seleccionado entre tres candidatos mediante una prueba de escucha perceptual en la que 37 participantes evaluaron la claridad, prosodia, agrado y competencia lingüística de cada uno.
Acceso:
Nos_Telexornais-GL: Corpus de ASR con más de 1.100 horas de habla transcrita y alineada automáticamente utilizando Google Chirp2. Este corpus fue creado a partir de audio de noticias gallegas entre 2019 y 2022. El contenido pertenece a la Corporación de Radio y Televisión de Galicia y los datos se publican de acuerdo con sus términos de uso.
Acceso:
corts_valencianes_asr_a: Conjunto de datos formado por grabaciones de voz de las sesiones de las Corts Valencianes. Incluye 270 horas, 5 minutos y 34 segundos de voz, distribuidos en 239h 05m 24s correspondientes a segmentos cortos y 31h 00m 11s correspondientes a segmentos largos. El corpus incluye un total de 2.621.096 palabras.
Tarea: Reconocimiento del habla
Acceso:
commonvoice_benchmark_catalan_accents:Benchmark diseñado para evaluar la precisión de los modelos de reconocimiento automático del habla en distintos géneros y dialectos. Elaborado a partir de una reorganización de los datos de , incluye dos horas y media de audio.
Tarea: Reconocimiento del habla
Acceso:
cv17_es_other_automatically_verified: 581.680 archivos de audio (784 horas y 50 minutos) en castellano validados automáticamente con el modelo .
Tarea: Reconocimiento del habla
Acceso:
escagleu-64k: Corpus paralelo de 64.091 frases traducidas del español al catalán, adaptación al valenciano, gallego y vasco. Las frases originales provienen del corpus Common Voice. La traducción al gallego y al vasco se realizó con traducción automática.
Tarea: Traducción automática, traducción de voz a texto y traducción de voz a voz.
Acceso:
Synthetic DEM Corpus: Conjunto de datos compuesto por grabaciones de voz con el acento característico del español del centro de México. El corpus tiene un tamaño de 371 horas e incluye palabras, definiciones, ejemplos y ejemplos generados por LLM. Este conjunto de datos es el resultado de la primera fase de una colaboración entre El Colegio de México (COLMEX) y el Barcelona Supercomputing Center (BSC).
Tarea: Reconocimiento del habla
Acceso:
composite_corpus_es_1.0: Conjunto de datos compuesto por grabaciones de voz con su transcripción en español creado con datos de acceso público. Incluye un total de 2.676 horas (525.692 oraciones).
Acceso:
composite_corpus_eu_2.1: Conjunto de datos compuesto por grabaciones de voz con su transcripción en euskera creado con datos de acceso público. Incluye un total de 707 horas (407.167 oraciones).
Acceso:
composite_corpus_eseu_v1.0: Conjunto de datos bilingüe compuesto por grabaciones de voz con su transcripción en euskera y español (misma proporción) creado con datos de acceso público. Incluye un total de 1.456 horas (741.738 oraciones).
Acceso:
benchmark_eseu_testsets: Conjunto de datos de test balanceados en castellano, euskera y bilingüe con code-switching. Incluye un total de 11 horas (5.737 oraciones).
Acceso:
En Spaces de Hugging Face
Dentro de Hugging Face Spaces se han abierto servicios con una API gratuita (desde python, javascript o curl) con la que se pueden realizar pruebas.
Sistema de chat para interactuar con los modelos del Alia Kit:
Modelos de traducción automática con diversidad de idiomas:
¿Los modelos del Alia Kit cubren varios idiomas o solo español?
La mayoría de los modelos de Alia Kit son multilingües, con fuerte soporte al español y a las lenguas cooficiales (català, euskera, gallego). Por ejemplo, ALIA-40B fue entrenado en 35 idiomas europeos (incluyendo español, inglés, francés, catalán, etc.). Esto les permite comprender y generar texto en múltiples lenguas.
¿Qué modelos de texto ofrece el Alia Kit?
Los modelos de texto del Alia Kit se pueden agrupar en varias familias principales, cada una con sus propias características y casos de uso. Se pueden encontrar con sus descripciones respectivas en la página de modelos de texto.
Las familias de modelos más relevantes son:
Familia ALIA: Es una de las generaciones más recientes y avanzadas de LLMs del proyecto. Su principal representante es el ALIA-40B, un modelo multilingüe (cubre 35 lenguas europeas) con un especial énfasis en las lenguas cooficiales de España. Tiene 40 mil millones de parámetros y fue entrenado desde cero en el superordenador MareNostrum 5. Por ahora, está disponible su versión fundacional (para desarrolladores y fine-tuning).
Familia Salamandra: Dentro de la misma iniciativa de desarrollo que ALIA-40B, los modelos Salamandra también son parte de la generación más reciente y avanzada. También son modelos multilingües (cubren 35 lenguas europeas) y están disponibles en varios tamaños y en tres variantes: instruidos (listos para usar), fundacionales (para desarrolladores y fine-tuning) y adaptados a tareas específicas. Son la opción recomendada para la mayoría de los nuevos proyectos que requieran capacidades generativas.
¿Qué diferencia hay entre un modelo instruido (listo para usar), un modelo fundacional (para desarrolladores y fine-tuning) y un modelo adaptado a tareas específicas?
Modelos Fundacionales: Un modelo fundacional, como salamandra-7b o ALIA-40B, ha sido entrenado en una tarea muy simple: predecir la siguiente palabra en una secuencia de texto a partir de un corpus masivo. El resultado es un modelo con un vasto conocimiento lingüístico y del mundo, pero que no está diseñado para interactuar directamente con un usuario o seguir órdenes. Su principal utilidad es servir como "base" sobre la cual los desarrolladores pueden realizar un ajuste fino (fine-tuning) para tareas muy especializadas.
Modelos Instruidos: Un modelo instruido, como salamandra-7b-instruct, es un modelo fundacional que ha pasado por una segunda fase de entrenamiento. En esta fase, se le ajusta con un conjunto de datos que consiste en miles de ejemplos de "instrucciones" y las "respuestas" deseadas (como el dataset MentorES). Este proceso le enseña al modelo a comportarse como un asistente: a responder preguntas, a seguir órdenes y a mantener un diálogo coherente. Son los modelos "listos para usar" para la creación de chatbots y aplicaciones conversacionales.
Modelo adaptado a tareas específicas: Un modelo que ha sido ajustado o entrenado específicamente para un dominio o función particular, como reconocimiento de entidades (NER), clasificación textual, anotación morfosintáctica (POS), etc. Suele ofrecer mejores resultados en ese campo concreto, aunque es menos flexible para otras tareas.
¿Qué es RAG (Retrieval-Augmented Generation)? ¿Ofrece el Alia Kit modelos y datasets para tareas de RAG?
En un LLM estándar, el modelo genera respuestas basándose únicamente en la información que "aprendió" durante su entrenamiento. Esto tiene dos limitaciones principales: la información puede estar desactualizada y el modelo puede "alucinar" o inventar datos si no conoce la respuesta. RAG soluciona esto conectando el LLM a una base de conocimiento externa (por ejemplo, la documentación interna de una empresa, ficheros PDF o artículos de noticias recientes). Antes de generar una respuesta, el sistema primero recupera los documentos más relevantes de esa base de conocimiento y luego los proporciona al LLM como contexto para que genere una respuesta precisa y fundamentada en esos datos.
Sí, los modelos instruidos del Alia Kit (como Salamandra-7B-instructed y Salamandra-2B-instructed) son capaces de realizar flujos RAG para responder preguntas basándose en contextos externos. Se pueden encontrar en la página de modelos de texto.
Además, está disponible el dataset RAG_Multilingual, un conjunto de datos que contiene más de 56.000 ejemplos de preguntas, contextos y respuestas en catalán, castellano e inglés, diseñado explícitamente para entrenar y evaluar sistemas RAG. Disponible en este enlace.
¿Qué modelos de voz (habla) ofrece el Alia Kit?
El Alia Kit ofrece modelos de vanguardia para las dos tareas fundamentales de la tecnología del habla:
Síntesis de Voz (Text-to-Speech, TTS): Modelos que convierten texto escrito en audio hablado.
Reconocimiento Automático del Habla (Automatic Speech Recognition, ASR): Modelos que transcriben audio hablado a texto escrito.
Los modelos de voz del Alia Kit y sus descripciones se pueden encontrar en la página de modelos de voz.
¿Cuál es la diferencia entre los modelos de texto y los modelos de traducción automática?
Los modelos de texto del Alia Kit son modelos de lenguaje general capaces de generar, comprender y manipular texto en diferentes idiomas y contextos, mientras que los modelos de traducción automática están específicamente diseñados para convertir texto de un idioma a otro con alta fidelidad y precisión, por lo que la principal diferencia es que los primeros son versátiles y útiles para tareas como redacción, resumen o diálogo, mientras que los segundos se centran exclusivamente en la tarea de traducir de forma eficiente y controlada.
¿Los modelos del Alia Kit están disponibles como APIs?
Por ahora el Alia Kit no ofrece sus modelos mediante una API propia: los publica como repositorios en Hugging Face junto con sus model cards, para que cualquiera pueda desplegarlos usando frameworks como Transformers, FastAPI, o Gradio, o utilizarlos como endpoints en varias plataformas, incluida la propia Hugging Face Inference Endpoints, en Amazon Web Services, Azure, etc.
¿Cómo puedo empezar a usar y probar los modelos del Alia Kit de forma local o para prototipos?
Para usar los modelos del Alia Kit existen varias opciones según las necesidades del usuario:
Instalación local con código Python: Descargar los pesos desde Hugging Face y cargarlos con la biblioteca Transformers. Es necesario crear un entorno virtual, instalar las librerías clave como torch y transformers y luego cargar el modelo. Hay ejemplos de código en las model cards de cada modelo específico.
Softwares especializados: Herramientas como Ollama y LM Studio permiten ejecutar modelos localmente de forma más user-friendly, siempre que el modelo esté disponible en formato GGUF (no todos los modelos del Alia Kit están en este formato por defecto, pero es posible realizar la conversión manual utilizando herramientas como llama.cpp).
Pipelines y notebooks de ejemplo: En Hugging Face, en la opción “Use this model”, se proporcionan fragmentos de código listos y ejemplos prácticos para utilizar los modelos a través de notebooks Google Colab y Kaggle para facilitar las primeras pruebas.
¿Cómo desplegar los modelos del Alia Kit en producción?
Una vez elegido el modelo, existen varias opciones para el despliegue:
Hugging Face Inference Endpoints: Disponible en la página del modelo en Hugging Face, a través del botón “Deploy”. Se crea un endpoint directamente desde la página del modelo, seleccionando el proveedor y el tipo de instancia más adecuados. Es posible optimizar el uso de recursos activando opciones como el escalado automático o la cuantización. Esta opción es ideal para prototipos y aplicaciones de mediano volumen.
Amazon Sagemaker: Disponible en la página del modelo en Hugging Face, a través del botón “Deploy”. Se instancia un objeto HuggingFaceModel, se define la variable HF_MODEL_ID y se invoca deploy. Sagemaker levanta un endpoint HTTPS gestionado que escala bajo demanda en instancias GPU.
Proveedores Cloud (AWS, Google Cloud, Azure, etc): Ofrecen servicios de inferencia de ML que permiten desplegar modelos. Se deben seguir los procedimientos estándar de cada plataforma para la creación de endpoints de inferencia.
Infraestructura propia: Para casos que requieren máximo control, se pueden desplegar en servidores propios usando frameworks como FastAPI, Flask o servicios como TorchServe. También se puede utilizar el contenedor oficial Text-Generation-Inference (TGI) de Hugging Face para facilitar el despliegue y la gestión de carga. Esta opción ofrece mayor control pero requiere gestión completa de la infraestructura.
Cada modelo cuenta con una model card en su página correspondiente de Hugging Face con instrucciones detalladas para desplegarlo paso a paso. Los enlaces a las model cards de Hugging Face están disponibles en:
¿Puedo hacer fine-tuning de los modelos del Alia Kit para casos de uso propios?
Se puede realizar fine-tuning de los modelos del Alia Kit siempre que se consulte la licencia específica de cada modelo. Aquellos publicados bajo licencias permisivas como Apache 2.0 permiten modificaciones y uso comercial, siempre que se mantengan los avisos correspondientes y la licencia original. Los modelos con licencia CC-BY requieren atribución; los modelos con CC-BY-SA exigen que las modificaciones se compartan bajo la misma licencia; los modelos con CC-BY-NC no pueden ser utilizados con fines comerciales; y en el caso de modelos sin licencia explícita, no se concede permiso de uso.
¿Cuándo debo hacer fine-tuning de mis modelos?
El fine-tuning es una técnica avanzada y, aunque es muy potente, no siempre es necesaria. De hecho, la mayoría de los problemas de negocio y casos de uso se pueden resolver de manera más rápida, económica y eficiente con otras técnicas:
Ingeniería de Prompts (Prompt Engineering): Consiste en el diseño cuidadoso de las instrucciones (el "prompt") que recibe el modelo. A menudo, un cambio en la formulación de la pregunta puede transformar por completo la calidad de la respuesta. Esta técnica también incluye la provisión de ejemplos directamente en el prompt, un método conocido como Few-Shot Learning, donde se muestran al modelo pares de "pregunta-respuesta" para ilustrar el resultado esperado, o Chain-of-Thought, que enseña al modelo qué pasos seguir para llegar a la respuesta. Sus principales ventajas residen en que es una técnica rápida, de bajo coste y flexible, que no requiere la preparación de un dataset de entrenamiento.
Generación Aumentada por Recuperación (RAG - Retrieval-Augmented Generation): Una solución ideal cuando se requiere que el modelo responda basándose en información específica y actualizada que no forma parte de su conocimiento original. Se conecta el modelo a una base de datos externa, como una colección de documentos de una empresa o manuales de producto. Al recibir una consulta, un sistema de búsqueda ("Retriever") localiza los fragmentos de texto más relevantes de dicha base de datos, y estos fragmentos se inyectan en el prompt junto con la pregunta original, permitiendo que el modelo genere una respuesta fundamentada en ese contexto específico. Este enfoque reduce la probabilidad de "alucinaciones" (respuestas inventadas), permite que la base de conocimiento se mantenga actualizada sin reentrenar el modelo y facilita la citación de fuentes, lo que aumenta la confianza en la respuesta.
El fine-tuning debería considerarse sólo cuando estas técnicas no sean suficientes y sea necesario que el modelo adquiera un comportamiento o conocimiento fundamentalmente nuevo.
¿Cómo puedo hacer el ajuste fino (fine-tuning) de un modelo del Alia Kit a mis datos específicos?
El fine-tuning es el proceso mediante el cual se especializa un modelo pre-entrenado para una tarea o un dominio concreto (por ejemplo, un chatbot de atención al cliente de una empresa). A continuación, se describen los métodos principales para llevarlo a cabo:
Low‑code/no‑code:
Hugging Face AutoTrain: Disponible en la página del modelo en Hugging Face, a través del botón “Train → AutoTrain”. Es una solución que facilita la carga de un dataset para entrenar un modelo de forma automática, delegando la gestión de la infraestructura. Es el método más recomendable en la mayoría de los casos.
Amazon SageMaker: Ejemplo de código disponible en la página del modelo en Hugging Face, a través del botón “Train → Amazon SageMaker”. Requiere una cuenta propia de AWS y es recomendable para proyectos empresariales con necesidades de mayor control y personalización.
Programático:
Scripts de Hugging Face: La biblioteca transformers proporciona la clase Trainer y los ejemplos clásicos (run_clm.py, run_mlm.py, etc.) la emplean directamente, simplificando el proceso de fine-tuning. El procedimiento requiere la preparación de un dataset y la configuración de los argumentos de entrenamiento.
Optimización con PEFT (Parameter-Efficient Fine-Tuning): En lugar de entrenar los miles de millones de parámetros del modelo completo (lo que requiere una gran cantidad de memoria GPU), PEFT congela el modelo original y entrena únicamente un pequeño número de parámetros adicionales en "capas adaptadoras". La técnica más popular es LoRA (Low-Rank Adaptation). Una versión aún más optimizada, QLoRA, utiliza cuantización para reducir todavía más los requisitos de memoria. Con PEFT, es posible realizar el fine-tuning de modelos muy grandes en GPUs de consumo, democratizando el acceso a esta tecnología.
Sin embargo, el fine-tuning no siempre es necesario o la mejor alternativa para adaptar un modelo, y debería considerarse sólo cuando técnicas como Ingeniería de Prompts o RAG no sean suficientes.
¿Los modelos del Alia Kit soportan "function calling" o “tool use”?
Los modelos instruidos del Alia Kit no disponen, en su versión actual, de una API nativa de function calling o tool use integrada en su arquitectura, como sí ofrecen algunos modelos comerciales. Esta funcionalidad está en desarrollo activo por parte del equipo del BSC.
Sin embargo, la ausencia de una API nativa no impide la implementación de flujos de trabajo de agentes. Es posible implementarlo de forma manual. Este enfoque otorga al desarrollador un control total sobre el proceso.
¿Bajo qué licencia se publican los modelos del Alia Kit?
La mayoría de los modelos del Alia Kit se publican bajo la licencia Apache 2.0, una licencia libre y permisiva que permite su uso, modificación y distribución con pocas restricciones, incluso para fines comerciales.
Sin embargo, algunos modelos concretos se distribuyen con licencias diferentes que pueden exigir atribución o prohibir su uso comercial, como los modelos de voz Matxa‑TTS, disponibles solo para uso no comercial. En caso de requerir otro tipo de uso o integración, se recomienda establecer contacto con el equipo responsable del proyecto para facilitar el acceso adecuado a los recursos del Alia Kit.
¿Qué implica el uso de un modelo con la licencia Apache 2.0?
La licencia Apache 2.0 es una licencia de software de código abierto permisiva que concede derechos amplios y perpetuos para el uso, la modificación, la distribución y el sublicenciamiento del modelo para cualquier propósito, incluido el comercial, sin requerir el pago de regalías. Una característica fundamental de esta licencia es la concesión explícita de derechos de patente por parte de los contribuidores sobre sus aportaciones, lo que protege al usuario frente a posibles reclamaciones por infracción de patentes relacionadas con dichas contribuciones.
El licenciatario está obligado a conservar los avisos de derechos de autor y el texto de la licencia en las distribuciones del software o modelo. Si se realizan modificaciones, se debe incluir una notificación que indique los cambios efectuados. A diferencia de las licencias de tipo copyleft, la Apache 2.0 no exige que las obras derivadas se distribuyan bajo los mismos términos ni que se publique su código fuente, permitiendo que las modificaciones y trabajos derivados puedan mantenerse como software propietario.
¿Qué hardware es necesario para usar los modelos del Alia Kit?
Los requisitos de hardware, especialmente la memoria de vídeo (VRAM) de la GPU, dependen críticamente del tamaño del modelo y de la tarea a realizar.
Para determinar la memoria de vídeo necesaria, se debe comprobar el tamaño del modelo que se desea utilizar y la precisión con la que se va a ejecutar. Cada parámetro ocupa aproximadamente 4 bytes en precisión completa (FP32), 2 bytes en FP16, algo más de 1 byte en INT8 y alrededor de 0,5 bytes en los formatos cuantizados de 4 bits. Por ejemplo, Salamandra-7B cuenta con ~7,8 mil millones de parámetros: en FP16 requiere alrededor de 14–16 GB de VRAM, en INT8 aproximadamente 10 GB y en 4-bit puede reducirse a ~5 GB, permitiendo su ejecución en tarjetas de 8 GB si las secuencias no son demasiado largas.
Una práctica habitual consiste en sumar la RAM del sistema y la VRAM de la GPU, seleccionar un fichero de pesos (GGUF, Safetensors, etc.) que sea uno o dos gigabytes menor que esa suma y asegurarse de que la secuencia de entrada no cause un aumento excesivo de la memoria utilizada para el KV-cache. De este modo, se garantiza la carga correcta del modelo y su funcionamiento sin errores de memoria insuficiente.
Para tareas menos exigentes, como la síntesis de voz o la transcripción fonética, los modelos son más ligeros y pueden ejecutarse con una GPU de 4–6 GB o incluso solo con CPU y 8–12 GB de RAM, aunque el uso de GPU mejora los tiempos de respuesta.
Consultando el tamaño exacto del modelo en la model card del modelo específico en Hugging Face y aplicando el cálculo de bytes por parámetro, es posible estimar con precisión los requisitos de hardware para cada caso.
También es posible utilizar el siguiente demo en Hugging Face para calcular los recursos necesarios.
¿Qué tipos de datasets (conjuntos de datos) se ofrecen en el Alia Kit?
El Alia Kit ofrece una variedad de conjuntos de datos (datasets) para el entrenamiento y la evaluación de modelos de inteligencia artificial en lengua catalana. Estos se dividen en tres categorías principales:
Para modelos de texto, el Alia Kit proporciona desde corpus masivos con miles de millones de palabras hasta colecciones cuidadas específicamente para el ajuste fino (fine-tuning) y la evaluación de modelos de texto. Estos datos cubren una amplia gama de tareas como la clasificación de textos, el análisis de sentimientos, la detección de emociones, la respuesta a preguntas, el resumen de textos y la detección de lenguaje abusivo, entre otras. Además, se incluyen conjuntos de datos diseñados para instruir y evaluar modelos de lenguaje. Están disponibles en la página de datasets de texto.
Para modelos de voz, el Alia Kit ofrece diversos corpus de habla, fundamentales para el entrenamiento de sistemas de reconocimiento (ASR) y de síntesis de voz (TTS). Se ponen a disposición corpus de habla sin y con transcripción para reconocimiento automático, grabaciones multidialectales y multigénero, bancos de pruebas de acentos, registros parlamentarios y televisivos, corpora depurados para síntesis y conjuntos con transcripción fonética. Están disponibles en la página de datasets de voz.
Para modelos de traducción automática, el Alia Kit suministra grandes corpus paralelos “catalán-otras lenguas” destinados al entrenamiento de sistemas y, de forma complementaria, colecciones más reducidas y de dominio que sirven para adaptar y evaluar los modelos, cubriendo pares como catalán-inglés, catalán-español, catalán-francés, catalán-portugués, catalán-italiano o catalán-chino, entre otros. Están disponibles en la .
¿Qué herramientas ofrece el Alia Kit para el suministro de datos de texto?
El Alia Kit proporciona varias herramientas para automatizar la adquisición y actualización de datos textuales en catalán. Incluye, por ejemplo, un extractor de textos de la Viquipèdia (Wikipedia) que permite obtener grandes volúmenes de documentos en diferentes lenguas, una pipeline automatizada para procesar datos abiertos del Diari Oficial de la Generalitat de Catalunya (DOGC) y un anonimizador para garantizar la privacidad de datos sensibles conforme al GDPR.
El Alia Kit dispone de varios demostradores en Hugging Face Spaces que permiten probar diferentes tecnologías lingüísticas a través de una API gratuita. Entre estos servicios se encuentran un modelo de traducción automática con soporte para múltiples idiomas y un sistema de chat para conversar con algunos de nuestros modelos.
En el caso del sistema de chat (ChatUI), hay disponibles varios modelos, como Salamandra-7b-instructed, modelos con función de function calling, etc. El sistema se apaga automáticamente si no registra actividad durante mucho tiempo. Cuando un usuario envía una consulta en ChatUI y el modelo correspondiente no está activo, este se inicia automáticamente, lo que puede tardar entre 5 y 10 minutos. Solo se inicia el modelo asociado a la conversación activa en ese momento, aunque es posible seleccionar cualquier modelo disponible.
¿Cómo mantenerme al día, aclarar dudas o contribuir al proyecto?
El proyecto Alia se encuentra en constante evolución. Para todos aquellos interesados en seguir de cerca su desarrollo, resolver dudas o incluso colaborar activamente, existen diversas plataformas y canales de comunicación. A continuación, están disponibles los enlaces oficiales para no perder ninguna novedad y formar parte de esta comunidad:
Sistema RAG entrenado con datos de los modelos y datasets del Alia Kit (brevemente)