arrow-left

Solo esta páginaTodas las páginas
gitbookCon tecnología de GitBook
1 de 16

ALIA Kit

Loading...

Modelos

Loading...

Loading...

Loading...

Loading...

Datasets

Loading...

Loading...

Loading...

Loading...

Integración

Loading...

Demostradores

Loading...

Loading...

Modelos de texto

hashtag
Modelos listos para usar (instruidos)

hashtag
Modelos para desarrolladores (fundacionales y para fine-tuning)

hashtag
Adaptación de modelos para tareas específicas

Descripción / Función

LLM instruido (multilingüe)

Nombre modelo

ALIA-40b-instruct-2601

Model card

Comentarios

Última versión de la familia de modelos ALIA. Aunque el desarrollo sigue en curso y se prevén nuevas actualizaciones, esta versión ya integra varias mejoras significativas con respecto a lanzamientos anteriores, destacando un seguimiento de instrucciones más preciso, mayor robustez ante entradas ruidosas o ambiguas, una alineación de seguridad reforzada y capacidades ampliadas para el manejo de contextos largos.

Descripción / Función

LLM instruido (multilingüe)

ALIA-40b-instruct-2601-GGUF

Model card

Versión cuantizada GGUF del modelo ALIA-40b-instruct-2601

Descripción / Función

LLM instruido (inglés, español, catalán)

Nombre modelo

salamandra-7b-instruct

Model card

Comentarios

Modelo salamandra-7b entrenado con 276 mil instrucciones en inglés, español y catalán, recopiladas de diversos corpus abiertos.

Descripción / Función

LLM instruido (inglés, español, catalán)

Nombre modelo

salamandra-2b-instruct

Model card

Comentarios

Modelo salamandra-2b entrenado con 276 mil instrucciones en inglés, español y catalán, recopiladas de diversos corpus abiertos.

Descripción / Función

LLM instruido (gallego, portugués, español, catalán, inglés)

Nombre modelo

Carballo-Llama-Instr3

Model Card

Comentarios

Modelo de lenguaje causal de 8 mil millones de parámetros, diseñado para gallego, portugués, español, inglés y catalán. Es el resultado de un preentrenamiento continuo del modelo meta-llama/Llama-3.1-8Barrow-up-right con un corpus multilingüe de 340 millones de tokens, con un énfasis especial en el gallego.

Descripción / Función

LLM instruido (euskera)

Nombre modelo

Latxa 3.1 Instruct 70B

Model card

Comentarios

Modelo instruido de 70 mil millones de parametros basado en Llama-3.1 (Instruct) y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.

Descripción / Función

LLM instruido (euskera)

Nombre modelo

Latxa 3.1 Instruct 8B

Model card

Comentarios

Modelo instruido de 8 mil millones de parametros basado en Llama-3.1 (Instruct) y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.

Descripción / Función

LLM (multilingüe)

Nombre modelo

salamandra-7b

Model card

Comentarios

Modelo generativo multilingüe, entrenado desde cero en 35 idiomas europeos, con 8 mil millones de parámetros y 12,875 billones de tokens.

Descripción / Función

LLM (multilingüe)

Nombre modelo

salamandra-2b

Model card

Comentarios

Modelo generativo multilingüe, entrenado desde cero en 35 idiomas europeos, con 2 mil millones de parámetros y 12,875 billones de tokens.

Descripción / Función

LLM (gallego, portugués, español, inglés)

Nombre modelo

Llama-Carvalho-PT-GL

Model card

Comentarios

Modelo de lenguaje causal de 8 mil millones de parámetros, diseñado para gallego, portugués, español e inglés. Es el resultado de un preentrenamiento continuo del modelo utilizando un corpus multilingüe compuesto por 540 millones de tokens de texto plano y 72 millones de tokens de instrucciones.

Descripción / Función

LLM (gallego, portugués, español, catalán, inglés)

Nombre modelo

Llama-3.1-Carballo

Model card

Comentarios

Modelo de lenguaje generativo de 8 mil millones de parámetros, diseñado para gallego, portugués, español, catalán e inglés. Es el resultado de un preentrenamiento continuo del modelo con un corpus multilingüe de casi 20 mil millones de tokens, con especial énfasis en textos en gallego.

Descripción / Función

LLM (euskera)

Nombre modelo

Latxa 3.1 8B

Model card

Comentarios

Modelo fundacional de 8 mil millones de parametros basado en Llama 3.1 y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.

Descripción / Función

LLM (valenciano)

Nombre modelo

Aitana-2B-S

Model card

Comentarios

Modelo de lenguaje generativo entrenado a partir de , utilizando datos en valenciano para lograr una mayor representación de esta lengua minoritaria, muy similar al catalán.

Descripción / Función

LLM (valenciano, español, inglés - turismo)

Nombre modelo

Aitana-2B-S-tourism-base-1.0

Model card

Comentarios

Modelo de lenguaje generativo basado en y entrenado adicionalmente con datos del dominio turístico para mejorar su rendimiento en la generación de textos relacionados con el turismo.

Descripción / Función

LLM (valenciano, español, inglés)

Nombre modelo

Aitana-2B-S-base-1.0

Model card

Comentarios

Modelo de lenguaje generativo entrenado a partir de , utilizando datos en valenciano, español e inglés.

Descripción / Función

Modelo transformer (multilingüe)

Nombre modelo

mRoBERTa

Model card

Comentarios

Modelo multilingüe, entrenado en 35 idiomas y 92 lenguajes de programación, con un volumen total de 12,8 TB de datos.

Descripción / Función

Modelo transformer (catalán)

Nombre modelo

RoBERTa-ca

Model card

Comentarios

Modelo para catalán basado en , con pesos inicializados desde y ajustes en embeddings para diferencias de tokenización. Preentrenado de forma continua con 95 GB de datos en catalán de alta calidad.

Descripción / Función

Modelo transformer (euskera)

Nombre modelo

BERnaT-base

Model card

Comentarios

Modelo discriminativo BERnaT de 100M de parámetros, basado en la arquitecutra , entrenado from scratch con corpus en euskera que combina texto estándar y no estándar (redes sociales e histórico).

Descripción / Función

Modelo transformer (euskera)

Nombre modelo

BERnaT-large

Model card

Comentarios

Modelo discriminativo BERnaT de 400M de parámetros, basado en la arquitecutra entrenado from scratch con corpus en euskera que combina texto estándar y no estándar (redes sociales e histórico).

Descripción / Función

Modelo transformer (euskera)

Nombre modelo

BERnaT-medium

Model card

Comentarios

Modelo discriminativo BERnaT de 51,4M de parámetros, basado en la arquitecutra , entrenado from scratch con corpus en euskera que combina texto estándar y no estándar (redes sociales e histórico).

Descripción / Función

Detección de fraude

Nombre modelo

Aitana Enc Fraud Detection

Model card

https://huggingface.co/gplsi/Aitana-FraudDetection-R-1.0

Comentarios

Modelo fine-tuneado a partir de para la clasificación binaria de la detección de phishing en textos en inglés. Predice si un determinado SMS o correo electrónico pertenece o no a la categoría de phishing.

Descripción / Función

Lenguaje claro

Nombre modelo

Aitana-ClearLangDetection-R-1.0

Model card

https://huggingface.co/gplsi/Aitana-ClearLangDetection-R-1.0

Comentarios

Modelo fine-tuneado a partir de para la tarea de clasificación de lenguaje claro en textos en español.

Descripción / Función

Normalización

Nombre modelo

marianmt-cap-punct-eu

Model card

https://huggingface.co/HiTZ/cap-punct-eu

Comentarios

Modelo de traducción automática que sirve para capitalizar y puntuar texto normalizado en euskera. El modelo ha sido entrenado desde cero utilizando y un dataset de 9,784,905 frases en euskera

Descripción / Función

Normalización

Nombre modelo

marianmt-cap-punct-es

Model card

https://huggingface.co/HiTZ/cap-punct-es

Comentarios

Modelo de traducción automática de texto que sirve para capitalizar y puntuar texto normalizado en castellano. El modelo ha sido entrenado desde cero utilizando y un dataset de 9,784,905 frases en castellano.

Descripción / Función

Modelo adaptado al dominio

Nombre modelo

Aitana-tourism-mb-encoder-1.0

Model card

https://huggingface.co/gplsi/Aitana-tourism-mb-encoder-1.0

Comentarios

Modelo preentrenado de forma continua con datos del dominio del turismo en español y valenciano. Este modelo especializado está optimizado para comprender textos relacionados con el turismo, incluidos descripciones de hoteles, guías de destinos, servicios de viaje y contenidos de patrimonio cultural.

https://huggingface.co/BSC-LT/ALIA-40b-instruct-2601
https://huggingface.co/BSC-LT/ALIA-40b-instruct-2601-GGUF
https://huggingface.co/BSC-LT/salamandra-7b-instruct
https://huggingface.co/BSC-LT/salamandra-2b-instruct
https://huggingface.co/proxectonos/Llama-3.1-Carballo-Instr3
https://huggingface.co/HiTZ/Latxa-Llama-3.1-70B-Instruct
https://huggingface.co/HiTZ/Latxa-Llama-3.1-8B-Instruct

Modelos de Voz

hashtag
Síntesis de voz

hashtag
Reconocimiento de voz

https://huggingface.co/BSC-LT/salamandra-7barrow-up-right
https://huggingface.co/BSC-LT/salamandra-2barrow-up-right
https://huggingface.co/Nos-PT/Llama-Carvalho-PT-GLarrow-up-right
meta-llama/Llama-3.1-8Barrow-up-right
https://huggingface.co/proxectonos/Llama-3.1-Carballoarrow-up-right
meta-llama/Llama-3.1-8Barrow-up-right
https://huggingface.co/HiTZ/Latxa-Llama-3.1-8Barrow-up-right
https://huggingface.co/gplsi/Aitana-2B-Sarrow-up-right
salamandra-2barrow-up-right
https://huggingface.co/gplsi/Aitana-2B-S-tourism-base-1.0arrow-up-right
Aitana-2B-S-base-1.0arrow-up-right
https://huggingface.co/gplsi/Aitana-2B-S-base-1.0arrow-up-right
salamandra-2barrow-up-right
https://huggingface.co/BSC-LT/mRoBERTaarrow-up-right
RoBERTaarrow-up-right
https://huggingface.co/BSC-LT/RoBERTa-caarrow-up-right
RoBERTaarrow-up-right
mRoBERTaarrow-up-right
https://huggingface.co/HiTZ/BERnaT-basearrow-up-right
RoBERTaarrow-up-right
https://huggingface.co/HiTZ/BERnaT-largearrow-up-right
RoBERTa,arrow-up-right
https://huggingface.co/HiTZ/BERnaT-mediumarrow-up-right
RoBERTaarrow-up-right
mRoBERTaarrow-up-right
mRoBERTaarrow-up-right
Marian NMTarrow-up-right
Marian NMTarrow-up-right
ModernBERT-base arrow-up-right

Descripció / Funció

Síntesis de voz (español)

Nom model

PL-BERT-es

Model card
https://huggingface.co/BSC-LT/PL-BERT-wp-es
Comentaris

Modelo de lenguaje enmascarado a nivel de fonemas, entrenado con texto en español que abarca diversos acentos regionales. Basado en la

Descripció / Funció

Síntesis de voz (español)

Nom model

PL-BERT-wp-es

Model card
https://huggingface.co/BSC-LT/PL-BERT-wp-es
Comentaris

Modelo de lenguaje enmascarado a nivel de fonemas, entrenado con texto en español que abarca diversos acentos regionales. Basado en la

Descripció / Funció

Síntesis de voz (catalán)

Nom model

PL-BERT-ca

Model card
https://huggingface.co/BSC-LT/PL-BERT-ca
Comentaris

Modelo de lenguaje enmascarado a nivel de fonemas, entrenado con texto en catalán que abarca diversos acentos regionales. Basado en la

Descripció / Funció

Síntesis de voz (catalán)

Nom model

PL-BERT-wp-ca

Model card
https://huggingface.co/BSC-LT/PL-BERT-wp-ca
Comentaris

Modelo de lenguaje enmascarado a nivel de fonemas, entrenado con texto en catalán que abarca diversos acentos regionales. Basado en la

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-sabela-vits-phonemes

Model card
https://huggingface.co/proxectonos/Nos_TTS-sabela-vits-phonemes
Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería , a partir del corpus Sabela del dataset . Requiere transcripción fonética generada mediante la herramienta , la cual también realiza la normalización previa del texto.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-icia-vits-phonemes

Model card
https://huggingface.co/proxectonos/Nos_TTS-icia-vits-phonemes
Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería , a partir del corpus Icía del dataset . Requiere transcripción fonética generada mediante la herramienta , la cual también realiza la normalización previa del texto.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-iago-vits-phonemes

Model card
https://huggingface.co/proxectonos/Nos_TTS-iago-vits-phonemes
Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería , a partir del corpus Iago del dataset . Requiere transcripción fonética generada mediante la herramienta , la cual también realiza la normalización previa del texto.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-paulo-vits-phonemes

Model card
https://huggingface.co/proxectonos/Nos_TTS-paulo-vits-phonemes
Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería , a partir del corpus Paulo del dataset . Requiere transcripción fonética generada mediante la herramienta , la cual también realiza la normalización previa del texto.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-celtia-vits-phonemes

Model card
https://huggingface.co/proxectonos/Nos_TTS-celtia-vits-phonemes
Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería , a partir del corpus . Requiere transcripción fonética generada mediante la herramienta , la cual también realiza la normalización previa del texto.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-brais-vits-phonemes

Model card
https://huggingface.co/proxectonos/Nos_TTS-brais-vits-phonemes
Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería , a partir del corpus . Requiere transcripción fonética generada mediante la herramienta , la cual también realiza la normalización previa del texto.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos _TTS-brais-vits-graphemes

Model card
https://huggingface.co/proxectonos/Nos_TTS-brais-vits-graphemes
Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería , a partir del corpus . El modelo fue entrenado directamente con grafemas como entrada, de modo que no necesita una transcripción fonética. La herramienta , puede utilizarse para llevar a cabo la normalización del texto de entrada.

Descripció / Funció

Síntesis de voz (lenguas ibéricas)

Nom model

HiTZ-TTS-Models collection

Model card
https://huggingface.co/collections/HiTZ/tts
Comentaris

Colección de 12 modelos de síntesis de voz en euskera (2), gallego (6), catalán (2), español (2), entrenados para el modelo VITS. Requiere el uso del script de síntesis de

Descripció / Funció

Reconocimiento de voz (lenguas ibéricas)

Nom model

hubert-base-los-2k

Model card
https://huggingface.co/BSC-LT/hubert-base-los-2k
Comentaris

Modelo HuBERT Base preentrenado con 2.000 horas de datos de voz en lenguas ibéricas (español, catalán, euskera y gallego). La arquitectura del modelo es la misma que la del

Descripció / Funció

Reconocimiento de voz (catalán-español)

Nom model

stt_ca-es_conformer_transducer_large

Model card
https://huggingface.co/projecte-aina/stt_ca-es_conformer_transducer_large
Comentaris

Modelo de reconocimiento de voz derivado de , ajustado mediante un corpus bilingüe catalán-español compuesto por 7.426 horas de audio.

Descripció / Funció

Reconocimiento de voz (euskera-español)

Nom model

stt_eseu_conformer_transducer_large

Model card
https://huggingface.co/HiTZ/stt_eseu_conformer_transducer_large
Comentaris

Modelo de reconocimiento de voz derivado a partir del modelo preentrenado , entrenado con un corpus de 1.366,18 horas de grabaciones en euskera, español y habla bilingüe con eventos de code-switching.

Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris
Descripció / Funció
Nom model
Model card
Comentaris

Modelos de traducción automática

Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios
Descripción / Función
Nombre modelo
Model card
Comentarios

Reconocimiento de voz (euskera-español)

BBS-S2TC_conformer_transducer_large

Modelo diseñado específicamente para una participación en el BBS-S2TC (Bilingual Basque Spanish Speech-to-Text Challenge) de la sección de desafíos de las evaluaciones Albayzin de IBERSPEECH 2024. El modelo transcribe habla en español utilizando el alfabeto en minúsculas, incluidos los espacios, y fue entrenado con un conjunto de datos compuesto por 1462 horas de audio en español y euskera. Se afinó (fine-tuned) a partir del modelo vasco preentrenado stt_eu_conformer_transducer_largearrow-up-right mediante el toolkit Nvidia NeMoarrow-up-right.

Reconocimiento de voz (español)

spanish-verification-model-pkt-a

Modelo de verificación, basado en diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-barrow-up-right para realizar verificación cruzada y aumentar la confianza en las transcripciones.

Reconocimiento de voz (español)

spanish-verification-model-pkt-b

Modelo de verificación, basado en diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-aarrow-up-right para realizar verificación cruzada y aumentar la confianza en las transcripciones.

Reconocimiento de voz (español)

spanish-verification-model-pkt-c

Modelo de verificación, basado en diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-darrow-up-right para realizar verificación cruzada y aumentar la confianza en las transcripciones.

Reconocimiento de voz (español)

spanish-verification-model-pkt-d

Modelo de verificación, basado en diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-carrow-up-right para realizar verificación cruzada y aumentar la confianza en las transcripciones.

Reconocimiento de voz (español)

parakeet-rnnt-1.1b_cv17_es_ep18_1270h

Modelo acústico derivado de nvidia/parakeet-rnnt-1.1barrow-up-right, optimizado para tareas de reconocimiento automático de voz en español.

Diarización de hablantes (español)

pyannote-segmentation-3.0-RTVE

Este sistema consta de tres modelos ajustados, diseñados para fusionarse mediante DOVER-Laparrow-up-right. Cada modelo se entrena poniendo el foco en un componente distinto de la métrica Diarization Error Rate (Falsas Alarmas, Detecciones Omitidas y Confusión de Hablantes).

Cada modelo es una versión ajustada de pyannote/segmentation-3.0arrow-up-right utilizando la base de datos de RTVEarrow-up-right empleada en las Evaluaciones Albayzin de IberSPEECH 2024.

Reconocimiento de voz (catalán)

faster-whisper-bsc-large-v3-cat

Modelo de reconocimiento de voz, resultado de convertir el modelo whisper-bsc-large-v3-cat arrow-up-righten un modelo más ligero con faster-whisperarrow-up-right.

Reconocimiento de voz (catalán)

whisper-bsc-large-v3-cat

Modelo para el reconocimiento automático de voz en catalán, optimizado a partir del modelo whisper-large-v3 arrow-up-rightcon 4.700 horas de grabaciones en catalán. El modelo está diseñado para transcribir audio en catalán a texto plano, sin signos de puntuación.

Reconocimiento de voz (valenciano)

faster-whisper-3cat-cv21-valencian

Modelo de reconocimiento de voz, resultado de convertir el modelo whisper-3cat-cv21-valencianarrow-up-right en un modelo más ligero con faster-whisperarrow-up-right.

Reconocimiento de voz (valenciano)

whisper-3cat-cv21-valencian

Modelo para el reconocimiento automático de voz en valenciano, optimizado a partir del modelo whisper-large-v3 arrow-up-rightcon 397 horas y 55 minutos de grabaciones.

Reconocimiento de voz (balear)

faster-whisper-3cat-balearic

Modelo de reconocimiento de voz, resultado de convertir el modelo whisper-3cat-balearicarrow-up-right en un modelo más ligero con faster-whisperarrow-up-right.

Reconocimiento de voz (balear)

whisper-3cat-balearic

Modelo para el reconocimiento automático de voz en balear, optimizado a partir del modelo whisper-large-v3 arrow-up-rightcon 90 horas.

Reconocimiento de voz (euskera)

stt_eu_conformer_ctc_large

Este modelo transcribe habla en euskera utilizando el alfabeto vasco en minúsculas, con inclusión de espacios. Ha sido entrenado con un conjunto de datos que reúne 548 horas de audio en euskera y refinado (fine-tuned) a partir del modelo español preentrenado stt_es_conformer_ctc_largearrow-up-right mediante el toolkit Nvidia NeMoarrow-up-right.

Reconocimiento de voz (euskera)

stt_eu_conformer_transducer_large

Este modelo transcribe habla en euskera utilizando el alfabeto vasco en minúsculas, incluidos los espacios. Ha sido entrenado con un conjunto de datos compuesto por 548 horas de habla en euskera. Se afinó (fine-tuned) a partir del modelo español preentrenado stt_es_conformer_transducer_largearrow-up-right utilizando el toolkit Nvidia NeMoarrow-up-right.

Reconocimiento de voz (euskera)

whisper-tiny-eu

Modelo para el reconocimiento automático de voz en el euskera. Ha sido ajustado a partir de openai/whisper-tinyarrow-up-right utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.

Reconocimiento de voz (euskera)

whisper-small-eu

Modelo para el reconocimiento automático de voz en el euskera. Ha sido ajustado (fine-tuned) a partir de openai/whisper-smallarrow-up-right utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.

Reconocimiento de voz (euskera)

whisper-medium-eu

Modelo para el reconocimiento automático de voz en el euskera. Ha sido ajustado (fine-tuned) a partir de openai/whisper-mediumarrow-up-right utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.

Reconocimiento de voz (euskera)

whisper-base-eu

Modelo para el reconocimiento automático de voz en el euskera. Ha sido ajustado (fine-tuned) a partir de openai/whisper-basearrow-up-right utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.

Reconocimiento de voz (euskera)

whisper-large-eu

Modelo para el reconocimiento automático de voz en el euskera. Ha sido ajustado (fine-tuned) a partir de openai/whisper-largearrow-up-right utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.

Reconocimiento de voz (euskera)

whisper-large-v2-eu

Modelo para el reconocimiento automático de voz en el euskera. Ha sido ajustado (fine-tuned) a partir de openai/whisper-large-v2arrow-up-right utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.

Reconocimiento de voz (euskera)

whisper-large-v3-eu

Modelo para el reconocimiento automático de voz en el euskera. Ha sido ajustado (fine-tuned) a partir de openai/whisper-large-v3arrow-up-right utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.

arquitectura PL-BERTarrow-up-right
arquitectura PL-BERTarrow-up-right
arquitectura PL-BERTarrow-up-right
arquitectura PL-BERTarrow-up-right
Coqui TTSarrow-up-right
CRPIH_UVigo-GL-Voicesarrow-up-right
Cotovíaarrow-up-right
Coqui TTSarrow-up-right
CRPIH_UVigo-GL-Voicesarrow-up-right
Cotovíaarrow-up-right
Coqui TTSarrow-up-right
CRPIH_UVigo-GL-Voicesarrow-up-right
Cotovíaarrow-up-right
Coqui TTSarrow-up-right
CRPIH_UVigo-GL-Voicesarrow-up-right
Cotovíaarrow-up-right
Coqui TTSarrow-up-right
Nos_Celtia-GLarrow-up-right
Cotovíaarrow-up-right
Coqui TTSarrow-up-right
Nos_Brais-GLarrow-up-right
Cotovíaarrow-up-right
Coqui TTSarrow-up-right
Nos_Brais-GLarrow-up-right
Cotovíaarrow-up-right
https://github.com/hitz-zentroa/aHoTTSarrow-up-right
HuBERT Base originalarrow-up-right
NVIDIA/stt_es_conformer_transducer_largearrow-up-right
BBS-S2TC_conformer_transducer_largearrow-up-right
https://huggingface.co/HiTZ/BBS-S2TC_conformer_transducer_large
https://huggingface.co/BSC-LT/spanish-verification-model-pkt-a
https://huggingface.co/BSC-LT/spanish-verification-model-pkt-b
https://huggingface.co/BSC-LT/spanish-verification-model-pkt-c
https://huggingface.co/BSC-LT/spanish-verification-model-pkt-d
https://huggingface.co/projecte-aina/parakeet-rnnt-1.1b_cv17_es_ep18_1270h
https://huggingface.co/HiTZ/pyannote-segmentation-3.0-RTVE
https://huggingface.co/BSC-LT/faster-whisper-bsc-large-v3-cat
https://huggingface.co/BSC-LT/whisper-bsc-large-v3-cat
https://huggingface.co/BSC-LT/faster-whisper-3cat-cv21-valencian
https://huggingface.co/BSC-LT/whisper-3cat-cv21-valencian
https://huggingface.co/BSC-LT/faster-whisper-3cat-balearic
https://huggingface.co/BSC-LT/whisper-3cat-balearic
https://huggingface.co/HiTZ/stt_eu_conformer_ctc_large
https://huggingface.co/HiTZ/stt_eu_conformer_transducer_large
https://huggingface.co/HiTZ/whisper-tiny-eu
https://huggingface.co/HiTZ/whisper-small-eu
https://huggingface.co/HiTZ/whisper-medium-eu
https://huggingface.co/HiTZ/whisper-base-eu
https://huggingface.co/HiTZ/whisper-large-eu
https://huggingface.co/HiTZ/whisper-large-v2-eu
https://huggingface.co/HiTZ/whisper-large-v3-eu

Traducción automática multilingüe

SalamandraTA-7b-academic

SalamandraTA-7b-instruct ajustado con el conjunto de datos ACAD-Trainarrow-up-right.

Traducción automática multilingüe

SalamandraTA-7b-instruct-GGUF

Versión cuantizada GGUF del modelo SalamandraTA-7b-instruct.

Traducción automática multilingüe

SalamandraTA-7b-instruct

SalamandraTA-7b-instruct es el resultado de un proceso de preentrenamiento continuo de Salamandra-7b con datos paralelos y técnicas de instrucción. SalamandraTA-7b-instruct destaca por su competencia en 35 lenguas europeas, además de 3 variedades regionales.

Traducción automática multilingüe

SalamandraTA-2b-academic

SalamandraTA-2b-instruct ajustado con el conjunto de datos ACAD-Trainarrow-up-right.

Traducción automática multilingüe

SalamandraTA-2b-instruct-GGUF

Versión cuantizada GGUF del modelo SalamandraTA-2b-instruct.

Traducción automática multilingüe

SalamandraTA-2b-instruct

SalamandraTA-2b-instruct es el resultado de un proceso de preentrenamiento continuo de Salamandra-2b con datos paralelos y técnicas de instrucción. SalamandraTA-7b-instruct destaca por su competencia en 35 lenguas europeas, además de 3 variedades regionales.

Traducción automática Español-Valenciano

Aitana-TA-2B-S

Modelo de lenguaje para traducción (LLM) que ha sido ajustado mediante aprendizaje por instrucciones a partir de . Este modelo está específicamente optimizado para la traducción entre español y valenciano, con un enfoque centrado en la traducción a nivel de oración.

Traducción automática Español → Gallego

Nos_MT-CT2-es-gl

Modelo de traducción español-gallego desarrollado con OpenNMT-py 3.5.2, utilizando una arquitectura Transformer. Posteriormente, el modelo fue convertido al formato de CTranslate2.

Traducción automática Gallego → Español

Nos_MT-CT2-gl_es

Modelo de traducción gallego-español desarrollado con OpenNMT-py 3.5.2, utilizando una arquitectura Transformer. Posteriormente, el modelo fue convertido al formato de CTranslate2.

Traducción automática Inglés → Gallego

Nos_MT-CT2-en-gl

Modelo de traducción inglés-gallego desarrollado con OpenNMT-py 3.5.2, utilizando una arquitectura Transformer. Posteriormente, el modelo fue convertido al formato de CTranslate2.

Traducción automática Gallego → Inglés

Nos_MT-CT2-gl-en

Modelo de traducción gallego-inglés desarrollado con OpenNMT-py 3.5.2, utilizando una arquitectura Transformer. Posteriormente, el modelo fue convertido al formato de CTranslate2.

Traducción automática Gallego → Catalán

aina-translator-gl-ca

Modelo de traducción gallego-catalán desarrollado desde cero con Fairseqarrow-up-right, entrenado sobre un corpus de cerca de 75 millones de pares de frases, que integra datos paralelos auténticos recopilados de la web y datos sintéticos generados mediante el traductor Proxecto Nósarrow-up-right.

Traducción automática Vasco → Catalán

aina-translator-eu-ca

Modelo de traducción vasco-catalán desarrollado desde cero con Fairseqarrow-up-right, entrenado sobre un corpus de cerca de 75 millones de pares de frases, que integra datos paralelos auténticos recopilados de la web y datos sintéticos generados mediante el traductor ES-EU HiTZarrow-up-right.

Traducción automática Español-Asturiano

aina-translator-es-ast

Modelo de traducción español-asturiano, resultado de un ajuste completo (full fine-tuning) del modelo NLLB-200-600Marrow-up-right sobre un corpus paralelo español-asturiano.

Traducción automática Español-Aragonés

aina-translator-es-an

Modelo de traducción español-aragonés, resultado de un ajuste completo (full fine-tuning) del modelo NLLB-200-600Marrow-up-right sobre un corpus paralelo español-aragonés.

Traducción automática Español-Aranés

aina-translator-es-oc

Modelo de traducción español-aranés, resultado de un ajuste completo (full fine-tuning) del modelo NLLB-200-600Marrow-up-right sobre un corpus paralelo español-aranés.

https://huggingface.co/BSC-LT/salamandraTA-7B-academic
https://huggingface.co/BSC-LT/salamandraTA-7B-instruct-GGUF
https://huggingface.co/BSC-LT/salamandraTA-7b-instruct
https://huggingface.co/BSC-LT/salamandraTA-2B-academic
https://huggingface.co/BSC-LT/salamandraTA-2B-instruct-GGUF
https://huggingface.co/BSC-LT/salamandraTA-2b-instruct
https://huggingface.co/gplsi/Aitana-TA-2B-S
https://huggingface.co/proxectonos/Nos_MT-CT2-es-gl
https://huggingface.co/proxectonos/Nos_MT-CT2-gl-es
https://huggingface.co/proxectonos/Nos_MT-CT2-en-gl
https://huggingface.co/proxectonos/Nos_MT-CT2-gl-en
https://huggingface.co/projecte-aina/aina-translator-gl-ca
https://huggingface.co/projecte-aina/aina-translator-eu-ca
https://huggingface.co/projecte-aina/aina-translator-es-ast
https://huggingface.co/projecte-aina/aina-translator-es-an
https://huggingface.co/projecte-aina/aina-translator-es-oc

Datos y herramientas para modelos de texto

hashtag
Corpus textuales

  • CATalog: Corpus textual masivo compuesto por 17.450.496.729 palabras (aproximadamente 23 mil millones de tokens), distribuidas en 34.816.765 documentos provenientes de una amplia variedad de fuentes, con un porcentaje significativo de textos curados manualmente.

    Acceso: https://huggingface.co/datasets/projecte-aina/CATalogarrow-up-right

  • ALIA_DOGV Dataset: Corpus textual bilingüe valenciano-español proveniente del Diari Oficial de la Generalitat Valenciana.

    Acceso:

  • ALIA_BOUA Dataset: Corpus textual bilingüe valenciano-español proveniente del Boletín Oficial de la Universidad de Alicante.

    Acceso:

  • ALIA_AMIC Dataset: Corpus textual en valenciano proveniente de periódicos/blogs del repositorio AMIC.

    Acceso:

  • ALIA_LES_CORTS Dataset: Corpus textual bilingüe valenciano-español proveniente de Les Corts Valencianes.

    Acceso:

  • MULTILINGUAL PARALLEL SENTENCES Dataset: Corpus de textos multilingües valenciano, español e inglés.

    Acceso:


hashtag
Corpus de dominio

  • ALIA_TOURISM: Corpus especializado en el dominio turístico que incluye textos en valenciano, español e inglés. Cada documento incluye su fuente original, lo que permite filtrar el contenido según la licencia necesaria para cada caso de uso. Incluye un total de 79.15M tokens, de ellos 12.56M en valenciano, 65.34M en español y 1.35M en inglés.

    Acceso:

  • ALIA_INTELLECTUAL_PROPERTY: Corpus especializado en el dominio de la propiedad intelectual que incluye en su versión actual textos en español. Incluye un total de 1130M tokens en español.

    Acceso:


hashtag
Datos anotados para fine tuning y/o evaluación de modelos de texto

hashtag
Razonamiento causal

  • COPA-es: Traducción al castellano del corpus COPA, corpus de referencia para el razonamiento causal. Incluye 600 instancias, cada una de las cuales se compone de una premisa y dos hipótesis.

    Acceso:


hashtag
Datos para instruir modelos de texto

  • InstruCAT: Corpus que recopila más de 200.000 instrucciones destinadas al entrenamiento de modelos de lenguaje (LLMs) en tareas downstream, generadas a partir de los siguientes conjuntos de datos: caBreu, CatalanQA, CoQCat, GuiaCat, IntoxiCat, Parafraseja, PAWS-ca, sts-ca, WikiCat, CEIL, TECA y NLUCat. Estas instrucciones abarcan categorías como paráfrasis, detección de toxicidad, pregunta-respuesta, clasificación, resumen y análisis de sentimientos. Acceso:

  • ALIA-legal-administrative-synthetic-instructions: Corpus sintético de instrucciones en español para el dominio legal-administrativo. Incluye más de 7,4 millones de pares instrucción–respuesta.

    Acceso:

hashtag
Generación de datos sintéticos

  • mPersonas: Conjunto de datos multilingüe y de código abierto que contiene descripciones de personalidad de alta calidad, generadas sintéticamente con DeepSeek-V3–0324. Emplea una metodología de síntesis de datos basada en personas, similar a la de .

    Acceso:

hashtag
Datos para evaluar modelos de texto

  • SIQA_es: Traducción y adaptación al español del conjunto de validación de (Social Interaction Question Answering), diseñado para evaluar el razonamiento social de sentido común en modelos de lenguaje, presentando una colección de preguntas basadas en situaciones sociales cotidianas, con el objetivo de desafiar a los modelos a inferir motivaciones, reacciones e implicaciones sociales detrás de las acciones humanas.

    Acceso:

  • arc_es: Traducción y adaptación al español del conjunto de validación de (AI2 Reasoning Challenge), diseñado para evaluar el razonamiento científico en modelos de lenguaje, presentando una colección de preguntas auténticas de ciencias de nivel escolar en formato de opción múltiple, divididas en dos conjuntos de distinta dificultad: ARC Easy y ARC Challenging.

hashtag
Datasets de clasificación

  • DISCRIMINATIVE CLEARSIM_ES Dataset: Conjunto de textos en español diseñado para entrenar o evaluar modelos en una tarea de clasificación relacionada con el lenguaje claro. El conjunto de datos está compuesto por pares y tríos de textos alineados en tres niveles de complejidad: lengua original, lengua facilitada y lectura fácil. Incluye un total de 13.953 textos, agrupados en 4.651 tripletas únicas.

    Acceso:

  • DISCRIMINATIVE CLEARSIM_VA Dataset: Conjunto de textos en valenciano diseñado para entrenar o evaluar modelos en una tarea de clasificación relacionada con el lenguaje claro. El conjunto de datos está compuesto por pares y tríos de textos alineados en tres niveles de complejidad: lengua original, lengua facilitada y lectura fácil. Incluye un total de 13.953 textos, agrupados en 4.651 tripletas únicas.

hashtag
Datasets de pre entrenamiento ALIA 40B

Acceso:


hashtag
Herramientas para el suministro de datos de texto

Para garantizar el suministro de datos, se han implantado distintos métodos de adquisición de datos que automatizan este proceso y garantizan el suministro y la actualización de los datos.

  • Extractor de texto de Wikipedia que interpreta correctamente textos en una gran variedad de lenguas, entre ellas el español y el catalán. Extracción de más de 675.000 documentos.

    • Acceso:

Por otra parte, se ha desarrollado un anonimizador de contenidos generados por usuarios. Canal de anonimización para introducir datos de fuera del BSC que puedan contener datos protegidos por el GDPR.

  • Acceso:


Datasets de pre entrenamiento ALIA 40B

Relación de datasets con referencias en el marco del pre entrenamiento del modelo ALIA 40B.

Los corpus de entrenamiento se listan a continuación:

Corpus

Lenguas

Link

Colossal OSCAR 1.0

bg, ca, cs, cy, da, de, el, en, es, et, eu, fi, fr, ga, gl, hr, hu, it, lt, lv, mt, nl, nn, no, oc, pl, pt, ro, ru, sh, sk, sl, sr, sv, uk

Aya Dataset (w/o Evaluation Suite)

eu, hr, nl, fi, ka, hu, lt, nn, ro, sk, lv, cy, bg, cs, en, fr, de, ga, mt, pl, ru, sl, sv, ca, da, et, gl, el, it, no, pt, sr, es, uk

Wikimedia dumps

Modelos multimodales

Inicio - ALIA Kit

hashtag
¿Qué es el proyecto ALIA?

ALIA es una iniciativa pionera en la Unión Europea que busca proporcionar una infraestructura pública de recursos de IA, como modelos de lenguaje abiertos y transparentes, para fomentar el impulso del castellano y lenguas cooficiales -catalán y valenciano, euskera y gallego- en el desarrollo y despliegue de la IA en el mundo.

El objetivo es facilitar la creación de una nueva generación de recursos y servicios tecnológicos innovadores enriquecidos con el inmenso patrimonio lingüístico del castellano, hablado por 600 millones de personas en el mundo, y las lenguas cooficiales.

Datos para la traducción automática

hashtag
Corpus paralelos para el entrenamiento de modelos de traducción automática



latxa-corpus-v2: Corpus en euskera que incluye de textos en los dominio legal, administrativo, periodístico y científico/académico, entre otros.

Acceso: https://huggingface.co/datasets/HiTZ/latxa-corpus-v2arrow-up-right

  • ALIA-legal-administrative-cqa: Corpus de preguntas-respuestas en el dominio legal-administrativo

    Acceso: https://huggingface.co/datasets/SINAI/ALIA-legal-administrative-cqaarrow-up-right

  • Acceso: https://huggingface.co/datasets/BSC-LT/arc_esarrow-up-right
  • ALIA-legal-administrative: Recurso que reúne y organiza una amplia colección de documentos oficiales del ámbito jurídico y administrativo español. Con más de 7 millones de documentos y 5 mil millones de tokens, incluye boletines oficiales estatales, autonómicos y provinciales, registros especializados, documentos ministeriales, licitaciones, contratos públicos y actas parlamentarias, cubriendo así todo el ecosistema normativo e institucional español.

    Acceso: https://huggingface.co/datasets/SINAI/ALIA-legal-administrativearrow-up-right

  • Multi-LMentry: Conjunto de datos en nueve idiomas diseñado para evaluar LLMs en tareas de razonamiento y comprensión de nivel elemental; facilitar comparaciones multilingües, en particular entre idiomas con abundantes recursos y aquellos con recursos limitados; y servir como herramienta de diagnóstico o como un conjunto de pruebas unitarias para examinar las habilidades fundamentales de los modelos. Se trata de una extensión multilingüe de LMentryarrow-up-right.

    Acceso: https://huggingface.co/datasets/BSC-LT/multi_lmentryarrow-up-right

  • EQ-bench_ca: Versión traducida al calalán y adaptada lingüísticamente del conjunto de datos original EQ-Bencharrow-up-right, diseñado para evaluar el razonamiento emocional en modelos de lenguaje mediante indicaciones basadas en diálogos. Su diseño responde a la necesidad de ajustar las capacidades de detección emocional de los modelos multilingües, reconociendo que la expresión y la percepción de las emociones pueden variar de manera significativa entre lenguas.

    Acceso: https://huggingface.co/datasets/BSC-LT/EQ-bench_caarrow-up-right

  • EQ-bench_es: Versión traducida al castellano y adaptada lingüísticamente del conjunto de datos original EQ-Bencharrow-up-right, diseñado para evaluar el razonamiento emocional en modelos de lenguaje mediante indicaciones basadas en diálogos. Su diseño responde a la necesidad de ajustar las capacidades de detección emocional de los modelos multilingües, reconociendo que la expresión y la percepción de las emociones pueden variar de manera significativa entre lenguas.

    Acceso: https://huggingface.co/datasets/BSC-LT/EQ-bench_esarrow-up-right

  • CaBBQ: Adaptación del conjunto de datos original BBQarrow-up-right a la lengua catalana y al contexto social de España. Este recurso se utiliza para evaluar el sesgo social en modelos de lenguaje a gran escala (LLM) en una tarea de preguntas y respuestas con opciones múltiples, centrada en diez categorías sociales: edad, discapacidad, género, identidad LGBTQIA, nacionalidad, apariencia física, raza/etnicidad, religión, nivel socioeconómico y región española.

    Acceso: https://huggingface.co/datasets/BSC-LT/CaBBQarrow-up-right

  • EsBBQ: Adaptación del conjunto de datos original BBQarrow-up-right a la lengua castellana y al contexto social de España. Este recurso se utiliza para evaluar el sesgo social en modelos de lenguaje a gran escala (LLM) en una tarea de preguntas y respuestas con opciones múltiples, centrada en diez categorías sociales: edad, discapacidad, género, identidad LGBTQIA, nacionalidad, apariencia física, raza/etnicidad, religión, nivel socioeconómico y región española.

    Acceso: https://huggingface.co/datasets/BSC-LT/EsBBQarrow-up-right

  • OpenBookQA_es: Traducción al castellano del corpus OpenBookQA, diseñado para evaluar conocimientos básicos del mundo y cierta capacidad de razonamiento. Incluye 1000 instancias con una pregunta, cuatro opciones posibles y la letra que indica la respuesta correcta.

    Acceso: https://huggingface.co/datasets/BSC-LT/openbookqa-esarrow-up-right

  • hhh_alignment_ca: Traducción al catalán del corpus hhh_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, con una clasificación pragmática en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.

    Acceso: https://huggingface.co/datasets/projecte-aina/hhh_alignment_caarrow-up-right

  • hhh_alignment_es: Traducción al castellano del corpus hhh_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, con una clasificación pragmática en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.

    Acceso: https://huggingface.co/datasets/BSC-LT/hhh_alignment_esarrow-up-right

  • IFEval_ca: Traducción al catalán del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.

    Acceso: https://huggingface.co/datasets/projecte-aina/IFEval_caarrow-up-right

  • IFEval_es: Traducción al castellano del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.

    Acceso: https://huggingface.co/datasets/BSC-LT/IFEval_esarrow-up-right

  • VeritasQA: Corpus diseñado para evaluar grandes modelos de lenguaje sobre la veracidad en un entorno zero-shot, basado en el corpus TruthfulQA. Incluye 353 pares de preguntas-respuestas inspiradas en ideas erróneas y falsedades comunes.

    Acceso: https://huggingface.co/datasets/projecte-aina/veritasQAarrow-up-right

  • cobie_sst2: Modificación del SST-2arrow-up-right original para evaluar sesgos cognitivos en LLMs.

    Acceso: https://huggingface.co/datasets/BSC-LT/cobie_sst2arrow-up-right

  • cobie_ai2_arc: Modificación del ARCarrow-up-right original para evaluar sesgos cognitivos en LLMs.

    Acceso: https://huggingface.co/datasets/BSC-LT/cobie_ai2_arcarrow-up-right

  • RAG_eu: Corpus de evaluación para RAGs en diferentes dominios (legal-administrativo, parlamentos, periodistico) y tareas (clasificación de dominio, predicción de capacidad de respuesta y recuperación de información).

    Acceso: https://huggingface.co/datasets/HiTZ/RAG_euarrow-up-right

  • ALIA-administrative-triplets: conjunto de datos diseñad para entrenar y evaluar modelos orientados a la recuperación de información.

    Acceso: https://huggingface.co/datasets/SINAI/ALIA-administrative-tripletsarrow-up-right

  • Acceso: https://huggingface.co/datasets/gplsi/discriminative_clearsim_vaarrow-up-right
  • BALANCED_FAKE_JOB_POSTINGS_EN Dataset: Conjunto de textos en inglés diseñado para entrenar o evaluar modelos en una tarea de detección de fraude. Versión balanceada en inglés del conjunto de datos original de Kaggle Fake Job Postings Dataset: Real or Fake? Fake Job Posting Predictionarrow-up-right. Incluye 1.730 ofertas de empleo, distribuidas equitativamente entre anuncios fraudulentos (falsos) y no fraudulentos (reales).

    Acceso: https://huggingface.co/datasets/gplsi/fake_job_postings_balanced_enarrow-up-right

  • BALANCED_FAKE_JOB_POSTINGS_VA Dataset: Conjunto de textos en valenciano diseñado para entrenar o evaluar modelos en una tarea de detección de fraude. Versión traducida del conjunto de datos original de Kaggle Fake Job Postings Dataset: Real or Fake? Fake Job Posting Predictionarrow-up-right. Incluye 1.730 ofertas de empleo, distribuidas equitativamente entre anuncios fraudulentos (falsos) y no fraudulentos (reales).

    Acceso: https://huggingface.co/datasets/gplsi/fake_job_postings_balanced_vaarrow-up-right

  • DISCRIMINATIVE COUNTERFEIT_ES Dataset: Conjunto de textos en español diseñado para entrenar o evaluar modelos en una tarea de verificación de marcas y detección de productos falsificados en entornos jurídicos y administrativos.

    Acceso: https://huggingface.co/datasets/gplsi/discriminative_counterfeit_esarrow-up-right

  • DISCRIMINATIVE COUNTERFEIT_EN Dataset: Conjunto de textos en inglés diseñado para entrenar o evaluar modelos en una tarea de verificación de marcas y detección de productos falsificados en entornos jurídicos y administrativos.

    Acceso: https://huggingface.co/datasets/gplsi/discriminative_counterfeit_enarrow-up-right

  • https://huggingface.co/datasets/gplsi/alia_dogvarrow-up-right
    https://huggingface.co/datasets/gplsi/alia_bouaarrow-up-right
    https://huggingface.co/datasets/gplsi/alia_amicarrow-up-right
    https://huggingface.co/datasets/gplsi/alia_les_cortsarrow-up-right
    https://huggingface.co/datasets/gplsi/alia_multilingual_parallel_sentencesarrow-up-right
    https://huggingface.co/datasets/gplsi/alia_tourismarrow-up-right
    https://huggingface.co/datasets/gplsi/alia_intellectual_propertyarrow-up-right
    https://huggingface.co/datasets/BSC-LT/COPA-esarrow-up-right
    https://huggingface.co/datasets/projecte-aina/InstruCATarrow-up-right
    https://huggingface.co/datasets/SINAI/ALIA-legal-administrative-synthetic-instructionsarrow-up-right
    PersonaHubarrow-up-right
    https://huggingface.co/datasets/BSC-LT/m-personasarrow-up-right
    SIQAarrow-up-right
    https://huggingface.co/datasets/BSC-LT/SIQA_esarrow-up-right
    ARCarrow-up-right
    https://huggingface.co/datasets/gplsi/discriminative_clearsim_esarrow-up-right
    https://langtech-bsc.gitbook.io/alia-kit/datasets/datos-y-herramientas-para-modelos-de-texto/datasets-de-pre-entrenamiento-alia-40barrow-up-right
    https://github.com/langtech-bsc/Wikiextractor-V2/​arrow-up-right
    https://github.com/langtech-bsc/AnonymizationPipelinearrow-up-right

    bg, ca, cs, da, de, el, en, es, et, eu, fi, fr, ga, gl, hr, hu, it, lt, lv, mt, nl, nn, no, pl, pt, ro, sh, sk, sl, sr, uk

    https://dumps.wikimedia.org/arrow-up-right

    OpenSubtitles v2016

    bg, ca, cs, da, de, el, en, es, et, eu, fi, fr, gl, hr, it, lt, lv, nl, no, pl, pt, ro, sk, sl, sr, sv, uk

    https://huggingface.co/datasets/Helsinki-NLP/open_subtitlesarrow-up-right

    EurLEX-Resources

    bg, cs, da, de, el, en, es, et, fi, fr, ga, hr, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv

    https://huggingface.co/datasets/joelniklaus/eurlex_resourcesarrow-up-right

    MC4-Legal

    bg, cs, da, de, el, en, es, et, fi, fr, ga, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv

    https://huggingface.co/datasets/joelniklaus/legal-mc4arrow-up-right

    Parlamint

    at, bg, cz, dk, ee, es, es-ga, fi, fr, gb, gr, hr, hu, it, lv, nl, no, pl, pt, rs, se, si

    https://clarin-eric.github.io/ParlaMint/arrow-up-right

    MaCoCu

    bg, ca, el, hr, mt, sl, sr, uk

    https://macocu.eu/arrow-up-right

    CURLICAT

    bg, hr, hu, pl, ro, sk, sl

    https://curlicat-project.eu/arrow-up-right

    Norwegian Colossal Corpus (NCC)

    nn, no

    https://github.com/NbAiLab/notram/blob/master/guides/corpus_description.mdarrow-up-right

    Academic Slovene KAS 2.0

    sl

    https://www.clarin.si/repository/xmlui/handle/11356/1448arrow-up-right

    BIGPATENT

    en

    https://huggingface.co/datasets/NortheasternUniversity/big_patentarrow-up-right

    Biomedical-ES

    es

    https://zenodo.org/records/4561971arrow-up-right

    Brazilian Portuguese Web as Corpus (BrWaC)

    pt

    https://huggingface.co/datasets/dominguesm/brwacarrow-up-right

    Bulgarian National Corpus (BulNC)

    bg

    http://old.dcl.bas.bg/dataset/BulNC.7zarrow-up-right

    CaBeRnet

    fr

    https://aclanthology.org/2020.cmlc-1.3/arrow-up-right

    CATalog 1.0

    ca

    https://huggingface.co/datasets/projecte-aina/CATalogarrow-up-right

    CorpusNÓS

    gl

    https://zenodo.org/records/11655219arrow-up-right

    Croatian Web as Corpus 2.1 (hrWaC)

    hr

    https://clarin.si/repository/xmlui/handle/11356/1064arrow-up-right

    DaNewsroom

    da

    https://github.com/danielvarab/da-newsroomarrow-up-right

    Danish GigaWord

    da

    https://huggingface.co/datasets/danish-foundation-models/danish-gigawordarrow-up-right

    Dolmino-mix-1124 (subset without synthetically generated data and privative licenses)

    en

    https://huggingface.co/datasets/allenai/dolmino-mix-1124arrow-up-right

    DK-CLARIN Reference Corpus of General Danish

    da

    https://korpus.dsl.dk/clarin/arrow-up-right

    Estonian National Corpus 2021 (ENC)

    et

    https://metashare.ut.ee/repository/search/?q=estonian%20national%20corpusarrow-up-right

    Estonian Reference Corpus (ERC)

    et

    https://lindat.mff.cuni.cz/repository/xmlui/handle/11372/LRT-1068arrow-up-right

    EusCrawl (w/o Wikipedia or NC-licenses)

    eu

    https://huggingface.co/datasets/HiTZ/euscrawlarrow-up-right

    FineWeb-Edu (350BT subset)

    en

    https://huggingface.co/datasets/HuggingFaceFW/fineweb-eduarrow-up-right

    Fineweb2 (ad hoc subset of 178BT)

    ar, as, bg, ca, cs, cy, da, de, el, es, et, eu, fi, fr, ga, gl, hr, hu, it, lt, lv, mt, nl, nn, no, oc, pl, pt, ro, ru, sk, sl, sr, sv, uk

    https://huggingface.co/datasets/HuggingFaceFW/fineweb-2arrow-up-right

    French Public Domain Books (French-PD)

    fr

    https://huggingface.co/datasets/PleIAs/French-PD-Booksarrow-up-right

    French Public Domain Newspapers (French-PD)

    fr

    https://huggingface.co/datasets/PleIAs/French-PD-Newspapersarrow-up-right

    German Web as Corpus (DeWaC)

    de

    https://wacky.sslmit.unibo.it/doku.php?id=seed_urlsarrow-up-right

    Greek Legal Code (GLC)

    el

    https://huggingface.co/datasets/AI-team-UoA/greek_legal_codearrow-up-right

    Greek Web Corpus (GWC)

    el

    http://nlp.polytechnique.fr/resources-greekarrow-up-right

    HPLT v1 - Spanish

    es

    https://hplt-project.org/datasets/v1arrow-up-right

    HPLT v1.1 - Spanish

    es

    https://hplt-project.org/datasets/v1.1arrow-up-right

    Irish Universal Dependencies (Ga-UD)

    ga

    https://universaldependencies.org/ga/arrow-up-right

    Italian Web as Corpus (ItWaC)

    it

    https://wacky.sslmit.unibo.it/doku.php?id=seed_urlsarrow-up-right

    Korpus Malti

    mt

    https://huggingface.co/datasets/MLRS/korpus_maltiarrow-up-right

    Korpus slovenských právnych predpisov v1.9 (SK-Laws)

    sk

    https://www.juls.savba.sk/data.htmlarrow-up-right

    Latxa Corpus v1.1 (GAITU)

    eu

    https://huggingface.co/datasets/HiTZ/latxa-corpus-v1.1arrow-up-right

    Laws and legal acts of Ukraine (UK-Laws)

    uk

    https://lang.org.ua/en/corpora/#anchor7arrow-up-right

    Legal-ES

    es

    https://aclanthology.org/2020.lt4gov-1.6/arrow-up-right

    MARCELL Romanian legislative subcorpus v2

    ro

    https://elrc-share.eu/repository/browse/marcell-romanian-legislative-subcorpus-v2/2da548428b9d11eb9c1a00155d026706ce94a6b59ffc4b0e9fb5cd9cebe6889e/arrow-up-right

    Math AMPS

    en

    https://github.com/hendrycks/matharrow-up-right

    NKPJ National Corpus of Polish v1.2 (NKPJ)

    pl

    https://nkjp.pl/index.php?page=0&lang=1arrow-up-right

    Occitan Corpus (IEA-AALO)

    oc

    Datos descargados de la web del institut a través de acuerdo, no publicados.

    https://www.institutestudisaranesi.cat/arrow-up-right

    Open Legal Data - German court decisions and laws

    de

    https://openlegaldata.io/arrow-up-right

    enlace de descarga desactualizado

    ParlamentoPT

    pt

    https://huggingface.co/datasets/PORTULAN/parlamento-ptarrow-up-right

    peS2o

    en

    https://huggingface.co/datasets/allenai/peS2oarrow-up-right

    PG-19

    en

    https://huggingface.co/datasets/deepmind/pg19arrow-up-right

    Pile of Law (selected subsets)

    en

    https://huggingface.co/datasets/pile-of-law/pile-of-lawarrow-up-right

    Polish Parliamentary Corpus (PPC)

    pl

    https://clip.ipipan.waw.pl/PPCarrow-up-right

    Proof Pile

    en

    https://huggingface.co/datasets/hoskinson-center/proof-pilearrow-up-right

    RedPajama-Data T1 (StackExchange subset)

    en

    https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1Tarrow-up-right

    Scientific-ES

    es

    Recopilación de repositorios en abierto (https://dialnet.unirioja.es/arrow-up-right, https://scielo.isciii.es/scielo.phparrow-up-right, https://revistas.csic.es/arrow-up-right, https://www.tesisenred.netarrow-up-right/, https://docta.ucm.es/homearrow-up-right)

    SK Court Decisions v2.0 (OD-Justice)

    sk

    https://www.juls.savba.sk/data/od-justice/od-justice-2.0.ver.xzarrow-up-right

    Slovene Web as Corpus (slWaC)

    sl

    https://www.sketchengine.eu/slwac-slovenian-corpus-from-the-web/arrow-up-right

    SoNaR Corpus NC 1.2

    nl

    https://elrc-share.eu/repository/browse/sonar-corpus/9735a54f1f9111e7bfe700155d020502b917ac3b8c8844e19665914d110e94d1/arrow-up-right

    Spanish Legal Domain Corpora (Spanish-Legal)

    es

    https://zenodo.org/records/5495529arrow-up-right

    SrpKorSubset: news, legal, academic, conversation, lit- erary (SrpKor)

    sr

    http://metashare.elda.org/repository/browse/corpus-of-contemporary-serbian/00cc41168bdf11e29c9e0015171445924cdac8693bf840f780418187133495b8/arrow-up-right

    Starcoder

    code

    https://huggingface.co/datasets/bigcode/starcoderdataarrow-up-right

    State-related content from the Latvian Web (State-Latvian-Web)

    lv

    https://catalog.elra.info/en-us/repository/browse/ELRA-W0169/arrow-up-right

    SYN v9: large corpus of written Czech

    cs

    https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-4635arrow-up-right

    Tagesschau Archive Article

    de

    https://huggingface.co/datasets/bjoernp/tagesschau-2018-2023arrow-up-right

    The Danish Parliament Corpus 2009 - 2017, v1

    da

    https://repository.clarin.dk/repository/xmlui/handle/20.500.12115/8arrow-up-right

    The Gaois bilingual corpus of English-Irish legislation (Ga-Legislation)

    ga

    https://portulanclarin.net/repository/browse/the-gaois-bilingual-corpus-of-english-irish-legislation-processed/daeac17c9e3511ea9b7f02420a000407b83de243dc0b469aab41084386c5b80f/arrow-up-right

    The Pile (PhilPapers)

    en

    https://github.com/thoppe/The-Pile-PhilPapersarrow-up-right

    The Swedish Culturomics Gigaword Corpus (Swedish- Gigaword)

    sv

    https://spraakbanken.gu.se/en/resources/gigawordarrow-up-right

    Welsh-GOV

    cy

    Crawling de aqui: https://www.llyw.cymru/arrow-up-right

    Yle Finnish News Archive (Yle-News)

    https://www.kielipankki.fi/download/YLE/fi/2019-2020-src/arrow-up-right

    https://huggingface.co/datasets/oscar-corpus/colossal-oscar-1.0arrow-up-right
    https://huggingface.co/datasets/CohereForAI/aya_datasetarrow-up-right

    Otras

    Otras demostraciones creadas utilizando los modelos del kit

    • Sistema RAG de ejemplo ejecutándose localmente en Google Colab utilizando una versión cuantizada del modelo Salamadra-7b-instruct​arrow-up-right

    arrow-up-right

    Se trata de la primera infraestructura pública europea, abierta y multilingüe que, gracias a las capacidades únicas de supercomputación del Barcelona Supercomputing Center, refuerza la soberanía tecnológica de España y Europa en el desarrollo de una IA transparente, responsable y al servicio de las personas.

    hashtag
    ¿Qué es el ALIA Kit?

    El Alia Kit es la materialización tangible del proyecto Alia. Es una colección completa y organizada de modelos y conjuntos de datos abiertos desarrollados por el proyecto para la comunidad. Funciona como un conjunto de herramientas (kit) para que cualquier persona o entidad interesada pueda construir productos y servicios basados ​​en inteligencia artificial en lengua catalana.

    Los recursos publicados del ALIA Kit se han desarrollado en el marco del Plan Nacional de Tecnologías de Lenguaje de la Estrategia Nacional de Inteligencia Artificial, y está financiado por el Ministerio para la Transformación Digital y de la Función Pública, con fondos de la Unión Europea – NextGenerationEU.

    El contenido del Alia Kit es diverso y abarca todo el ciclo de vida del desarrollo de aplicaciones de IA:

    • Modelos de Lenguaje: Incluye una amplia gama de modelos de IA instruidos y fundacionales para tareas de textoarrow-up-right (generación, clasificación, etc.), hablaarrow-up-right (reconocimiento y síntesis de voz) y traducción automáticaarrow-up-right.

    • Datasets (Conjuntos de Datos): Ofrece los corpus de textoarrow-up-right, vozarrow-up-right y traducción automáticaarrow-up-right, tanto generales como especializados, que se han utilizado para entrenar y evaluar los modelos.

    • Herramientas de Integración: Proporciona herramientas para facilitar la integración de estos recursos en aplicaciones y flujos de trabajo existentes.

    • Guía de Adopción (FAQ): La recoge de manera estructurada toda la información esencial para entender y aprovechar los recursos de Alia Kit: qué familias de modelos existen, cómo se pueden utilizar (instruidos, fundacionales, etc.), cómo desplegarlos y adaptarlos a cada caso. También incluye información sobre licencias, requisitos técnicos y herramientas de soporte.

    • Demostradores: Los muestran ejemplos prácticos y aplicaciones de los modelos en funcionamiento, que sirven de inspiración y punto de partida.

    Los modelos y datasets (conjuntos de datos) creados en el marco del proyecto Alia están a disposición de todas aquellas entidades públicas y privadas que los quieran utilizar. Los recursos se publican en abierto y con licencias permisivas.

    Éste es un documento vivo, que irá evolucionando. Si quieres enviarnos comentarios, correcciones y/o sugerencias de mejora puedes hacerlo vía el formulario de contacto.

    hashtag
    Manténgase al día del proyecto ALIA

    El proyecto ALIA se encuentra en constante evolución. Para todos aquellos interesados ​​en seguir de cerca su desarrollo, resolver dudas o incluso colaborar activamente con ellos, existen diversas plataformas y canales de comunicación.

    • Como primer recurso, esta misma página del Alia Kit, con las descripciones de los recursos.

    • Si no se encuentra la respuesta, consulta la guía de adopción (FAQ)arrow-up-right, que contiene respuestas a las preguntas más frecuentes, breves tutoriales y vídeos específicos.

    • Un tercer nivel se realizará colectivamente con un canal Discordarrow-up-right en el que se puede compartir dudas y soluciones. Si hay preguntas más específicas, existen canales específicos de modelos de Texto, Voz, Traducción y Datasets donde tanto la comunidad como los investigadores del BSC podrán resolver las dudas.

    A continuación están disponibles los enlaces oficiales para no perder ninguna novedad y formar parte de esta comunidad:

    🌐 Web y boletín del proyecto

    • Web proyecto Aliaarrow-up-right

    🕸️ Redes sociales

    • Discordarrow-up-right

    hashtag
    Corpus para la adaptación y la evaluación de modelos de traducción automática
    Idiomas
    Núm. Frases
    Origen de los datos
    Disponible en
    Nombre

    Idiomas

    Multilingüe

    Núm. de Frases

    453.783.349

    Origen de los datos

    OPUS + otras funets públicas + corpus sintético

    Disponible en

    Nombre del corpus

    ALIA_mixed_authentic_synthetic_MT

    Idiomas

    Catalán-Gallego

    Núm. de Frases

    33.668.599

    Origen de los datos

    NOS + AINA

    Disponible en

    Nombre del corpus

    CA-GL_Parallel_Corpus

    Idiomas

    Catalán-Euskera

    Núm. de Frases

    10.471.139

    Origen de los datos

    GAITU + AINA

    Disponible en

    Nombre del corpus

    CA-EU_Parallel_Corpus

    Idiomas

    Español-Aragonés

    Núm. de Frases

    47.521

    Origen de los datos

    Corpus sintético + OPUS

    Disponible en

    Nombre del corpus

    ES-AN Parallel Corpus

    Idiomas

    Español-Asturiano

    Núm. de Frases

    704.378

    Origen de los datos

    Corpus sintético + OPUS

    Disponible en

    Nombre del corpus

    ES-AST Parallel Corpus

    Idiomas

    Español-Aranés

    Núm. de Frases

    419.908

    Origen de los datos

    Corpus sintético + OPUS

    Disponible en

    Nombre del corpus

    ES-OC Parallel Corpus

    Idiomas

    Valenciano - Español

    Núm. de Frases

    120.281

    Origen de los datos

    Universitat Jaume I

    Disponible en

    Nombre del corpus

    UJI_PARALLEL_VA_ES Dataset

    Idiomas

    Valenciano - Español

    Núm. de Frases

    8.759.238

    Origen de los datos

    Diari Oficial de la Generalitat Valenciana

    Disponible en

    Nombre del corpus

    DOGV_PARALLEL Dataset

    Idiomas

    Valenciano - Español

    Núm. de Frases

    738.777

    Origen de los datos

    Associació de Mitjans d'Informació i Comunicació

    Disponible en

    Nombre del corpus

    AMIC_PARALLEL Dataset

    Idiomas

    Valenciano - Español

    Núm. de Frases

    357.518

    Origen de los datos

    Boletín Oficial de la Universidad de Alicante

    Disponible en

    Nombre del corpus

    BOUA_PARALLEL Dataset

    Idiomas

    Valenciano - Inglés

    Núm. de Frases

    43.107

    Origen de los datos

    Universitat Jaume I

    Disponible en

    Nombre del corpus

    UJI_PARALLEL_VA_EN Dataset

    Idiomas

    Español - Catalán

    Núm. de Frases

    1.958

    Origen de los datos

    Common Voice

    Disponible en

    Nombre del corpus

    ES-CA_alignment_test Dataset

    Idiomas

    Español - Valenciano

    Núm. de Frases

    1.958

    Origen de los datos

    Common Voice

    Disponible en

    Nombre del corpus

    ES-VA_alignment_test Dataset

    Idiomas

    Catalán - Valenciano

    Núm. de Frases

    1.958

    Origen de los datos

    Common Voice

    Disponible en

    Nombre del corpus

    CA-VA_alignment_test Dataset

    Idiomas

    Inglés - Español

    Núm. de Frases

    35.753.765

    Origen de los datos

    Distintas funtes de dominios legal-administrativo, biomédico y patrimonial

    Disponible en

    Nombre del corpus

    ALIA-parallel-translation

    Idiomas

    Inglés - Español - Euskera

    Núm. de Frases

    137.726

    Origen de los datos

    Berria (Sintético)

    Disponible en

    Nombre del corpus

    ALIA synthetic MT

    Descripción / Función

    LLM especializado en imágenes y videos

    Nombre modelo

    Salamandra-VL-7B-2512

    Model card
    https://huggingface.co/BSC-LT/Salamandra-VL-7B-2512
    Comentario

    Nueva versión de la familia de modelos de visión Salamandra y presenta importantes mejoras en su arquitectura y entrenamiento. Incorpora un codificador de imágenes , utiliza la base de ajustada con datos de instrucciones recientes y un enfoque especial en lenguas europeas, y mejora su comprensión visual gracias a la integración de los conjuntos de datos , que refuerzan el anclaje visual preciso y las capacidades de conteo.

    Descripción / Función

    LLM especializado en imágenes y videos

    Nombre modelo

    salamandra-7b-vision

    Model card
    https://huggingface.co/BSC-LT/salamandra-7b-vision
    Comentario

    Modelo salamandra-7b adaptado para el procesamiento de imágenes y videos.

    Descripción / Función

    Traducción de voz a texto

    Nombre modelo

    SalamandraTAV-7b

    Model card
    https://huggingface.co/BSC-LT/salamandra-TAV-7b
    Comentario

    Versión ajustada de , que utiliza como codificador de voz. Ha sido entrenado con 12.000 horas de datos de reconocimiento de voz, 900 horas de datos de traducción de voz a texto y 113 millones de tokens de traducción de texto a texto para mantener el rendimiento del modelo original.

    Descripción / Función

    Modelo multimodal y muiltilingüe instruido

    Nombre modelo

    Latxa Qwen-3 VL 2B

    Model card
    https://huggingface.co/HiTZ/Latxa-Qwen3-VL-2B-Instruct
    Comentario

    Modelo multimodal y multilingüe instruido, adaptado al euskera y construido sobre .

    EL modelo ha sido entrenado con un corpus en euskera de 4,3 millones de documentos, así como un corpus de tamaño equivalente en Catalán y Gallego.

    Descripción / Función

    Modelo multimodal y muiltilingüe instruido

    Nombre modelo

    Latxa Qwen-3 VL 4B

    Model card
    https://huggingface.co/HiTZ/Latxa-Qwen3-VL-4B-Instruct
    Comentario

    Modelo multimodal y multilingüe instruido, adaptado al euskera y construido sobre .

    EL modelo ha sido entrenado con un corpus en euskera de 4,3 millones de documentos, así como un corpus de tamaño equivalente en Catalán y Gallego.

    Datos y herramientas para modelos de voz

    hashtag
    Corpus de voz

    hashtag
    Corpus de voz con transcripción

    • Nos_ParlaSpeech-GL: Conjunto de datos formado por más de 1.600 horas de audio y texto alineados automáticamente, creado a partir de grabaciones y transcripciones oficiales de las sesiones parlamentarias gallegas celebradas entre 2015 y 2022.

      Acceso:

    • Nos_Transcrispeech-GL: Corpus ASR en gallego transcrito manualmente y alineado con texto mediante reconocimiento de voz, que contiene 50 horas de habla multidominio. Incluye distintos tipos de audio: conferencias, debates, discursos e entrevistas.

      Acceso:

    • Nos_RG-Podcast-GL: Conjunto de datos en gallego de 328 horas, transcrito y alineado automáticamente para tareas de reconocimiento automático del habla (ASR). Incluye 33 series de pódcast en gallego, organizadas en siete géneros principales: cultura, sociedad, historia, igualdad, ciencia, humor y ficción.

      Acceso:

    • CommonPhone-SE: Conjunto de datos de referencia derivado de Commonphone. Contiene muestras de audio en siete idiomas, grabadas por personas de entre 18 y 80 años. Su objetivo es ofrecer un conjunto de datos diverso en cuanto a los hablantes, destinado a evaluar y comparar algoritmos de mejora del habla en condiciones reales.

      Acceso:

    • distilled-yodas-spanish: Subconjunto de alta calidad de la sección en español del YouTube-Oriented Dataset for Audio and Speech (). Mientras que el corpus completo de YODAS incluye más de 37.000 horas de habla en español distribuidas en 43 millones de archivos, este conjunto ofrece una versión depurada y validada que comprende aproximadamente 8.000 horas de grabaciones.

      Acceso:

    • Nos_Celtia-GL: Corpus compuesto por 20.000 frases (aproximadamente 200.000 palabras). Está formado por dos subcorpus: el primero, elaborado previamente por el Grupo de Tecnoloxías Multimedia (GTM) en colaboración con el Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH), incluye texto periodístico (escrito) y frases diseñadas manualmente (interrogativas, exclamativas, imperativas, listas de números, etc.); el segundo, compilado por el Proyecto Nós a partir de textos de distintos dominios temáticos, reúne transcripciones de discurso oral, definiciones de diccionario, transcripciones de discursos parlamentarios, transcripciones de informativos y oraciones breves (<4 palabras), interrogativas, exclamativas, imperativas y elípticas.

      Acceso:

    • Nos_Brais-GL: Corpus basado en un corpus textual de 16.121 frases (aproximadamente 168.000 palabras) compuesto por tres subcorpus: frases seleccionadas de un corpus compilado por el Proyecto Nós a partir de textos multidominio y previamente utilizado en el corpus TTS Nos_Celtia-GL; frases seleccionadas de un corpus elaborado anteriormente por el Grupo de Tecnoloxías Multimedia (GTM) y el Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH); y, por último, un subcorpus de 500 palabras fonéticamente ricas extraído del Dicionario de pronuncia da lingua galega. Nos_Brais-GL fue grabado en un entorno controlado (estudio de grabación) por un locutor profesional seleccionado entre tres candidatos mediante una prueba de escucha perceptual en la que 37 participantes evaluaron la claridad, prosodia, agrado y competencia lingüística de cada uno.

      Acceso:

    • Nos_Telexornais-GL: Corpus de ASR con más de 1.100 horas de habla transcrita y alineada automáticamente utilizando Google Chirp2. Este corpus fue creado a partir de audio de noticias gallegas entre 2019 y 2022. El contenido pertenece a la Corporación de Radio y Televisión de Galicia y los datos se publican de acuerdo con sus términos de uso.

      Acceso:

    • corts_valencianes_asr_a: Conjunto de datos formado por grabaciones de voz de las sesiones de las Corts Valencianes. Incluye 270 horas, 5 minutos y 34 segundos de voz, distribuidos en 239h 05m 24s correspondientes a segmentos cortos y 31h 00m 11s correspondientes a segmentos largos. El corpus incluye un total de 2.621.096 palabras.

      Tarea: Reconocimiento del habla

      Acceso:

    • commonvoice_benchmark_catalan_accents: Benchmark diseñado para evaluar la precisión de los modelos de reconocimiento automático del habla en distintos géneros y dialectos. Elaborado a partir de una reorganización de los datos de , incluye dos horas y media de audio.

      Tarea: Reconocimiento del habla

      Acceso:

    • cv17_es_other_automatically_verified: 581.680 archivos de audio (784 horas y 50 minutos) en castellano validados automáticamente con el modelo .

      Tarea: Reconocimiento del habla

      Acceso:

    • escagleu-64k: Corpus paralelo de 64.091 frases traducidas del español al catalán, adaptación al valenciano, gallego y vasco. Las frases originales provienen del corpus Common Voice. La traducción al gallego y al vasco se realizó con traducción automática.

      Tarea: Traducción automática, traducción de voz a texto y traducción de voz a voz.

      Acceso:

    • Synthetic DEM Corpus: Conjunto de datos compuesto por grabaciones de voz con el acento característico del español del centro de México. El corpus tiene un tamaño de 371 horas e incluye palabras, definiciones, ejemplos y ejemplos generados por LLM. Este conjunto de datos es el resultado de la primera fase de una colaboración entre El Colegio de México (COLMEX) y el Barcelona Supercomputing Center (BSC).

      Tarea: Reconocimiento del habla

      Acceso:

    • composite_corpus_es_1.0: Conjunto de datos compuesto por grabaciones de voz con su transcripción en español creado con datos de acceso público. Incluye un total de 2.676 horas (525.692 oraciones).

      Acceso:

    • composite_corpus_eu_2.1: Conjunto de datos compuesto por grabaciones de voz con su transcripción en euskera creado con datos de acceso público. Incluye un total de 707 horas (407.167 oraciones).

      Acceso:

    • composite_corpus_eseu_v1.0: Conjunto de datos bilingüe compuesto por grabaciones de voz con su transcripción en euskera y español (misma proporción) creado con datos de acceso público. Incluye un total de 1.456 horas (741.738 oraciones).

      Acceso:

    • benchmark_eseu_testsets: Conjunto de datos de test balanceados en castellano, euskera y bilingüe con code-switching. Incluye un total de 11 horas (5.737 oraciones).

      Acceso:


    En Spaces de Hugging Face

    Dentro de Hugging Face Spaces se han abierto servicios con una API gratuita (desde python, javascript o curl) con la que se pueden realizar pruebas.

    • Sistema de chat para interactuar con los modelos del Alia Kit:

    • Modelos de traducción automática con diversidad de idiomas:

    Adopción (FAQ)

    hashtag
    Preguntas Frecuentes:

    hashtag
    Índice

    guía de adopción (FAQ)arrow-up-right
    demostradoresarrow-up-right
    https://huggingface.co/datasets/proxectonos/Nos_Parlaspeech-GLarrow-up-right
    https://huggingface.co/datasets/proxectonos/Nos_Transcrispeech-GLarrow-up-right
    https://huggingface.co/datasets/proxectonos/Nos_RG-Podcast-GLarrow-up-right
    https://huggingface.co/datasets/BSC-LT/CommonPhone-SEarrow-up-right
    YODASarrow-up-right
    https://huggingface.co/datasets/BSC-LT/distilled-yodas-spanisharrow-up-right
    https://zenodo.org/records/7716958#.ZAtZm3bMJD8arrow-up-right
    https://zenodo.org/records/14265241arrow-up-right
    https://huggingface.co/datasets/proxectonos/Nos_Telexornais-GLarrow-up-right
    https://huggingface.co/datasets/projecte-aina/corts_valencianes_asr_aarrow-up-right
    annotated_catalan_common_voice_v17arrow-up-right
    https://huggingface.co/datasets/projecte-aina/commonvoice_benchmark_catalan_accentsarrow-up-right
    OpenAI's Whisperarrow-up-right
    https://huggingface.co/datasets/projecte-aina/cv17_es_other_automatically_verifiedarrow-up-right
    https://huggingface.co/datasets/projecte-aina/escagleu-64karrow-up-right
    https://huggingface.co/datasets/projecte-aina/synthetic_demarrow-up-right
    https://huggingface.co/datasets/HiTZ/composite_corpus_es_v1.0arrow-up-right
    https://huggingface.co/datasets/HiTZ/composite_corpus_eu_v2.1arrow-up-right
    https://huggingface.co/datasets/HiTZ/composite_corpus_eseu_v1.0arrow-up-right
    https://huggingface.co/datasets/HiTZ/benchmark_eseu_testsetsarrow-up-right
    SigLIP 2 Giantarrow-up-right
    Salamandra 7Barrow-up-right
    PixMoarrow-up-right
    salamandraTA-7b-instructarrow-up-right
    mhubert-base-25hzarrow-up-right
    Qwen3-VL-2B-Instructarrow-up-right
    Qwen3-VL-4B-Instructarrow-up-right

    Multilingüe

    742.183

    Repositorios académicos europeos

    https://huggingface.co/datasets/BSC-LT/ACADataarrow-up-right

    ACAData

    https://huggingface.co/datasets/BSC-LT/ALIA_mixed_authentic_synthetic_MTarrow-up-right
    https://huggingface.co/datasets/projecte-aina/CA-GL_Parallel_Corpusarrow-up-right
    https://huggingface.co/datasets/projecte-aina/CA-EU_Parallel_Corpusarrow-up-right
    https://huggingface.co/datasets/projecte-aina/ES-AN_Parallel_Corpusarrow-up-right
    https://huggingface.co/datasets/projecte-aina/ES-AST_Parallel_Corpusarrow-up-right
    https://huggingface.co/datasets/projecte-aina/ES-OC_Parallel_Corpusarrow-up-right
    https://huggingface.co/datasets/gplsi/uji_parallel_va_esarrow-up-right
    https://huggingface.co/datasets/gplsi/dogv_parallelarrow-up-right
    https://huggingface.co/datasets/gplsi/amic_parallelarrow-up-right
    https://huggingface.co/datasets/gplsi/boua_parallelarrow-up-right
    https://huggingface.co/datasets/gplsi/uji_parallel_va_enarrow-up-right
    https://huggingface.co/datasets/gplsi/ES-CA_translation_testarrow-up-right
    https://huggingface.co/datasets/gplsi/ES-VA_translation_testarrow-up-right
    https://huggingface.co/datasets/gplsi/CA-VA_alignment_testarrow-up-right
    https://huggingface.co/datasets/SINAI/ALIA-parallel-translationarrow-up-right
    https://huggingface.co/datasets/HiTZ/ALIA_syntethic_MTarrow-up-right
    https://huggingface.co/spaces/BSC-LT/ChatUIarrow-up-right
    https://huggingface.co/spaces/BSC-LT/SalamandraTA-7B-Demoarrow-up-right
    nvidia/parakeet-rnnt-1.1benvelope
    nvidia/parakeet-rnnt-1.1benvelope
    nvidia/parakeet-rnnt-1.1benvelope
    nvidia/parakeet-rnnt-1.1benvelope
    SalamandraTA-2b-Instructenvelope

    ¿Los modelos del Alia Kit cubren varios idiomas o solo español?

  • ¿Qué modelos de texto ofrece el Alia Kit?

  • ¿Qué diferencia hay entre un modelo instruido (listo para usar), un modelo fundacional (para desarrolladores y fine-tuning) y un modelo adaptado a tareas específicas?

  • ¿Qué es RAG (Retrieval-Augmented Generation) y ofrece el Alia Kit modelos y datasets para tareas de RAG?

  • ¿Qué modelos de voz (habla) ofrece el Alia Kit?

  • ¿Cuál es la diferencia entre los modelos de texto y los modelos de traducción automática?

  • ¿Los modelos del Alia Kit están disponibles como APIs?

  • ¿Cómo puedo empezar a usar y probar los modelos del Alia Kit de forma local o para prototipos?

  • ¿Cómo desplegar los modelos del Alia Kit en producción?

  • ¿Puedo hacer fine-tuning de los modelos del Alia Kit para casos de uso propios?

  • ¿Cuándo debo hacer fine-tuning de mis modelos?

  • ¿Cómo puedo hacer el ajuste fino (fine-tuning) de un modelo del Alia Kit a mis datos específicos?

  • ¿Los modelos del Alia Kit soportan "function calling" o “tool use”?

  • ¿Bajo qué licencia se publican los modelos del Alia Kit?

  • ¿Qué implica el uso de un modelo con la licencia Apache 2.0?

  • ¿Qué hardware es necesario para usar los modelos del Alia Kit?

  • ¿Qué tipos de datasets (conjuntos de datos) se ofrecen en el Alia Kit?

  • ¿Qué herramientas ofrece el Alia Kit para el suministro de datos de texto?

  • ¿Bajo qué licencia se publican los conjuntos de datos (datasets) del Alia Kit?

  • ¿Hay demostradores disponibles en el Alia Kit?

  • ¿Cómo mantenerme al día, aclarar dudas o contribuir al proyecto?


  • hashtag
    ¿Los modelos del Alia Kit cubren varios idiomas o solo español?

    La mayoría de los modelos de Alia Kit son multilingües, con fuerte soporte al español y a las lenguas cooficiales (català, euskera, gallego). Por ejemplo, ALIA-40B fue entrenado en 35 idiomas europeos (incluyendo español, inglés, francés, catalán, etc.). Esto les permite comprender y generar texto en múltiples lenguas.


    hashtag
    ¿Qué modelos de texto ofrece el Alia Kit?

    Los modelos de texto del Alia Kit se pueden agrupar en varias familias principales, cada una con sus propias características y casos de uso. Se pueden encontrar con sus descripciones respectivas en la página de modelos de textoarrow-up-right.

    Las familias de modelos más relevantes son:

    • Familia ALIA: Es una de las generaciones más recientes y avanzadas de LLMs del proyecto. Su principal representante es el ALIA-40B, un modelo multilingüe (cubre 35 lenguas europeas) con un especial énfasis en las lenguas cooficiales de España. Tiene 40 mil millones de parámetros y fue entrenado desde cero en el superordenador MareNostrum 5. Por ahora, está disponible su versión fundacional (para desarrolladores y fine-tuning).

    • Familia Salamandra: Dentro de la misma iniciativa de desarrollo que ALIA-40B, los modelos Salamandra también son parte de la generación más reciente y avanzada. También son modelos multilingües (cubren 35 lenguas europeas) y están disponibles en varios tamaños y en tres variantes: instruidos (listos para usar), fundacionales (para desarrolladores y fine-tuning) y adaptados a tareas específicas. Son la opción recomendada para la mayoría de los nuevos proyectos que requieran capacidades generativas.


    hashtag
    ¿Qué diferencia hay entre un modelo instruido (listo para usar), un modelo fundacional (para desarrolladores y fine-tuning) y un modelo adaptado a tareas específicas?

    • Modelos Fundacionales: Un modelo fundacional, como salamandra-7barrow-up-right o ALIA-40Barrow-up-right, ha sido entrenado en una tarea muy simple: predecir la siguiente palabra en una secuencia de texto a partir de un corpus masivo. El resultado es un modelo con un vasto conocimiento lingüístico y del mundo, pero que no está diseñado para interactuar directamente con un usuario o seguir órdenes. Su principal utilidad es servir como "base" sobre la cual los desarrolladores pueden realizar un ajuste fino (fine-tuning) para tareas muy especializadas.

    • Modelos Instruidos: Un modelo instruido, como salamandra-7b-instructarrow-up-right, es un modelo fundacional que ha pasado por una segunda fase de entrenamiento. En esta fase, se le ajusta con un conjunto de datos que consiste en miles de ejemplos de "instrucciones" y las "respuestas" deseadas (como el dataset MentorES). Este proceso le enseña al modelo a comportarse como un asistente: a responder preguntas, a seguir órdenes y a mantener un diálogo coherente. Son los modelos "listos para usar" para la creación de chatbots y aplicaciones conversacionales.

    • Modelo adaptado a tareas específicas: Un modelo que ha sido ajustado o entrenado específicamente para un dominio o función particular, como reconocimiento de entidades (NER), clasificación textual, anotación morfosintáctica (POS), etc. Suele ofrecer mejores resultados en ese campo concreto, aunque es menos flexible para otras tareas.


    hashtag
    ¿Qué es RAG (Retrieval-Augmented Generation)? ¿Ofrece el Alia Kit modelos y datasets para tareas de RAG?

    En un LLM estándar, el modelo genera respuestas basándose únicamente en la información que "aprendió" durante su entrenamiento. Esto tiene dos limitaciones principales: la información puede estar desactualizada y el modelo puede "alucinar" o inventar datos si no conoce la respuesta. RAG soluciona esto conectando el LLM a una base de conocimiento externa (por ejemplo, la documentación interna de una empresa, ficheros PDF o artículos de noticias recientes). Antes de generar una respuesta, el sistema primero recupera los documentos más relevantes de esa base de conocimiento y luego los proporciona al LLM como contexto para que genere una respuesta precisa y fundamentada en esos datos.

    Sí, los modelos instruidos del Alia Kit (como Salamandra-7B-instructed y Salamandra-2B-instructed) son capaces de realizar flujos RAG para responder preguntas basándose en contextos externos. Se pueden encontrar en la página de modelos de textoarrow-up-right.

    Además, está disponible el dataset RAG_Multilingual, un conjunto de datos que contiene más de 56.000 ejemplos de preguntas, contextos y respuestas en catalán, castellano e inglés, diseñado explícitamente para entrenar y evaluar sistemas RAG. Disponible en este enlacearrow-up-right.


    hashtag
    ¿Qué modelos de voz (habla) ofrece el Alia Kit?

    El Alia Kit ofrece modelos de vanguardia para las dos tareas fundamentales de la tecnología del habla:

    • Síntesis de Voz (Text-to-Speech, TTS): Modelos que convierten texto escrito en audio hablado.

    • Reconocimiento Automático del Habla (Automatic Speech Recognition, ASR): Modelos que transcriben audio hablado a texto escrito.

    Los modelos de voz del Alia Kit y sus descripciones se pueden encontrar en la página de modelos de vozarrow-up-right.


    hashtag
    ¿Cuál es la diferencia entre los modelos de texto y los modelos de traducción automática?

    Los modelos de texto del Alia Kit son modelos de lenguaje general capaces de generar, comprender y manipular texto en diferentes idiomas y contextos, mientras que los modelos de traducción automática están específicamente diseñados para convertir texto de un idioma a otro con alta fidelidad y precisión, por lo que la principal diferencia es que los primeros son versátiles y útiles para tareas como redacción, resumen o diálogo, mientras que los segundos se centran exclusivamente en la tarea de traducir de forma eficiente y controlada.

    Los modelos de traducción automática y sus descripciones se pueden encontrar en la página de modelos de traducción automática.


    hashtag
    ¿Los modelos del Alia Kit están disponibles como APIs?

    Por ahora el Alia Kit no ofrece sus modelos mediante una API propia: los publica como repositorios en Hugging Face junto con sus model cards, para que cualquiera pueda desplegarlos usando frameworks como Transformers, FastAPI, o Gradio, o utilizarlos como endpoints en varias plataformas, incluida la propia Hugging Face Inference Endpoints, en Amazon Web Services, Azure, etc.


    hashtag
    ¿Cómo puedo empezar a usar y probar los modelos del Alia Kit de forma local o para prototipos?

    Para usar los modelos del Alia Kit existen varias opciones según las necesidades del usuario:

    • Algunos modelos del Alia Kit se encuentran disponibles en un Space de demonstración en Hugging Face (ChatUI)arrow-up-right, para pruebas rápidas de inferencia.

    • Instalación local con código Python: Descargar los pesos desde Hugging Face y cargarlos con la biblioteca Transformers. Es necesario crear un entorno virtual, instalar las librerías clave como torch y transformers y luego cargar el modelo. Hay ejemplos de código en las model cards de cada modelo específico.

    • Softwares especializados: Herramientas como Ollamaarrow-up-right y LM Studioarrow-up-right permiten ejecutar modelos localmente de forma más user-friendly, siempre que el modelo esté disponible en formato GGUF (no todos los modelos del Alia Kit están en este formato por defecto, pero es posible realizar la conversión manual utilizando herramientas como llama.cpp).

    • Pipelines y notebooks de ejemplo: En Hugging Face, en la opción “Use this model”, se proporcionan fragmentos de código listos y ejemplos prácticos para utilizar los modelos a través de notebooks Google Colab y Kaggle para facilitar las primeras pruebas.


    hashtag
    ¿Cómo desplegar los modelos del Alia Kit en producción?

    Una vez elegido el modelo, existen varias opciones para el despliegue:

    • Hugging Face Inference Endpoints: Disponible en la página del modelo en Hugging Face, a través del botón “Deploy”. Se crea un endpoint directamente desde la página del modelo, seleccionando el proveedor y el tipo de instancia más adecuados. Es posible optimizar el uso de recursos activando opciones como el escalado automático o la cuantización. Esta opción es ideal para prototipos y aplicaciones de mediano volumen.

    • Amazon Sagemaker: Disponible en la página del modelo en Hugging Face, a través del botón “Deploy”. Se instancia un objeto HuggingFaceModel, se define la variable HF_MODEL_ID y se invoca deploy. Sagemaker levanta un endpoint HTTPS gestionado que escala bajo demanda en instancias GPU.

    • Proveedores Cloud (AWS, Google Cloud, Azure, etc): Ofrecen servicios de inferencia de ML que permiten desplegar modelos. Se deben seguir los procedimientos estándar de cada plataforma para la creación de endpoints de inferencia.

    • Infraestructura propia: Para casos que requieren máximo control, se pueden desplegar en servidores propios usando frameworks como FastAPI, Flask o servicios como TorchServe. También se puede utilizar el contenedor oficial Text-Generation-Inference (TGI) de Hugging Face para facilitar el despliegue y la gestión de carga. Esta opción ofrece mayor control pero requiere gestión completa de la infraestructura.

    Cada modelo cuenta con una model card en su página correspondiente de Hugging Face con instrucciones detalladas para desplegarlo paso a paso. Los enlaces a las model cards de Hugging Face están disponibles en:

    • Página de modelos de textoarrow-up-right

    • Página de modelos de vozarrow-up-right

    • Página de modelos de traducción automáticaarrow-up-right


    hashtag
    ¿Puedo hacer fine-tuning de los modelos del Alia Kit para casos de uso propios?

    Se puede realizar fine-tuning de los modelos del Alia Kit siempre que se consulte la licencia específica de cada modelo. Aquellos publicados bajo licencias permisivas como Apache 2.0 permiten modificaciones y uso comercial, siempre que se mantengan los avisos correspondientes y la licencia original. Los modelos con licencia CC-BY requieren atribución; los modelos con CC-BY-SA exigen que las modificaciones se compartan bajo la misma licencia; los modelos con CC-BY-NC no pueden ser utilizados con fines comerciales; y en el caso de modelos sin licencia explícita, no se concede permiso de uso.


    hashtag
    ¿Cuándo debo hacer fine-tuning de mis modelos?

    El fine-tuning es una técnica avanzada y, aunque es muy potente, no siempre es necesaria. De hecho, la mayoría de los problemas de negocio y casos de uso se pueden resolver de manera más rápida, económica y eficiente con otras técnicas:

    • Ingeniería de Prompts (Prompt Engineering): Consiste en el diseño cuidadoso de las instrucciones (el "prompt") que recibe el modelo. A menudo, un cambio en la formulación de la pregunta puede transformar por completo la calidad de la respuesta. Esta técnica también incluye la provisión de ejemplos directamente en el prompt, un método conocido como Few-Shot Learning, donde se muestran al modelo pares de "pregunta-respuesta" para ilustrar el resultado esperado, o Chain-of-Thought, que enseña al modelo qué pasos seguir para llegar a la respuesta. Sus principales ventajas residen en que es una técnica rápida, de bajo coste y flexible, que no requiere la preparación de un dataset de entrenamiento.

    • Generación Aumentada por Recuperación (RAG - Retrieval-Augmented Generation): Una solución ideal cuando se requiere que el modelo responda basándose en información específica y actualizada que no forma parte de su conocimiento original. Se conecta el modelo a una base de datos externa, como una colección de documentos de una empresa o manuales de producto. Al recibir una consulta, un sistema de búsqueda ("Retriever") localiza los fragmentos de texto más relevantes de dicha base de datos, y estos fragmentos se inyectan en el prompt junto con la pregunta original, permitiendo que el modelo genere una respuesta fundamentada en ese contexto específico. Este enfoque reduce la probabilidad de "alucinaciones" (respuestas inventadas), permite que la base de conocimiento se mantenga actualizada sin reentrenar el modelo y facilita la citación de fuentes, lo que aumenta la confianza en la respuesta.

    El fine-tuning debería considerarse sólo cuando estas técnicas no sean suficientes y sea necesario que el modelo adquiera un comportamiento o conocimiento fundamentalmente nuevo.


    hashtag
    ¿Cómo puedo hacer el ajuste fino (fine-tuning) de un modelo del Alia Kit a mis datos específicos?

    El fine-tuning es el proceso mediante el cual se especializa un modelo pre-entrenado para una tarea o un dominio concreto (por ejemplo, un chatbot de atención al cliente de una empresa). A continuación, se describen los métodos principales para llevarlo a cabo:

    Low‑code/no‑code:

    • Hugging Face AutoTrain: Disponible en la página del modelo en Hugging Face, a través del botón “Train → AutoTrain”. Es una solución que facilita la carga de un dataset para entrenar un modelo de forma automática, delegando la gestión de la infraestructura. Es el método más recomendable en la mayoría de los casos.

    • Amazon SageMaker: Ejemplo de código disponible en la página del modelo en Hugging Face, a través del botón “Train → Amazon SageMaker”. Requiere una cuenta propia de AWS y es recomendable para proyectos empresariales con necesidades de mayor control y personalización.

    Programático:

    • Scripts de Hugging Face: La biblioteca transformers proporciona la clase Trainer y los ejemplos clásicos (run_clm.py, run_mlm.py, etc.) la emplean directamente, simplificando el proceso de fine-tuning. El procedimiento requiere la preparación de un dataset y la configuración de los argumentos de entrenamiento.

    • Optimización con PEFT (Parameter-Efficient Fine-Tuning): En lugar de entrenar los miles de millones de parámetros del modelo completo (lo que requiere una gran cantidad de memoria GPU), PEFT congela el modelo original y entrena únicamente un pequeño número de parámetros adicionales en "capas adaptadoras". La técnica más popular es LoRA (Low-Rank Adaptation). Una versión aún más optimizada, QLoRA, utiliza cuantización para reducir todavía más los requisitos de memoria. Con PEFT, es posible realizar el fine-tuning de modelos muy grandes en GPUs de consumo, democratizando el acceso a esta tecnología.

    Sin embargo, el fine-tuning no siempre es necesario o la mejor alternativa para adaptar un modelo, y debería considerarse sólo cuando técnicas como Ingeniería de Prompts o RAG no sean suficientes.


    hashtag
    ¿Los modelos del Alia Kit soportan "function calling" o “tool use”?

    Los modelos instruidos del Alia Kit no disponen, en su versión actual, de una API nativa de function calling o tool use integrada en su arquitectura, como sí ofrecen algunos modelos comerciales. Esta funcionalidad está en desarrollo activo por parte del equipo del BSC.

    Sin embargo, la ausencia de una API nativa no impide la implementación de flujos de trabajo de agentes. Es posible implementarlo de forma manual. Este enfoque otorga al desarrollador un control total sobre el proceso.


    hashtag
    ¿Bajo qué licencia se publican los modelos del Alia Kit?

    La mayoría de los modelos del Alia Kit se publican bajo la licencia Apache 2.0, una licencia libre y permisiva que permite su uso, modificación y distribución con pocas restricciones, incluso para fines comerciales.

    Sin embargo, algunos modelos concretos se distribuyen con licencias diferentes que pueden exigir atribución o prohibir su uso comercial, como los modelos de voz Matxa‑TTS, disponibles solo para uso no comercial. En caso de requerir otro tipo de uso o integración, se recomienda establecer contacto con el equipo responsable del proyecto para facilitar el acceso adecuado a los recursos del Alia Kit.

    La licencia aplicable a un modelo concreto puede ser consultada en la página de licencias de los modelosarrow-up-right.


    hashtag
    ¿Qué implica el uso de un modelo con la licencia Apache 2.0?

    La licencia Apache 2.0 es una licencia de software de código abierto permisiva que concede derechos amplios y perpetuos para el uso, la modificación, la distribución y el sublicenciamiento del modelo para cualquier propósito, incluido el comercial, sin requerir el pago de regalías. Una característica fundamental de esta licencia es la concesión explícita de derechos de patente por parte de los contribuidores sobre sus aportaciones, lo que protege al usuario frente a posibles reclamaciones por infracción de patentes relacionadas con dichas contribuciones.

    El licenciatario está obligado a conservar los avisos de derechos de autor y el texto de la licencia en las distribuciones del software o modelo. Si se realizan modificaciones, se debe incluir una notificación que indique los cambios efectuados. A diferencia de las licencias de tipo copyleft, la Apache 2.0 no exige que las obras derivadas se distribuyan bajo los mismos términos ni que se publique su código fuente, permitiendo que las modificaciones y trabajos derivados puedan mantenerse como software propietario.


    hashtag
    ¿Qué hardware es necesario para usar los modelos del Alia Kit?

    Los requisitos de hardware, especialmente la memoria de vídeo (VRAM) de la GPU, dependen críticamente del tamaño del modelo y de la tarea a realizar.

    Para determinar la memoria de vídeo necesaria, se debe comprobar el tamaño del modelo que se desea utilizar y la precisión con la que se va a ejecutar. Cada parámetro ocupa aproximadamente 4 bytes en precisión completa (FP32), 2 bytes en FP16, algo más de 1 byte en INT8 y alrededor de 0,5 bytes en los formatos cuantizados de 4 bits. Por ejemplo, Salamandra-7B cuenta con ~7,8 mil millones de parámetros: en FP16 requiere alrededor de 14–16 GB de VRAM, en INT8 aproximadamente 10 GB y en 4-bit puede reducirse a ~5 GB, permitiendo su ejecución en tarjetas de 8 GB si las secuencias no son demasiado largas.

    Una práctica habitual consiste en sumar la RAM del sistema y la VRAM de la GPU, seleccionar un fichero de pesos (GGUF, Safetensors, etc.) que sea uno o dos gigabytes menor que esa suma y asegurarse de que la secuencia de entrada no cause un aumento excesivo de la memoria utilizada para el KV-cache. De este modo, se garantiza la carga correcta del modelo y su funcionamiento sin errores de memoria insuficiente.

    Para tareas menos exigentes, como la síntesis de voz o la transcripción fonética, los modelos son más ligeros y pueden ejecutarse con una GPU de 4–6 GB o incluso solo con CPU y 8–12 GB de RAM, aunque el uso de GPU mejora los tiempos de respuesta.

    Consultando el tamaño exacto del modelo en la model card del modelo específico en Hugging Face y aplicando el cálculo de bytes por parámetro, es posible estimar con precisión los requisitos de hardware para cada caso.

    También es posible utilizar el siguiente demo en Hugging Facearrow-up-right para calcular los recursos necesarios.


    hashtag
    ¿Qué tipos de datasets (conjuntos de datos) se ofrecen en el Alia Kit?

    El Alia Kit ofrece una variedad de conjuntos de datos (datasets) para el entrenamiento y la evaluación de modelos de inteligencia artificial en lengua catalana. Estos se dividen en tres categorías principales:

    • Para modelos de texto, el Alia Kit proporciona desde corpus masivos con miles de millones de palabras hasta colecciones cuidadas específicamente para el ajuste fino (fine-tuning) y la evaluación de modelos de texto. Estos datos cubren una amplia gama de tareas como la clasificación de textos, el análisis de sentimientos, la detección de emociones, la respuesta a preguntas, el resumen de textos y la detección de lenguaje abusivo, entre otras. Además, se incluyen conjuntos de datos diseñados para instruir y evaluar modelos de lenguaje. Están disponibles en la página de datasets de textoarrow-up-right.

    • Para modelos de voz, el Alia Kit ofrece diversos corpus de habla, fundamentales para el entrenamiento de sistemas de reconocimiento (ASR) y de síntesis de voz (TTS). Se ponen a disposición corpus de habla sin y con transcripción para reconocimiento automático, grabaciones multidialectales y multigénero, bancos de pruebas de acentos, registros parlamentarios y televisivos, corpora depurados para síntesis y conjuntos con transcripción fonética. Están disponibles en la página de datasets de vozarrow-up-right.

    • Para modelos de traducción automática, el Alia Kit suministra grandes corpus paralelos “catalán-otras lenguas” destinados al entrenamiento de sistemas y, de forma complementaria, colecciones más reducidas y de dominio que sirven para adaptar y evaluar los modelos, cubriendo pares como catalán-inglés, catalán-español, catalán-francés, catalán-portugués, catalán-italiano o catalán-chino, entre otros. Están disponibles en la .


    hashtag
    ¿Qué herramientas ofrece el Alia Kit para el suministro de datos de texto?

    El Alia Kit proporciona varias herramientas para automatizar la adquisición y actualización de datos textuales en catalán. Incluye, por ejemplo, un extractor de textos de la Viquipèdia (Wikipedia) que permite obtener grandes volúmenes de documentos en diferentes lenguas, una pipeline automatizada para procesar datos abiertos del Diari Oficial de la Generalitat de Catalunya (DOGC) y un anonimizador para garantizar la privacidad de datos sensibles conforme al GDPR.

    Los enlaces a cada herramienta están disponibles en la página de datasets y herramientas de textoarrow-up-right.


    hashtag
    ¿Bajo qué licencia se publican los datasets (conjuntos de datos) del Alia Kit?

    Los conjuntos de datos (datasets) se publican bajo diversas licencias Creative Commons (CC).

    La licencia aplicable a un dataset concreto puede ser consultada en la página de licencias de los datasetsarrow-up-right.


    hashtag
    ¿Hay demostradores disponibles en el Alia Kit?

    El Alia Kit dispone de varios demostradores en Hugging Face Spaces que permiten probar diferentes tecnologías lingüísticas a través de una API gratuita. Entre estos servicios se encuentran un modelo de traducción automática con soporte para múltiples idiomas y un sistema de chat para conversar con algunos de nuestros modelos.

    En el caso del sistema de chat (ChatUI)arrow-up-right, hay disponibles varios modelos, como Salamandra-7b-instructed, modelos con función de function calling, etc. El sistema se apaga automáticamente si no registra actividad durante mucho tiempo. Cuando un usuario envía una consulta en ChatUI y el modelo correspondiente no está activo, este se inicia automáticamente, lo que puede tardar entre 5 y 10 minutos. Solo se inicia el modelo asociado a la conversación activa en ese momento, aunque es posible seleccionar cualquier modelo disponible.

    Los enlaces a cada demostrador están disponibles en la página de demostradoresarrow-up-right.


    hashtag
    ¿Cómo mantenerme al día, aclarar dudas o contribuir al proyecto?

    El proyecto Alia se encuentra en constante evolución. Para todos aquellos interesados en seguir de cerca su desarrollo, resolver dudas o incluso colaborar activamente, existen diversas plataformas y canales de comunicación. A continuación, están disponibles los enlaces oficiales para no perder ninguna novedad y formar parte de esta comunidad:

    • Sistema RAG entrenado con datos de los modelos y datasets del Alia Kit (brevemente)

    • ​Canal de Discord per a la comunitatarrow-up-right​

    • ​Pàgina del BSC a Hugging Facearrow-up-right

    página de datasets de traducción automáticaarrow-up-right