🔠Modelos de texto

Modelos listos para usar (instruidos)

Descripción / Función

LLM instruido (multilingüe)

Nombre modelo

ALIA-40b-instruct-2512

Model card

Comentarios

Última versión de la familia de modelos ALIA. Incorpora mejoras sustanciales frente a versiones anteriores, destacando un seguimiento de instrucciones más preciso y alineado con la intención del usuario, una mayor robustez que garantiza respuestas más consistentes y predecibles, y un refuerzo significativo de la seguridad que reduce la generación de contenidos sensibles.

Descripción / Función

LLM instruido (multilingüe)

ALIA-40b-instruct-2512-GGUF

Model card

Versión cuantizada GGUF del modelo ALIA-40b-instruct-2512

Descripción / Función

LLM instruido (inglés, español, catalán)

Nombre modelo

salamandra-7b-instruct

Model card

Comentarios

Modelo salamandra-7b entrenado con 276 mil instrucciones en inglés, español y catalán, recopiladas de diversos corpus abiertos.

Descripción / Función

LLM instruido (inglés, español, catalán)

Nombre modelo

salamandra-2b-instruct

Model card

Comentarios

Modelo salamandra-2b entrenado con 276 mil instrucciones en inglés, español y catalán, recopiladas de diversos corpus abiertos.

Descripción / Función

LLM instruido (gallego, portugués, español, catalán, inglés)

Nombre modelo

Carballo-Llama-Instr3

Model Card

Comentarios

Modelo de lenguaje causal de 8 mil millones de parámetros, diseñado para gallego, portugués, español, inglés y catalán. Es el resultado de un preentrenamiento continuo del modelo meta-llama/Llama-3.1-8Barrow-up-right con un corpus multilingüe de 340 millones de tokens, con un énfasis especial en el gallego.

Descripción / Función

LLM instruido (euskera)

Nombre modelo

Latxa 3.1 Instruct 70B

Model card

Comentarios

Modelo instruido de 70 mil millones de parametros basado en Llama-3.1 (Instruct) y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.

Descripción / Función

LLM instruido (euskera)

Nombre modelo

Latxa 3.1 Instruct 8B

Model card

Comentarios

Modelo instruido de 8 mil millones de parametros basado en Llama-3.1 (Instruct) y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.

Modelos para desarrolladores (fundacionales y para fine-tuning)

Descripción / Función

LLM (multilingüe)

Nombre modelo

salamandra-7b

Comentarios

Modelo generativo multilingüe, entrenado desde cero en 35 idiomas europeos, con 8 mil millones de parámetros y 12,875 billones de tokens.

Descripción / Función

LLM (multilingüe)

Nombre modelo

salamandra-2b

Comentarios

Modelo generativo multilingüe, entrenado desde cero en 35 idiomas europeos, con 2 mil millones de parámetros y 12,875 billones de tokens.

Descripción / Función

LLM (gallego, portugués, español, inglés)

Nombre modelo

Llama-Carvalho-PT-GL

Comentarios

Modelo de lenguaje causal de 8 mil millones de parámetros, diseñado para gallego, portugués, español e inglés. Es el resultado de un preentrenamiento continuo del modelo meta-llama/Llama-3.1-8Barrow-up-right utilizando un corpus multilingüe compuesto por 540 millones de tokens de texto plano y 72 millones de tokens de instrucciones.

Descripción / Función

LLM (gallego, portugués, español, catalán, inglés)

Nombre modelo

Llama-3.1-Carballo

Comentarios

Modelo de lenguaje generativo de 8 mil millones de parámetros, diseñado para gallego, portugués, español, catalán e inglés. Es el resultado de un preentrenamiento continuo del modelo meta-llama/Llama-3.1-8Barrow-up-right con un corpus multilingüe de casi 20 mil millones de tokens, con especial énfasis en textos en gallego.

Descripción / Función

LLM (euskera)

Nombre modelo

Latxa 3.1 8B

Comentarios

Modelo fundacional de 8 mil millones de parametros basado en Llama 3.1 y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.

Descripción / Función

LLM (valenciano)

Nombre modelo

Aitana-2B-S

Comentarios

Modelo de lenguaje generativo entrenado a partir de salamandra-2barrow-up-right, utilizando datos en valenciano para lograr una mayor representación de esta lengua minoritaria, muy similar al catalán.

Descripción / Función

LLM (valenciano, español, inglés - turismo)

Nombre modelo

Aitana-2B-S-tourism-base-1.0

Comentarios

Modelo de lenguaje generativo basado en Aitana-2B-S-base-1.0arrow-up-right y entrenado adicionalmente con datos del dominio turístico para mejorar su rendimiento en la generación de textos relacionados con el turismo.

Descripción / Función

LLM (valenciano, español, inglés)

Nombre modelo

Aitana-2B-S-base-1.0

Comentarios

Modelo de lenguaje generativo entrenado a partir de salamandra-2barrow-up-right, utilizando datos en valenciano, español e inglés.

Descripción / Función

Modelo transformer (multilingüe)

Nombre modelo

mRoBERTa

Comentarios

Modelo RoBERTaarrow-up-right multilingüe, entrenado en 35 idiomas y 92 lenguajes de programación, con un volumen total de 12,8 TB de datos.

Descripción / Función

Modelo transformer (catalán)

Nombre modelo

RoBERTa-ca

Comentarios

Modelo para catalán basado en RoBERTaarrow-up-right, con pesos inicializados desde mRoBERTaarrow-up-right y ajustes en embeddings para diferencias de tokenización. Preentrenado de forma continua con 95 GB de datos en catalán de alta calidad.

Descripción / Función

Modelo transformer (euskera)

Nombre modelo

BERnaT-base

Comentarios

Modelo discriminativo BERnaT de 100M de parámetros, basado en la arquitecutra RoBERTaarrow-up-right, entrenado from scratch con corpus en euskera que combina texto estándar y no estándar (redes sociales e histórico).

Descripción / Función

Modelo transformer (euskera)

Nombre modelo

BERnaT-large

Comentarios

Modelo discriminativo BERnaT de 400M de parámetros, basado en la arquitecutra RoBERTa,arrow-up-right entrenado from scratch con corpus en euskera que combina texto estándar y no estándar (redes sociales e histórico).

Descripción / Función

Modelo transformer (euskera)

Nombre modelo

BERnaT-medium

Comentarios

Modelo discriminativo BERnaT de 51,4M de parámetros, basado en la arquitecutra RoBERTaarrow-up-right, entrenado from scratch con corpus en euskera que combina texto estándar y no estándar (redes sociales e histórico).

Adaptación de modelos para tareas específicas

Descripción / Función

Detección de fraude

Nombre modelo

mRoBERTa_FT1_DFT1_fraude_phishing

Model card

Comentarios

Modelo fine-tuneado a partir de mRoBERTaarrow-up-right para la clasificación binaria de la detección de phishing en textos en inglés. Predice si un determinado SMS o correo electrónico pertenece o no a la categoría de phishing.

Descripción / Función

Lenguaje claro

Nombre modelo

Aitana-ClearLangDetection-R-1.0

Model card

Comentarios

Modelo fine-tuneado a partir de mRoBERTaarrow-up-right para la tarea de clasificación de lenguaje claro en textos en español.

Descripción / Función

Normalización

Nombre modelo

marianmt-cap-punct-eu

Model card

Comentarios

Modelo de traducción automática que sirve para capitalizar y puntuar texto normalizado en euskera. El modelo ha sido entrenado desde cero utilizando Marian NMTarrow-up-right y un dataset de 9,784,905 frases en euskera

Descripción / Función

Normalización

Nombre modelo

marianmt-cap-punct-es

Model card

Comentarios

Modelo de traducción automática de texto que sirve para capitalizar y puntuar texto normalizado en castellano. El modelo ha sido entrenado desde cero utilizando Marian NMTarrow-up-right y un dataset de 9,784,905 frases en castellano.

Descripción / Función

Modelo adaptado al dominio

Nombre modelo

Aitana-tourism-mb-encoder-1.0

Model card

Comentarios

Modelo ModernBERT-base arrow-up-rightpreentrenado de forma continua con datos del dominio del turismo en español y valenciano. Este modelo especializado está optimizado para comprender textos relacionados con el turismo, incluidos descripciones de hoteles, guías de destinos, servicios de viaje y contenidos de patrimonio cultural.

Última actualización