🔠Modelos de texto

Modelos listos para usar (instruidos)

Descripción / Función

LLM instruido (multilingüe)

Nombre modelo

ALIA-40b-instruct-2601

Model card

Comentarios

Última versión de la familia de modelos ALIA. Aunque el desarrollo sigue en curso y se prevén nuevas actualizaciones, esta versión ya integra varias mejoras significativas con respecto a lanzamientos anteriores, destacando un seguimiento de instrucciones más preciso, mayor robustez ante entradas ruidosas o ambiguas, una alineación de seguridad reforzada y capacidades ampliadas para el manejo de contextos largos.

Descripción / Función

LLM instruido (multilingüe)

ALIA-40b-instruct-2601-GGUF

Model card

Versión cuantizada GGUF del modelo ALIA-40b-instruct-2601

Descripción / Función

LLM instruido (inglés, español, catalán)

Nombre modelo

salamandra-7b-instruct

Model card

Comentarios

Modelo salamandra-7b entrenado con 276 mil instrucciones en inglés, español y catalán, recopiladas de diversos corpus abiertos.

Descripción / Función

LLM instruido (inglés, español, catalán)

Nombre modelo

salamandra-2b-instruct

Model card

Comentarios

Modelo salamandra-2b entrenado con 276 mil instrucciones en inglés, español y catalán, recopiladas de diversos corpus abiertos.

Descripción / Función

LLM instruido (euskera)

Nombre modelo

Latxa 3.1 Instruct 70B

Model card

Comentarios

Modelo instruido de 70 mil millones de parametros basado en Llama-3.1 (Instruct) y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.

Descripción / Función

LLM instruido (euskera)

Nombre modelo

Latxa 3.1 Instruct 8B

Model card

Comentarios

Modelo instruido de 8 mil millones de parametros basado en Llama-3.1 (Instruct) y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.

Descripción / Función

LLM instruido (gallego, portugués, español, catalán, inglés)

Nombre modelo

Carballo-Llama-Instr3

Comentarios

Comentarios

Modelo diseñado para procesar gallego, portugués, español, inglés y catalán. Es el resultado de un proceso de preentrenamiento continuo del modelo meta-llama/Llama-3.1-8Barrow-up-right sobre un corpus multilingüe de 340 millones de tokens, con un énfasis particular en el gallego.

Descripción / Función

LLM instruido (gallego, español - dominio legal)

Nombre modelo

Carballo-Legal

Model card

Comentarios

Modelo de 7.000 millones de parámetros ajustado mediante aprendizaje por instrucciones para el procesamiento de textos jurídicos en gallego y español. Se ha desarrollado a partir de Salamandra-7B-Instruct y ha sido entrenado con corpus legales procedentes de instituciones públicas.

Descripción / Función

LLM intruido (español - dominio legal y administrativo)

Nombre modelo

ALIA Legal-Administrative 7B Instruct

Comentarios

Comentarios

Modelo de lenguaje especializado en el ámbito legal y administrativo del español. Se ha desarrollado a partir de SINAI/ALIA-legal-administrative-7B-Base y ha sido ajustado mediante instruction tuning utilizando el conjunto de datos ALIA-legal-administrative-synthetic-instructions.

Modelos para desarrolladores (fundacionales y para fine-tuning)

Descripción / Función

LLM (multilingüe)

Nombre modelo

salamandra-7b

Comentarios

Modelo generativo multilingüe, entrenado desde cero en 35 idiomas europeos, con 8 mil millones de parámetros y 12,875 billones de tokens.

Descripción / Función

LLM (multilingüe)

Nombre modelo

salamandra-2b

Comentarios

Modelo generativo multilingüe, entrenado desde cero en 35 idiomas europeos, con 2 mil millones de parámetros y 12,875 billones de tokens.

Descripción / Función

LLM (gallego, portugués, español, catalán, inglés)

Nombre modelo

Llama-3.1-Carballo

Comentarios

Modelo de 8 mil millones de parámetros, diseñado para gallego, portugués, español, catalán e inglés. Es el resultado de un preentrenamiento continuo del modelo meta-llama/Llama-3.1-8Barrow-up-right con un corpus multilingüe de casi 20 mil millones de tokens, con especial énfasis en textos en gallego.

Descripción / Función

LLM (gallego, portugués, español, inglés)

Nombre modelo

Llama-Carvalho-PT-GL

Comentarios

Modelo de 8 mil millones de parámetros, diseñado para gallego, portugués, español e inglés. Es el resultado de un preentrenamiento continuo del modelo meta-llama/Llama-3.1-8Barrow-up-right utilizando un corpus multilingüe compuesto por 540 millones de tokens de texto plano y 72 millones de tokens de instrucciones.

Descripción / Función

LLM (euskera)

Nombre modelo

Latxa 3.1 8B

Comentarios

Modelo de 8 mil millones de parametros basado en Llama 3.1 y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.

Descripción / Función

LLM (valenciano, español, inglés)

Nombre modelo

Aitana-2B-S-base-1.0

Comentarios

Modelo de lenguaje generativo entrenado a partir de salamandra-2barrow-up-right, utilizando datos en valenciano, español e inglés.

Descripción / Función

LLM (valenciano)

Nombre modelo

Aitana-2B-S

Comentarios

Modelo de lenguaje generativo entrenado a partir de salamandra-2barrow-up-right, utilizando datos en valenciano.

Descripción / Función

LLM (valenciano, español, inglés - turismo)

Nombre modelo

Aitana-2B-S-tourism-base-1.0

Comentarios

Modelo de lenguaje generativo basado en Aitana-2B-S-base-1.0arrow-up-right y entrenado adicionalmente con datos del dominio turístico.

Descripción / Función

Modelo transformer (multilingüe)

Nombre modelo

MrBERT

Comentarios

Modelo multilingüe basado en ModernBERTarrow-up-right, preentrenado con 6,1 billones de tokens en 35 lenguas europeas y código. Ofrece representaciones bidireccionales sólidas y es adecuado para tareas como recuperación, clasificación y búsqueda semántica multilingüe.

Descripción / Función

Modelo transformer (español–inglés)

Nombre modelo

MrBERT-es

Comentarios

Modelo bilingüe español–inglés basado en ModernBERTarrow-up-right y derivado de MrBERTarrow-up-right mediante una adaptación de vocabulario y ajuste embeddings. Posteriormente, se continúa su preentrenamiento con 615.000 millones de tokens equilibrados entre ambos idiomas.

Descripción / Función

Modelo transformer (catalán–inglés)

Nombre modelo

MrBERT-ca

Comentarios

Modelo bilingüe catalán–inglés basado en ModernBERTarrow-up-right y derivado de MrBERT-esarrow-up-right mediante una adaptación de vocabulario y ajuste de embeddings. Posteriormente, se continúa su preentrenamiento con 47.400 millones de tokens equilibrados entre ambos idiomas.

Descripción / Función

Modelo transformer (multilingüe - biomédico)

Nombre modelo

MrBERT-biomed

Comentarios

Modelo biomédico multilingüe basado en ModernBERTarrow-up-right, adaptado desde MrBERTarrow-up-right y entrenado con 24,13 mil millones de tokens biomédicos, principalmente en inglés y español.

Descripción / Función

Modelo transformer (bilingüe - científico)

Nombre modelo

MrBERT-science

Comentarios

Modelo científico multilingüe basado en ModernBERTarrow-up-right, adaptado desde MrBERTarrow-up-right y entrenado adicionalmente con 3.600 millones de tokens científicos en inglés y español.

Descripción / Función

Modelo transformer (multilingüe - jurídico)

Nombre modelo

MrBERT-legal

Comentarios

Modelo jurídico multilingüe basado en ModernBERTarrow-up-right, adaptado desde MrBERTarrow-up-right y entrenado durante 10 épocas con 8.000 millones de tokens legales en inglés y español.

Descripción / Función

Modelo transformer (multilingüe)

Nombre modelo

mRoBERTa

Comentarios

Modelo RoBERTaarrow-up-right multilingüe, entrenado en 35 idiomas y 92 lenguajes de programación, con un volumen total de 12,8 TB de datos.

Descripción / Función

Modelo transformer (catalán)

Nombre modelo

RoBERTa-ca

Comentarios

Modelo para catalán basado en RoBERTaarrow-up-right, con pesos inicializados desde mRoBERTaarrow-up-right y ajustes en embeddings para diferencias de tokenización. Preentrenado de forma continua con 95 GB de datos en catalán de alta calidad.

Descripción / Función

Modelo transformer (euskera)

Nombre modelo

BERnaT-base

Comentarios

Modelo discriminativo BERnaT de 100M de parámetros, basado en la arquitecutra RoBERTaarrow-up-right, entrenado from scratch con un corpus en euskera que combina texto estándar y no estándar (redes sociales e histórico).

Descripción / Función

Modelo transformer (euskera)

Nombre modelo

BERnaT-large

Comentarios

Modelo discriminativo BERnaT de 400M de parámetros, basado en la arquitecutra RoBERTa,arrow-up-right entrenado desde cero con un corpus en euskera que combina texto estándar y no estándar (redes sociales e histórico).

Descripción / Función

Modelo transformer (euskera)

Nombre modelo

BERnaT-medium

Comentarios

Modelo discriminativo BERnaT de 51,4M de parámetros, basado en la arquitecutra RoBERTaarrow-up-right, entrenado desde cero con corpus en euskera que combina texto estándar y no estándar (redes sociales e histórico).

Adaptación de modelos para tareas específicas

Descripción / Función

Moderación de contenido

Nombre modelo

Salamandra-7b-instruct-guard

Model card

Comentarios

Modelo de clasificación de seguridad diseñado para la moderación de contenido en catalán, español e inglés. Está construido sobre Salamandra-7b-Instructarrow-up-right.

Descripción / Función

Detección de fraude

Nombre modelo

Aitana Enc Fraud Detection

Model card

Comentarios

Modelo ajustado a partir de mRoBERTaarrow-up-right para la clasificación binaria de la detección de phishing en textos en inglés.

Descripción / Función

Lenguaje claro

Nombre modelo

Aitana-ClearLangDetection-R-1.0

Model card

Comentarios

Modelo ajustado a partir de mRoBERTaarrow-up-right para la tarea de clasificación de lenguaje claro en textos en español.

Descripción / Función

Modelo adaptado al dominio

Nombre modelo

Aitana-tourism-mb-encoder-1.0

Model card

Comentarios

Modelo ModernBERT-base arrow-up-rightpreentrenado de forma continua con datos del dominio del turismo en español y valenciano.

Descripción / Función

Normalización (euskera)

Nombre modelo

marianmt-cap-punct-eu

Model card

Comentarios

Modelo de traducción automática que sirve para capitalizar y puntuar texto normalizado en euskera. El modelo ha sido entrenado desde cero utilizando Marian NMTarrow-up-right y un dataset de 9.784.905 frases en euskera

Descripción / Función

Normalización (euskera)

Nombre modelo

marianmt-cap-punct-es

Model card

Comentarios

Modelo de traducción automática que sirve para capitalizar y puntuar texto normalizado en español. El modelo ha sido entrenado desde cero utilizando Marian NMTarrow-up-right y un dataset de 9.784.905 frases en castellano.

Última actualización