🔠Modelos de texto

Modelos listos para usar (instruidos)

Descripción / Función

LLM instruido (inglés, español, catalán)

Nombre modelo

salamandra-7b-instruct

Model card

Comentarios

Modelo salamandra-7b entrenado con 276 mil instrucciones en inglés, español y catalán, recopiladas de diversos corpus abiertos.

Descripción / Función

LLM instruido (inglés, español, catalán)

Nombre modelo

salamandra-2b-instruct

Model card

Comentarios

Modelo salamandra-2b entrenado con 276 mil instrucciones en inglés, español y catalán, recopiladas de diversos corpus abiertos.

Descripción / Función

LLM instruido (euskera)

Nombre modelo

Latxa 3.1 Instruct 70B

Model card

Comentarios

Modelo instruido de 70 mil millones de parametros basado en Llama-3.1 (Instruct) y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.

Descripción / Función

LLM instruido (euskera)

Nombre modelo

Latxa 3.1 Instruct 8B

Model card

Comentarios

Modelo instruido de 8 mil millones de parametros basado en Llama-3.1 (Instruct) y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.

Modelos para desarrolladores (fundacionales y para fine-tuning)

Descripción / Función

LLM (multilingüe)

Nombre modelo

ALIA-40b

Comentarios

Modelo generativo multilingüe, entrenado desde cero en 35 idiomas europeos, con 40 mil millones de parámetros y 9,37 billones de tokens.

Descripción / Función

LLM (multilingüe)

Nombre modelo

salamandra-7b

Comentarios

Modelo generativo multilingüe, entrenado desde cero en 35 idiomas europeos, con 8 mil millones de parámetros y 12,875 billones de tokens.

Descripción / Función

LLM (multilingüe)

Nombre modelo

salamandra-2b

Comentarios

Modelo generativo multilingüe, entrenado desde cero en 35 idiomas europeos, con 2 mil millones de parámetros y 12,875 billones de tokens.

Descripción / Función

LLM (gallego, portugués, español, inglés)

Nombre modelo

Llama-Carvalho-PT-GL

Comentarios

Modelo de lenguaje causal de 8 mil millones de parámetros, diseñado para gallego, portugués, español e inglés. Es el resultado de un preentrenamiento continuo del modelo meta-llama/Llama-3.1-8B utilizando un corpus multilingüe compuesto por 540 millones de tokens de texto plano y 72 millones de tokens de instrucciones.

Descripción / Función

LLM (gallego, portugués, español, catalán, inglés)

Nombre modelo

Carballo-Llama-Instr3

Comentarios

Modelo de lenguaje causal de 8 mil millones de parámetros, diseñado para gallego, portugués, español, inglés y catalán. Es el resultado de un preentrenamiento continuo del modelo meta-llama/Llama-3.1-8B con un corpus multilingüe de 340 millones de tokens, con un énfasis especial en el gallego.

Descripción / Función

LLM (gallego, portugués, español, catalán, inglés)

Nombre modelo

Llama-3.1-Carballo

Comentarios

Modelo de lenguaje generativo de 8 mil millones de parámetros, diseñado para gallego, portugués, español, catalán e inglés. Es el resultado de un preentrenamiento continuo del modelo meta-llama/Llama-3.1-8B con un corpus multilingüe de casi 20 mil millones de tokens, con especial énfasis en textos en gallego.

Descripción / Función

LLM (euskera)

Nombre modelo

Latxa 3.1 8B

Comentarios

Modelo fundacional de 8 mil millones de parametros basado en Llama 3.1 y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.

Descripción / Función

LLM (valenciano)

Nombre modelo

Aitana-2B-S

Comentarios

Modelo de lenguaje generativo entrenado a partir de salamandra-2b, utilizando datos en valenciano para lograr una mayor representación de esta lengua minoritaria, muy similar al catalán.

Descripción / Función

Modelo transformer (multilingüe)

Nombre modelo

mRoBERTa

Comentarios

Modelo RoBERTa multilingüe, entrenado en 35 idiomas y 92 lenguajes de programación, con un volumen total de 12,8 TB de datos.

Descripción / Función

Modelo transformer (catalán)

Nombre modelo

RoBERTa-ca

Comentarios

Modelo para catalán basado en RoBERTa, con pesos inicializados desde mRoBERTa y ajustes en embeddings para diferencias de tokenización. Preentrenado de forma continua con 95 GB de datos en catalán de alta calidad.

Adaptación de modelos para tareas específicas

Descripción / Función

Detección de fraude

Nombre modelo

mRoBERTa_FT1_DFT1_fraude_phishing

Model card

Comentarios

Modelo fine-tuneado a partir de mRoBERTa para la clasificación binaria de la detección de phishing en textos en inglés. Predice si un determinado SMS o correo electrónico pertenece o no a la categoría de phishing.

Última actualización