🔠Modelos de texto
Modelos listos para usar (instruidos)
Descripción / Función
LLM instruido (inglés, español, catalán)
Nombre modelo
salamandra-7b-instruct
Model card
Comentarios
Modelo salamandra-7b entrenado con 276 mil instrucciones en inglés, español y catalán, recopiladas de diversos corpus abiertos.
Descripción / Función
LLM instruido (inglés, español, catalán)
Nombre modelo
salamandra-2b-instruct
Model card
Comentarios
Modelo salamandra-2b entrenado con 276 mil instrucciones en inglés, español y catalán, recopiladas de diversos corpus abiertos.
Descripción / Función
LLM instruido (euskera)
Nombre modelo
Latxa 3.1 Instruct 70B
Model card
Comentarios
Modelo instruido de 70 mil millones de parametros basado en Llama-3.1 (Instruct) y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.
Descripción / Función
LLM instruido (euskera)
Nombre modelo
Latxa 3.1 Instruct 8B
Model card
Comentarios
Modelo instruido de 8 mil millones de parametros basado en Llama-3.1 (Instruct) y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.
Modelos para desarrolladores (fundacionales y para fine-tuning)
LLM (multilingüe)
ALIA-40b
Modelo generativo multilingüe, entrenado desde cero en 35 idiomas europeos, con 40 mil millones de parámetros y 9,37 billones de tokens.
LLM (multilingüe)
salamandra-7b
Modelo generativo multilingüe, entrenado desde cero en 35 idiomas europeos, con 8 mil millones de parámetros y 12,875 billones de tokens.
LLM (multilingüe)
salamandra-2b
Modelo generativo multilingüe, entrenado desde cero en 35 idiomas europeos, con 2 mil millones de parámetros y 12,875 billones de tokens.
LLM (gallego, portugués, español, inglés)
Llama-Carvalho-PT-GL
Modelo de lenguaje causal de 8 mil millones de parámetros, diseñado para gallego, portugués, español e inglés. Es el resultado de un preentrenamiento continuo del modelo meta-llama/Llama-3.1-8B utilizando un corpus multilingüe compuesto por 540 millones de tokens de texto plano y 72 millones de tokens de instrucciones.
LLM (gallego, portugués, español, catalán, inglés)
Carballo-Llama-Instr3
Modelo de lenguaje causal de 8 mil millones de parámetros, diseñado para gallego, portugués, español, inglés y catalán. Es el resultado de un preentrenamiento continuo del modelo meta-llama/Llama-3.1-8B con un corpus multilingüe de 340 millones de tokens, con un énfasis especial en el gallego.
LLM (gallego, portugués, español, catalán, inglés)
Llama-3.1-Carballo
Modelo de lenguaje generativo de 8 mil millones de parámetros, diseñado para gallego, portugués, español, catalán e inglés. Es el resultado de un preentrenamiento continuo del modelo meta-llama/Llama-3.1-8B con un corpus multilingüe de casi 20 mil millones de tokens, con especial énfasis en textos en gallego.
LLM (euskera)
Latxa 3.1 8B
Modelo fundacional de 8 mil millones de parametros basado en Llama 3.1 y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.
LLM (valenciano)
Aitana-2B-S
Modelo de lenguaje generativo entrenado a partir de salamandra-2b, utilizando datos en valenciano para lograr una mayor representación de esta lengua minoritaria, muy similar al catalán.
Modelo transformer (multilingüe)
mRoBERTa
Modelo RoBERTa multilingüe, entrenado en 35 idiomas y 92 lenguajes de programación, con un volumen total de 12,8 TB de datos.
Modelo transformer (catalán)
RoBERTa-ca
Adaptación de modelos para tareas específicas
Descripción / Función
Detección de fraude
Nombre modelo
mRoBERTa_FT1_DFT1_fraude_phishing
Model card
Comentarios
Modelo fine-tuneado a partir de mRoBERTa para la clasificación binaria de la detección de phishing en textos en inglés. Predice si un determinado SMS o correo electrónico pertenece o no a la categoría de phishing.
Última actualización
