arrow-left

Todas las páginas
gitbookCon tecnología de GitBook
1 de 1

Loading...

Modelos de texto

hashtag
Modelos listos para usar (instruidos)

hashtag
Modelos para desarrolladores (fundacionales y para fine-tuning)

hashtag
Adaptación de modelos para tareas específicas

Descripción / Función

LLM instruido (multilingüe)

Nombre modelo

ALIA-40b-instruct-2601

Model card

Comentarios

Última versión de la familia de modelos ALIA. Aunque el desarrollo sigue en curso y se prevén nuevas actualizaciones, esta versión ya integra varias mejoras significativas con respecto a lanzamientos anteriores, destacando un seguimiento de instrucciones más preciso, mayor robustez ante entradas ruidosas o ambiguas, una alineación de seguridad reforzada y capacidades ampliadas para el manejo de contextos largos.

Descripción / Función

LLM instruido (multilingüe)

ALIA-40b-instruct-2601-GGUF

Model card

Versión cuantizada GGUF del modelo ALIA-40b-instruct-2601

Descripción / Función

LLM instruido (inglés, español, catalán)

Nombre modelo

salamandra-7b-instruct

Model card

Comentarios

Modelo salamandra-7b entrenado con 276 mil instrucciones en inglés, español y catalán, recopiladas de diversos corpus abiertos.

Descripción / Función

LLM instruido (inglés, español, catalán)

Nombre modelo

salamandra-2b-instruct

Model card

Comentarios

Modelo salamandra-2b entrenado con 276 mil instrucciones en inglés, español y catalán, recopiladas de diversos corpus abiertos.

Descripción / Función

LLM instruido (gallego, portugués, español, catalán, inglés)

Nombre modelo

Carballo-Llama-Instr3

Model Card

Comentarios

Modelo de lenguaje causal de 8 mil millones de parámetros, diseñado para gallego, portugués, español, inglés y catalán. Es el resultado de un preentrenamiento continuo del modelo meta-llama/Llama-3.1-8Barrow-up-right con un corpus multilingüe de 340 millones de tokens, con un énfasis especial en el gallego.

Descripción / Función

LLM instruido (euskera)

Nombre modelo

Latxa 3.1 Instruct 70B

Model card

Comentarios

Modelo instruido de 70 mil millones de parametros basado en Llama-3.1 (Instruct) y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.

Descripción / Función

LLM instruido (euskera)

Nombre modelo

Latxa 3.1 Instruct 8B

Model card

Comentarios

Modelo instruido de 8 mil millones de parametros basado en Llama-3.1 (Instruct) y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.

Descripción / Función

LLM (multilingüe)

Nombre modelo

salamandra-7b

Model card

Comentarios

Modelo generativo multilingüe, entrenado desde cero en 35 idiomas europeos, con 8 mil millones de parámetros y 12,875 billones de tokens.

Descripción / Función

LLM (multilingüe)

Nombre modelo

salamandra-2b

Model card

Comentarios

Modelo generativo multilingüe, entrenado desde cero en 35 idiomas europeos, con 2 mil millones de parámetros y 12,875 billones de tokens.

Descripción / Función

LLM (gallego, portugués, español, inglés)

Nombre modelo

Llama-Carvalho-PT-GL

Model card

Comentarios

Modelo de lenguaje causal de 8 mil millones de parámetros, diseñado para gallego, portugués, español e inglés. Es el resultado de un preentrenamiento continuo del modelo utilizando un corpus multilingüe compuesto por 540 millones de tokens de texto plano y 72 millones de tokens de instrucciones.

Descripción / Función

LLM (gallego, portugués, español, catalán, inglés)

Nombre modelo

Llama-3.1-Carballo

Model card

Comentarios

Modelo de lenguaje generativo de 8 mil millones de parámetros, diseñado para gallego, portugués, español, catalán e inglés. Es el resultado de un preentrenamiento continuo del modelo con un corpus multilingüe de casi 20 mil millones de tokens, con especial énfasis en textos en gallego.

Descripción / Función

LLM (euskera)

Nombre modelo

Latxa 3.1 8B

Model card

Comentarios

Modelo fundacional de 8 mil millones de parametros basado en Llama 3.1 y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.

Descripción / Función

LLM (valenciano)

Nombre modelo

Aitana-2B-S

Model card

Comentarios

Modelo de lenguaje generativo entrenado a partir de , utilizando datos en valenciano para lograr una mayor representación de esta lengua minoritaria, muy similar al catalán.

Descripción / Función

LLM (valenciano, español, inglés - turismo)

Nombre modelo

Aitana-2B-S-tourism-base-1.0

Model card

Comentarios

Modelo de lenguaje generativo basado en y entrenado adicionalmente con datos del dominio turístico para mejorar su rendimiento en la generación de textos relacionados con el turismo.

Descripción / Función

LLM (valenciano, español, inglés)

Nombre modelo

Aitana-2B-S-base-1.0

Model card

Comentarios

Modelo de lenguaje generativo entrenado a partir de , utilizando datos en valenciano, español e inglés.

Descripción / Función

Modelo transformer (multilingüe)

Nombre modelo

mRoBERTa

Model card

Comentarios

Modelo multilingüe, entrenado en 35 idiomas y 92 lenguajes de programación, con un volumen total de 12,8 TB de datos.

Descripción / Función

Modelo transformer (catalán)

Nombre modelo

RoBERTa-ca

Model card

Comentarios

Modelo para catalán basado en , con pesos inicializados desde y ajustes en embeddings para diferencias de tokenización. Preentrenado de forma continua con 95 GB de datos en catalán de alta calidad.

Descripción / Función

Modelo transformer (euskera)

Nombre modelo

BERnaT-base

Model card

Comentarios

Modelo discriminativo BERnaT de 100M de parámetros, basado en la arquitecutra , entrenado from scratch con corpus en euskera que combina texto estándar y no estándar (redes sociales e histórico).

Descripción / Función

Modelo transformer (euskera)

Nombre modelo

BERnaT-large

Model card

Comentarios

Modelo discriminativo BERnaT de 400M de parámetros, basado en la arquitecutra entrenado from scratch con corpus en euskera que combina texto estándar y no estándar (redes sociales e histórico).

Descripción / Función

Modelo transformer (euskera)

Nombre modelo

BERnaT-medium

Model card

Comentarios

Modelo discriminativo BERnaT de 51,4M de parámetros, basado en la arquitecutra , entrenado from scratch con corpus en euskera que combina texto estándar y no estándar (redes sociales e histórico).

Descripción / Función

Detección de fraude

Nombre modelo

Aitana Enc Fraud Detection

Model card

https://huggingface.co/gplsi/Aitana-FraudDetection-R-1.0

Comentarios

Modelo fine-tuneado a partir de para la clasificación binaria de la detección de phishing en textos en inglés. Predice si un determinado SMS o correo electrónico pertenece o no a la categoría de phishing.

Descripción / Función

Lenguaje claro

Nombre modelo

Aitana-ClearLangDetection-R-1.0

Model card

https://huggingface.co/gplsi/Aitana-ClearLangDetection-R-1.0

Comentarios

Modelo fine-tuneado a partir de para la tarea de clasificación de lenguaje claro en textos en español.

Descripción / Función

Normalización

Nombre modelo

marianmt-cap-punct-eu

Model card

https://huggingface.co/HiTZ/cap-punct-eu

Comentarios

Modelo de traducción automática que sirve para capitalizar y puntuar texto normalizado en euskera. El modelo ha sido entrenado desde cero utilizando y un dataset de 9,784,905 frases en euskera

Descripción / Función

Normalización

Nombre modelo

marianmt-cap-punct-es

Model card

https://huggingface.co/HiTZ/cap-punct-es

Comentarios

Modelo de traducción automática de texto que sirve para capitalizar y puntuar texto normalizado en castellano. El modelo ha sido entrenado desde cero utilizando y un dataset de 9,784,905 frases en castellano.

Descripción / Función

Modelo adaptado al dominio

Nombre modelo

Aitana-tourism-mb-encoder-1.0

Model card

https://huggingface.co/gplsi/Aitana-tourism-mb-encoder-1.0

Comentarios

Modelo preentrenado de forma continua con datos del dominio del turismo en español y valenciano. Este modelo especializado está optimizado para comprender textos relacionados con el turismo, incluidos descripciones de hoteles, guías de destinos, servicios de viaje y contenidos de patrimonio cultural.

https://huggingface.co/BSC-LT/ALIA-40b-instruct-2601
https://huggingface.co/BSC-LT/ALIA-40b-instruct-2601-GGUF
https://huggingface.co/BSC-LT/salamandra-7b-instruct
https://huggingface.co/BSC-LT/salamandra-2b-instruct
https://huggingface.co/proxectonos/Llama-3.1-Carballo-Instr3
https://huggingface.co/HiTZ/Latxa-Llama-3.1-70B-Instruct
https://huggingface.co/HiTZ/Latxa-Llama-3.1-8B-Instruct
https://huggingface.co/BSC-LT/salamandra-7barrow-up-right
https://huggingface.co/BSC-LT/salamandra-2barrow-up-right
https://huggingface.co/Nos-PT/Llama-Carvalho-PT-GLarrow-up-right
meta-llama/Llama-3.1-8Barrow-up-right
https://huggingface.co/proxectonos/Llama-3.1-Carballoarrow-up-right
meta-llama/Llama-3.1-8Barrow-up-right
https://huggingface.co/HiTZ/Latxa-Llama-3.1-8Barrow-up-right
https://huggingface.co/gplsi/Aitana-2B-Sarrow-up-right
salamandra-2barrow-up-right
https://huggingface.co/gplsi/Aitana-2B-S-tourism-base-1.0arrow-up-right
Aitana-2B-S-base-1.0arrow-up-right
https://huggingface.co/gplsi/Aitana-2B-S-base-1.0arrow-up-right
salamandra-2barrow-up-right
https://huggingface.co/BSC-LT/mRoBERTaarrow-up-right
RoBERTaarrow-up-right
https://huggingface.co/BSC-LT/RoBERTa-caarrow-up-right
RoBERTaarrow-up-right
mRoBERTaarrow-up-right
https://huggingface.co/HiTZ/BERnaT-basearrow-up-right
RoBERTaarrow-up-right
https://huggingface.co/HiTZ/BERnaT-largearrow-up-right
RoBERTa,arrow-up-right
https://huggingface.co/HiTZ/BERnaT-mediumarrow-up-right
RoBERTaarrow-up-right
mRoBERTaarrow-up-right
mRoBERTaarrow-up-right
Marian NMTarrow-up-right
Marian NMTarrow-up-right
ModernBERT-base arrow-up-right