# Modelos de texto

### Modelos listos para usar (instruidos)

<table data-view="cards"><thead><tr><th></th><th></th><th></th><th></th><th></th><th data-type="content-ref"></th><th></th><th></th></tr></thead><tbody><tr><td><sub>Descripción / Función</sub></td><td>LLM instruido (multilingüe)</td><td><sub>Nombre modelo</sub></td><td>ALIA-40b-instruct-2601</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/BSC-LT/ALIA-40b-instruct-2601">https://huggingface.co/BSC-LT/ALIA-40b-instruct-2601</a></td><td><sub>Comentarios</sub></td><td>Última versión de la familia de modelos ALIA. Aunque el desarrollo sigue en curso y se prevén nuevas actualizaciones, esta versión ya integra varias mejoras significativas con respecto a lanzamientos anteriores, destacando un seguimiento de instrucciones más preciso, mayor robustez ante entradas ruidosas o ambiguas, una alineación de seguridad reforzada y capacidades ampliadas para el manejo de contextos largos.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>LLM instruido (multilingüe)</td><td></td><td>ALIA-40b-instruct-2601-GGUF</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/BSC-LT/ALIA-40b-instruct-2601-GGUF">https://huggingface.co/BSC-LT/ALIA-40b-instruct-2601-GGUF</a></td><td></td><td>Versión cuantizada GGUF del modelo ALIA-40b-instruct-2601</td></tr><tr><td><sub>Descripción / Función</sub></td><td>LLM instruido (inglés, español, catalán)</td><td><sub>Nombre modelo</sub></td><td>salamandra-7b-instruct</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/BSC-LT/salamandra-7b-instruct">https://huggingface.co/BSC-LT/salamandra-7b-instruct</a></td><td><sub>Comentarios</sub></td><td>Modelo salamandra-7b entrenado con 276 mil instrucciones en inglés, español y catalán, recopiladas de diversos corpus abiertos.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>LLM instruido (inglés, español, catalán)</td><td><sub>Nombre modelo</sub></td><td>salamandra-2b-instruct</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/BSC-LT/salamandra-2b-instruct">https://huggingface.co/BSC-LT/salamandra-2b-instruct</a></td><td><sub>Comentarios</sub></td><td>Modelo salamandra-2b entrenado con 276 mil instrucciones en inglés, español y catalán, recopiladas de diversos corpus abiertos.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>LLM instruido (euskera)</td><td><sub>Nombre modelo</sub></td><td>Latxa 3.1 Instruct 70B</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/HiTZ/Latxa-Llama-3.1-70B-Instruct">https://huggingface.co/HiTZ/Latxa-Llama-3.1-70B-Instruct</a></td><td><sub>Comentarios</sub></td><td>Modelo instruido de 70 mil millones de parametros basado en Llama-3.1 (Instruct) y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>LLM instruido (euskera)</td><td><sub>Nombre modelo</sub></td><td>Latxa 3.1 Instruct 8B</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/HiTZ/Latxa-Llama-3.1-8B-Instruct">https://huggingface.co/HiTZ/Latxa-Llama-3.1-8B-Instruct</a></td><td><sub>Comentarios</sub></td><td>Modelo instruido de 8 mil millones de parametros basado en Llama-3.1 (Instruct) y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.</td></tr><tr><td>Descripción / Función</td><td>LLM instruido (gallego, portugués, español, catalán, inglés)</td><td><sub>Nombre modelo</sub></td><td>Carballo-Llama-Instr3</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/proxectonos/Llama-3.1-Carballo-Instr3">https://huggingface.co/proxectonos/Llama-3.1-Carballo-Instr3</a></td><td><sub>Comentarios</sub></td><td>Modelo diseñado para procesar gallego, portugués, español, inglés y catalán. Es el resultado de un proceso de preentrenamiento continuo del modelo <a href="https://huggingface.co/meta-llama/Llama-3.1-8B">meta-llama/Llama-3.1-8B</a> sobre un corpus multilingüe de 340 millones de tokens, con un énfasis particular en el gallego.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>LLM instruido (gallego, español - dominio legal)</td><td><sub>Nombre modelo</sub></td><td>Carballo-Legal</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/proxectonos/Carballo-Legal">https://huggingface.co/proxectonos/Carballo-Legal</a></td><td><sub>Comentarios</sub></td><td>Modelo de 7.000 millones de parámetros ajustado mediante aprendizaje por instrucciones para el procesamiento de textos jurídicos en gallego y español. Se ha desarrollado a partir de Salamandra-7B-Instruct y ha sido entrenado con corpus legales procedentes de instituciones públicas.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>LLM intruido (español - dominio legal y administrativo)</td><td><sub>Nombre modelo</sub></td><td>ALIA Legal-Administrative 7B Instruct</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/SINAI/ALIA-legal-administrative-7B-Instruct">https://huggingface.co/SINAI/ALIA-legal-administrative-7B-Instruct</a></td><td><sub>Comentarios</sub></td><td>Modelo de lenguaje especializado en el ámbito legal y administrativo del español. Se ha desarrollado a partir de SINAI/ALIA-legal-administrative-7B-Base y ha sido ajustado mediante <em>instruction tuning</em> utilizando el conjunto de datos ALIA-legal-administrative-synthetic-instructions.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>LLM intruido (español - dominio legal y administrativo)</td><td><sub>Nombre modelo</sub></td><td>ALIA-es-legal-7B-Base</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/SINAI/ALIA-es-legal-7B-Base">https://huggingface.co/SINAI/ALIA-es-legal-7B-Base</a></td><td><sub>Comentarios</sub></td><td>Versión adaptada al dominio del modelo Salamandra 7B, optimizada para el ámbito jurídico y administrativo español.</td></tr></tbody></table>

### Modelos para desarrolladores (fundacionales y para fine-tuning)

<table data-view="cards" data-full-width="false"><thead><tr><th>Descripción / Función</th><th>Nombre modelo</th><th>Model card</th><th>Comentarios</th></tr></thead><tbody><tr><td>LLM (multilingüe)</td><td>salamandra-7b</td><td><a href="https://huggingface.co/BSC-LT/salamandra-7b">https://huggingface.co/BSC-LT/salamandra-7b</a></td><td>Modelo generativo multilingüe, entrenado desde cero en 35 idiomas europeos, con 8 mil millones de parámetros y 12,875 billones de tokens.</td></tr><tr><td>LLM (multilingüe)</td><td>salamandra-2b</td><td><a href="https://huggingface.co/BSC-LT/salamandra-2b">https://huggingface.co/BSC-LT/salamandra-2b</a></td><td>Modelo generativo multilingüe, entrenado desde cero en 35 idiomas europeos, con 2 mil millones de parámetros y 12,875 billones de tokens.</td></tr><tr><td>LLM (gallego, portugués, español, catalán, inglés)</td><td>Llama-3.1-Carballo</td><td><a href="https://huggingface.co/proxectonos/Llama-3.1-Carballo">https://huggingface.co/proxectonos/Llama-3.1-Carballo</a></td><td>Modelo de 8 mil millones de parámetros, diseñado para gallego, portugués, español, catalán e inglés. Es el resultado de un preentrenamiento continuo del modelo <a href="https://huggingface.co/meta-llama/Llama-3.1-8B">meta-llama/Llama-3.1-8B</a> con un corpus multilingüe de casi 20 mil millones de tokens, con especial énfasis en textos en gallego.</td></tr><tr><td>LLM (gallego, portugués, español, inglés)</td><td>Llama-Carvalho-PT-GL</td><td><a href="https://huggingface.co/Nos-PT/Llama-Carvalho-PT-GL">https://huggingface.co/Nos-PT/Llama-Carvalho-PT-GL</a></td><td>Modelo de 8 mil millones de parámetros, diseñado para gallego, portugués, español e inglés. Es el resultado de un preentrenamiento continuo del modelo <a href="https://huggingface.co/meta-llama/Llama-3.1-8B">meta-llama/Llama-3.1-8B</a> utilizando un corpus multilingüe compuesto por 540 millones de tokens de texto plano y 72 millones de tokens de instrucciones.</td></tr><tr><td>LLM (euskera)</td><td>Latxa 3.1 8B</td><td><a href="https://huggingface.co/HiTZ/Latxa-Llama-3.1-8B">https://huggingface.co/HiTZ/Latxa-Llama-3.1-8B</a></td><td>Modelo de 8 mil millones de parametros basado en Llama 3.1 y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.</td></tr><tr><td>LLM (valenciano, español, inglés)</td><td>Aitana-2B-S-base-1.0</td><td><a href="https://huggingface.co/gplsi/Aitana-2B-S-base-1.0">https://huggingface.co/gplsi/Aitana-2B-S-base-1.0</a></td><td>Modelo de lenguaje generativo entrenado a partir de <a href="https://huggingface.co/BSC-LT/salamandra-2b">salamandra-2b</a>, utilizando datos en valenciano, español e inglés.</td></tr><tr><td>LLM (valenciano)</td><td>Aitana-2B-S</td><td><a href="https://huggingface.co/gplsi/Aitana-2B-S">https://huggingface.co/gplsi/Aitana-2B-S</a></td><td>Modelo de lenguaje generativo entrenado a partir de <a href="https://huggingface.co/BSC-LT/salamandra-2b">salamandra-2b</a>, utilizando datos en valenciano.</td></tr><tr><td>LLM (valenciano, español, inglés - turismo)</td><td>Aitana-2B-S-tourism-base-1.0</td><td><a href="https://huggingface.co/gplsi/Aitana-2B-S-tourism-base-1.0">https://huggingface.co/gplsi/Aitana-2B-S-tourism-base-1.0</a></td><td>Modelo de lenguaje generativo basado en <a href="https://huggingface.co/gplsi/Aitana-2B-S-base-1.0">Aitana-2B-S-base-1.0</a> y entrenado adicionalmente con datos del dominio turístico.</td></tr><tr><td>Modelo transformer (multilingüe)</td><td>MrBERT</td><td><a href="https://huggingface.co/BSC-LT/MrBERT">https://huggingface.co/BSC-LT/MrBERT</a></td><td>Modelo multilingüe basado en <a href="https://huggingface.co/answerdotai/ModernBERT-base/tree/main">ModernBERT</a>, preentrenado con 6,1 billones de tokens en 35 lenguas europeas y código. Ofrece representaciones bidireccionales sólidas y es adecuado para tareas como recuperación, clasificación y búsqueda semántica multilingüe.</td></tr><tr><td>Modelo transformer (español–inglés)</td><td>MrBERT-es</td><td><a href="https://huggingface.co/BSC-LT/MrBERT-es">https://huggingface.co/BSC-LT/MrBERT-es</a></td><td>Modelo bilingüe español–inglés basado en <a href="https://huggingface.co/answerdotai/ModernBERT-base/tree/main">ModernBERT</a> y derivado de <a href="https://huggingface.co/BSC-LT/MrBERT">MrBERT</a> mediante una adaptación de vocabulario  y ajuste <em>embeddings</em>. Posteriormente, se continúa su preentrenamiento con 615.000 millones de tokens equilibrados entre ambos idiomas.</td></tr><tr><td>Modelo transformer (catalán–inglés)</td><td>MrBERT-ca</td><td><a href="https://huggingface.co/BSC-LT/MrBERT-ca">https://huggingface.co/BSC-LT/MrBERT-ca</a></td><td>Modelo bilingüe catalán–inglés basado en <a href="https://huggingface.co/answerdotai/ModernBERT-base/tree/main">ModernBERT</a> y derivado de <a href="https://huggingface.co/BSC-LT/MrBERT-es">MrBERT-es</a> mediante una adaptación de vocabulario y ajuste de <em>embeddings</em>. Posteriormente, se continúa su preentrenamiento con 47.400 millones de tokens equilibrados entre ambos idiomas.</td></tr><tr><td>Modelo transformer (multilingüe - biomédico)</td><td>MrBERT-biomed</td><td><a href="https://huggingface.co/BSC-LT/MrBERT-biomed">https://huggingface.co/BSC-LT/MrBERT-biomed</a></td><td>Modelo biomédico multilingüe basado en <a href="https://huggingface.co/answerdotai/ModernBERT-base/tree/main">ModernBERT</a>, adaptado desde <a href="https://huggingface.co/BSC-LT/MrBERT">MrBERT</a> y entrenado con 24,13 mil millones de tokens biomédicos, principalmente en inglés y español.</td></tr><tr><td>Modelo transformer (bilingüe - científico)</td><td>MrBERT-science</td><td><a href="https://huggingface.co/BSC-LT/MrBERT-science">https://huggingface.co/BSC-LT/MrBERT-science</a></td><td>Modelo científico multilingüe basado en <a href="https://huggingface.co/answerdotai/ModernBERT-base/tree/main">ModernBERT</a>, adaptado desde <a href="https://huggingface.co/BSC-LT/MrBERT">MrBERT</a> y entrenado adicionalmente con 3.600 millones de tokens científicos en inglés y español.</td></tr><tr><td>Modelo transformer (multilingüe - jurídico)</td><td>MrBERT-legal</td><td><a href="https://huggingface.co/BSC-LT/MrBERT-legal">https://huggingface.co/BSC-LT/MrBERT-legal</a></td><td>Modelo jurídico multilingüe basado en <a href="https://huggingface.co/answerdotai/ModernBERT-base/tree/main">ModernBERT</a>, adaptado desde <a href="https://huggingface.co/BSC-LT/MrBERT">MrBERT</a> y entrenado durante 10 épocas con 8.000 millones de tokens legales en inglés y español.</td></tr><tr><td>Modelo transformer (multilingüe)</td><td>mRoBERTa</td><td><a href="https://huggingface.co/BSC-LT/mRoBERTa">https://huggingface.co/BSC-LT/mRoBERTa</a></td><td>Modelo <a href="https://huggingface.co/FacebookAI/roberta-base">RoBERTa</a> multilingüe, entrenado en 35 idiomas y 92 lenguajes de programación, con un volumen total de 12,8 TB de datos.</td></tr><tr><td>Modelo transformer (catalán)</td><td>RoBERTa-ca </td><td><a href="https://huggingface.co/BSC-LT/RoBERTa-ca">https://huggingface.co/BSC-LT/RoBERTa-ca</a></td><td>Modelo para catalán basado en <a href="https://huggingface.co/FacebookAI/roberta-base">RoBERTa</a>, con pesos inicializados desde <a href="https://huggingface.co/BSC-LT/mRoBERTa">mRoBERTa</a> y ajustes en <em>embeddings</em> para diferencias de tokenización. Preentrenado de forma continua con 95 GB de datos en catalán de alta calidad.</td></tr><tr><td>Modelo transformer (euskera)</td><td>BERnaT-base</td><td><a href="https://huggingface.co/HiTZ/BERnaT-base">https://huggingface.co/HiTZ/BERnaT-base</a></td><td>Modelo discriminativo BERnaT de 100M de parámetros, basado en la arquitecutra <a href="https://huggingface.co/FacebookAI/roberta-base">RoBERTa</a>, entrenado from scratch con un corpus en euskera que combina texto estándar y no estándar (redes sociales e histórico).</td></tr><tr><td>Modelo transformer (euskera)</td><td>BERnaT-large</td><td><a href="https://huggingface.co/HiTZ/BERnaT-large">https://huggingface.co/HiTZ/BERnaT-large</a></td><td>Modelo discriminativo BERnaT de 400M de parámetros, basado en la arquitecutra <a href="https://huggingface.co/FacebookAI/roberta-base">RoBERTa,</a> entrenado desde cero con un corpus en euskera que combina texto estándar y no estándar (redes sociales e histórico).</td></tr><tr><td>Modelo transformer (euskera)</td><td>BERnaT-medium</td><td><a href="https://huggingface.co/HiTZ/BERnaT-medium">https://huggingface.co/HiTZ/BERnaT-medium</a></td><td>Modelo discriminativo BERnaT de 51,4M de parámetros, basado en la arquitecutra <a href="https://huggingface.co/FacebookAI/roberta-base">RoBERTa</a>, entrenado desde cero con corpus en euskera que combina texto estándar y no estándar (redes sociales e histórico).</td></tr><tr><td>Modelo transformer  (español - jurídico)</td><td>ALIA-MrBERT-es-legal-embeddings</td><td><a href="https://huggingface.co/SINAI/ALIA-MrBERT-es-legal-embeddings">https://huggingface.co/SINAI/ALIA-MrBERT-es-legal-embeddings</a></td><td><p>Modelo bi-encoder especializado en el dominio jurídico español, diseñado para tareas de similitud semántica y recuperación de información.</p><p>El modelo se basa en MrBERT-es y ha sido ajustado con datos específicos del ámbito jurídico y administrativo mediante una estrategia de aprendizaje curricular.</p></td></tr><tr><td>Modelo transformer  (español - patrimonio cultural)</td><td>ALIA-MrBERT-es-cultural-embeddings</td><td><a href="https://huggingface.co/SINAI/ALIA-MrBERT-es-cultural-embeddings">https://huggingface.co/SINAI/ALIA-MrBERT-es-cultural-embeddings</a></td><td><p>Modelo bi-encoder especializado en el dominio del patrimonio cultural español, diseñado para tareas de similitud semántica y recuperación de información.</p><p>El modelo se basa en MrBERT-es y ha sido ajustado con datos específicos del ámbito del patrimonio cultural mediante una estrategia de aprendizaje curricular.</p></td></tr><tr><td>Modelo transformer  (español - jurídico)</td><td>ALIA-MrBERT-es-legal-reranker</td><td><a href="https://huggingface.co/SINAI/ALIA-MrBERT-es-legal-reranker">https://huggingface.co/SINAI/ALIA-MrBERT-es-legal-reranker</a></td><td><p>Modelo cross-encoder especializado en el dominio jurídico español, diseñado como reranker para tareas de recuperación de información y ordenación de documentos.</p><p>El modelo se basa en MrBERT-es y ha sido ajustado con datos específicos del ámbito jurídico y administrativo mediante una estrategia de aprendizaje curricular.</p></td></tr><tr><td>Modelo transformer  (español - patrimonio cultural)</td><td>ALIA-MrBERT-es-cultural-reranker</td><td><a href="https://huggingface.co/SINAI/ALIA-MrBERT-es-cultural-reranker">https://huggingface.co/SINAI/ALIA-MrBERT-es-cultural-reranker</a></td><td><p>Modelo cross-encoder especializado en el dominio del patrimonio cultural español, diseñado como reranker para tareas de recuperación de información y ordenación de documentos.</p><p>El modelo se basa en MrBERT-es y ha sido ajustado con datos específicos del ámbito del patrimonio cultural mediante una estrategia de aprendizaje curricular.</p></td></tr></tbody></table>

### Adaptación de modelos para tareas específicas

<table data-view="cards"><thead><tr><th></th><th></th><th></th><th></th><th></th><th data-type="content-ref"></th><th></th><th></th></tr></thead><tbody><tr><td><sub>Descripción / Función</sub></td><td>Moderación de contenido</td><td><sub>Nombre modelo</sub></td><td>Salamandra-7b-instruct-guard</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/BSC-LT/salamandra-7b-instruct-guard">https://huggingface.co/BSC-LT/salamandra-7b-instruct-guard</a></td><td><sub>Comentarios</sub></td><td>Modelo de clasificación de seguridad diseñado para la moderación de contenido en catalán, español e inglés. Está construido sobre <a href="https://huggingface.co/BSC-LT/salamandra-7b-instruct">Salamandra-7b-Instruct</a>. </td></tr><tr><td><sub>Descripción / Función</sub></td><td>Detección de fraude</td><td><sub>Nombre modelo</sub></td><td>Aitana Enc Fraud Detection</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/gplsi/Aitana-FraudDetection-R-1.0">https://huggingface.co/gplsi/Aitana-FraudDetection-R-1.0</a></td><td><sub>Comentarios</sub></td><td>Modelo ajustado a partir de <a href="https://huggingface.co/BSC-LT/mRoBERTa">mRoBERTa</a> para la clasificación binaria de la detección de <em>phishing</em> en textos en inglés.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>Lenguaje claro</td><td><sub>Nombre modelo</sub></td><td>Aitana-ClearLangDetection-R-1.0</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/gplsi/Aitana-ClearLangDetection-R-1.0">https://huggingface.co/gplsi/Aitana-ClearLangDetection-R-1.0</a></td><td><sub>Comentarios</sub></td><td>Modelo ajustado a partir de <a href="https://huggingface.co/BSC-LT/mRoBERTa">mRoBERTa</a> para la tarea de clasificación de lenguaje claro en textos en español.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>Modelo adaptado al dominio</td><td><sub>Nombre modelo</sub></td><td>Aitana-tourism-mb-encoder-1.0</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/gplsi/Aitana-tourism-mb-encoder-1.0">https://huggingface.co/gplsi/Aitana-tourism-mb-encoder-1.0</a></td><td><sub>Comentarios</sub></td><td>Modelo <a href="https://huggingface.co/answerdotai/ModernBERT-base">ModernBERT-base </a>preentrenado de forma continua con datos del dominio del turismo en español y valenciano.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>Normalización (euskera)</td><td><sub>Nombre modelo</sub></td><td>marianmt-cap-punct-eu</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/HiTZ/cap-punct-eu">https://huggingface.co/HiTZ/cap-punct-eu</a></td><td><sub>Comentarios</sub></td><td>Modelo de traducción automática que sirve para capitalizar y puntuar texto normalizado en euskera. El modelo ha sido entrenado desde cero utilizando <a href="https://huggingface.co/docs/transformers/model_doc/marian">Marian NMT</a> y un dataset de 9.784.905 frases en euskera</td></tr><tr><td><sub>Descripción / Función</sub></td><td>Normalización (euskera)</td><td><sub>Nombre modelo</sub></td><td>marianmt-cap-punct-es</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/HiTZ/cap-punct-es">https://huggingface.co/HiTZ/cap-punct-es</a></td><td><sub>Comentarios</sub></td><td>Modelo de traducción automática que sirve para capitalizar y puntuar texto normalizado en español. El modelo ha sido entrenado desde cero utilizando <a href="https://huggingface.co/docs/transformers/model_doc/marian">Marian NMT</a> y un dataset de 9.784.905 frases en castellano.</td></tr></tbody></table>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://langtech-bsc.gitbook.io/alia-kit/modelos/modelos-de-texto.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
