> For the complete documentation index, see [llms.txt](https://langtech-bsc.gitbook.io/alia-kit/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://langtech-bsc.gitbook.io/alia-kit/modelos/modelos-de-texto.md).

# Modelos de texto

### Modelos listos para usar (instruidos)

<table data-view="cards"><thead><tr><th></th><th></th><th></th><th></th><th></th><th data-type="content-ref"></th><th></th><th></th></tr></thead><tbody><tr><td><sub>Descripción / Función</sub></td><td>LLM instruido (multilingüe)</td><td><sub>Nombre modelo</sub></td><td>ALIA-40b-instruct-2601</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/BSC-LT/ALIA-40b-instruct-2601">https://huggingface.co/BSC-LT/ALIA-40b-instruct-2601</a></td><td><sub>Comentarios</sub></td><td>Última versión de la familia de modelos ALIA. Aunque el desarrollo sigue en curso y se prevén nuevas actualizaciones, esta versión ya integra varias mejoras significativas con respecto a lanzamientos anteriores, destacando un seguimiento de instrucciones más preciso, mayor robustez ante entradas ruidosas o ambiguas, una alineación de seguridad reforzada y capacidades ampliadas para el manejo de contextos largos.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>LLM instruido (multilingüe)</td><td></td><td>ALIA-40b-instruct-2601-GGUF</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/BSC-LT/ALIA-40b-instruct-2601-GGUF">https://huggingface.co/BSC-LT/ALIA-40b-instruct-2601-GGUF</a></td><td></td><td>Versión cuantizada GGUF del modelo ALIA-40b-instruct-2601</td></tr><tr><td><sub>Descripción / Función</sub></td><td>LLM instruido (inglés, español, catalán)</td><td><sub>Nombre modelo</sub></td><td>salamandra-7b-instruct</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/BSC-LT/salamandra-7b-instruct">https://huggingface.co/BSC-LT/salamandra-7b-instruct</a></td><td><sub>Comentarios</sub></td><td>Modelo salamandra-7b entrenado con 276 mil instrucciones en inglés, español y catalán, recopiladas de diversos corpus abiertos.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>LLM instruido (inglés, español, catalán)</td><td><sub>Nombre modelo</sub></td><td>salamandra-2b-instruct</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/BSC-LT/salamandra-2b-instruct">https://huggingface.co/BSC-LT/salamandra-2b-instruct</a></td><td><sub>Comentarios</sub></td><td>Modelo salamandra-2b entrenado con 276 mil instrucciones en inglés, español y catalán, recopiladas de diversos corpus abiertos.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>LLM instruido (euskera)</td><td><sub>Nombre modelo</sub></td><td>Latxa 3.1 Instruct 70B</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/HiTZ/Latxa-Llama-3.1-70B-Instruct">https://huggingface.co/HiTZ/Latxa-Llama-3.1-70B-Instruct</a></td><td><sub>Comentarios</sub></td><td>Modelo instruido de 70 mil millones de parametros basado en Llama-3.1 (Instruct) y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>LLM instruido (euskera)</td><td><sub>Nombre modelo</sub></td><td>Latxa 3.1 Instruct 8B</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/HiTZ/Latxa-Llama-3.1-8B-Instruct">https://huggingface.co/HiTZ/Latxa-Llama-3.1-8B-Instruct</a></td><td><sub>Comentarios</sub></td><td>Modelo instruido de 8 mil millones de parametros basado en Llama-3.1 (Instruct) y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>LLM instruido (gallego, español - dominio legal)</td><td><sub>Nombre modelo</sub></td><td>Carballo-Legal</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/proxectonos/Carballo-Legal">https://huggingface.co/proxectonos/Carballo-Legal</a></td><td><sub>Comentarios</sub></td><td>Modelo de 7.000 millones de parámetros ajustado mediante aprendizaje por instrucciones para el procesamiento de textos jurídicos en gallego y español. Se ha desarrollado a partir de <a href="https://huggingface.co/BSC-LT/salamandra-7b-instruct">Salamandra-7B-Instruct</a> y ha sido entrenado con corpus legales procedentes de instituciones públicas.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>LLM instruido (gallego, español - dominio científico)</td><td><sub>Nombre modelo</sub></td><td>Carballo-Science</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/proxectonos/Carballo-Science">https://huggingface.co/proxectonos/Carballo-Science</a></td><td><sub>Comentarios</sub></td><td>Modelo de 7.000 millones de parámetros ajustado mediante aprendizaje por instrucciones para el procesamiento de textos científicos en gallego y español. Se ha desarrollado a partir de <a href="https://huggingface.co/BSC-LT/salamandra-7b-instruct">Salamandra-7B-Instruct</a> y ha sido entrenado con corpus científicos de alta calidad procedentes de diversas fuentes.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>LLM instruido (inglés, español, valenciano) </td><td><sub>Nombre modelo</sub></td><td>Aitana-7B-S-Instruct</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/gplsi/Aitana-7B-S-Instruct">https://huggingface.co/gplsi/Aitana-7B-S-Instruct</a></td><td><sub>Comentarios</sub></td><td>Modelo de lenguaje ajustado a instrucciones perteneciente a la familia Aitana. Basado en <a href="https://huggingface.co/gplsi/Aitana-7B-S-base">gplsi/Aitana-7B-S-base</a>, este modelo ha sido ajustado para seguir instrucciones de forma eficaz en valenciano, español e inglés, con especial énfasis en la mejora de sus capacidades en lengua valenciana.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>LLM instruido (español - dominio legal y administrativo)</td><td><sub>Nombre modelo</sub></td><td>ALIA Legal-Administrative 7B Instruct</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/SINAI/ALIA-legal-administrative-7B-Instruct">https://huggingface.co/SINAI/ALIA-legal-administrative-7B-Instruct</a></td><td><sub>Comentarios</sub></td><td>Modelo de lenguaje especializado en el ámbito legal y administrativo del español. Se ha desarrollado a partir de <a href="https://huggingface.co/SINAI/ALIA-es-legal-administrative-7B-Base">ALIA-es-legal-administrative-7B-Base</a> y ha sido ajustado mediante <em>instruction tuning</em> utilizando el conjunto de datos <a href="https://huggingface.co/datasets/SINAI/ALIA-es-legal-administrative-synthetic-instructions">ALIA-legal-administrative-synthetic-instructions</a>.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>LLM instruido (inglés, español, valenciano) </td><td><sub>Nombre modelo</sub></td><td>Aitana-2B-SI-Instruct</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/gplsi/Aitana-2B-SI-Instruct">https://huggingface.co/gplsi/Aitana-2B-SI-Instruct</a></td><td><sub>Comentarios</sub></td><td>Modelo de lenguaje ajustado a instrucciones perteneciente a la familia Aitana. Basado en <a href="https://huggingface.co/gplsi/Aitana-2B-S-base">gplsi/Aitana-2B-S-base</a>, este modelo ha sido ajustado para seguir instrucciones de forma eficaz en valenciano, español e inglés, con especial énfasis en la mejora de sus capacidades en lengua valenciana.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>LLM instruido alineado (inglés, español, valenciano) </td><td><sub>Nombre modelo</sub></td><td>Aitana-2B-SI-Instruct-Aligned</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/gplsi/Aitana-2B-SI-Instruct-Aligned">https://huggingface.co/gplsi/Aitana-2B-SI-Instruct-Aligned</a></td><td><sub>Comentarios</sub></td><td>Modelo generativo de lenguaje ajustado. Amplía el modelo <a href="https://huggingface.co/gplsi/Aitana-2B-SI-Instruct">Aitana-2B-SI-Instruct,</a> ajustado a instrucciones, mediante alineamiento con Optimización Directa de Preferencias (DPO). Esta etapa adicional de entrenamiento mejora la capacidad del modelo para generar respuestas útiles y de alta calidad, mejor alineadas con las preferencias humanas, al tiempo que mantiene sus sólidas capacidades multilingües.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>LLM instruido (inglés, español, valenciano) </td><td><sub>Nombre modelo</sub></td><td>Aitana-2B-S-Instruct</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/gplsi/Aitana-2B-S-Instruct">https://huggingface.co/gplsi/Aitana-2B-S-Instruct</a></td><td><sub>Comentarios</sub></td><td>Modelo de lenguaje ajustado a instrucciones perteneciente a la familia Aitana. Basado en <a href="https://huggingface.co/gplsi/Aitana-2B-S-base">gplsi/Aitana-2B-S-base</a>, este modelo ha sido ajustado para seguir instrucciones de forma eficaz en valenciano, español e inglés, con especial énfasis en la mejora de sus capacidades en lengua valenciana.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>LLM instruido alineado (inglés, español, valenciano) </td><td><sub>Nombre modelo</sub></td><td>Aitana-2B-S-Instruct-Aligned</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/gplsi/Aitana-2B-S-Instruct-Aligned">https://huggingface.co/gplsi/Aitana-2B-S-Instruct-Aligned</a></td><td><sub>Comentarios</sub></td><td>Modelo generativo de lenguaje ajustado. Amplía el modelo <a href="https://huggingface.co/gplsi/Aitana-2B-S-Instruct">gplsi/Aitana-2B-S-Instruct</a>,<a href="https://huggingface.co/gplsi/Aitana-2B-SI-Instruct">,</a> ajustado a instrucciones, mediante alineamiento con Optimización Directa de Preferencias (DPO). Esta etapa adicional de entrenamiento mejora la capacidad del modelo para generar respuestas útiles y de alta calidad, mejor alineadas con las preferencias humanas, al tiempo que mantiene sus sólidas capacidades multilingües.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>LLM instruido (inglés, español, valenciano - turismo) </td><td><sub>Nombre modelo</sub></td><td>Aitana-2B-S-tourism-Instruct</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/gplsi/Aitana-2B-S-tourism-Instruct">https://huggingface.co/gplsi/Aitana-2B-S-tourism-Instruct</a></td><td><sub>Comentarios</sub></td><td>Modelo de lenguaje ajustado a instrucciones perteneciente a la familia Aitana. Basado en <a href="https://huggingface.co/gplsi/Aitana-2B-S-tourism-base">gplsi/Aitana-2B-S-tourism-base</a>, este modelo ha sido afinado para seguir instrucciones en valenciano, español e inglés, con capacidades especializadas para aplicaciones en el ámbito del turismo.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>LLM instruido (inglés, español, valenciano - propiedad intelectual)) </td><td><sub>Nombre modelo</sub></td><td>Aitana-2B-S-IP-Instruct</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/gplsi/Aitana-2B-S-IP-Instruct">https://huggingface.co/gplsi/Aitana-2B-S-IP-Instruct</a></td><td><sub>Comentarios</sub></td><td>Modelo de lenguaje ajustado a instrucciones perteneciente a la familia Aitana. Basado en <a href="https://huggingface.co/gplsi/Aitana-2B-S-IP-base">gplsi/Aitana-2B-S-IP-base</a>, este modelo ha sido afinado para seguir instrucciones en valenciano, español e inglés, con capacidades especializadas para aplicaciones en el ámbito de la propiedad intelectual.</td></tr></tbody></table>

### Modelos para desarrolladores (fundacionales y para fine-tuning)

<table data-view="cards" data-full-width="false"><thead><tr><th>Descripción / Función</th><th>Nombre modelo</th><th>Model card</th><th>Comentarios</th></tr></thead><tbody><tr><td>LLM (multilingüe)</td><td>salamandra-7b</td><td><a href="https://huggingface.co/BSC-LT/salamandra-7b">https://huggingface.co/BSC-LT/salamandra-7b</a></td><td>Modelo generativo multilingüe, entrenado desde cero en 35 idiomas europeos, con 8 mil millones de parámetros y 12,875 billones de tokens.</td></tr><tr><td>LLM (multilingüe)</td><td>salamandra-2b</td><td><a href="https://huggingface.co/BSC-LT/salamandra-2b">https://huggingface.co/BSC-LT/salamandra-2b</a></td><td>Modelo generativo multilingüe, entrenado desde cero en 35 idiomas europeos, con 2 mil millones de parámetros y 12,875 billones de tokens.</td></tr><tr><td>LLM (gallego, portugués, español, catalán, inglés)</td><td>Llama-3.1-Carballo</td><td><a href="https://huggingface.co/proxectonos/Llama-3.1-Carballo">https://huggingface.co/proxectonos/Llama-3.1-Carballo</a></td><td>Modelo de 8 mil millones de parámetros, diseñado para gallego, portugués, español, catalán e inglés. Es el resultado de un preentrenamiento continuo del modelo <a href="https://huggingface.co/meta-llama/Llama-3.1-8B">meta-llama/Llama-3.1-8B</a> con un corpus multilingüe de casi 20 mil millones de tokens, con especial énfasis en textos en gallego.</td></tr><tr><td>LLM (gallego, portugués, español, catalán, inglés)</td><td>Carballo-Llama-Instr3</td><td><a href="https://huggingface.co/proxectonos/Llama-3.1-Carballo-Instr3">https://huggingface.co/proxectonos/Llama-3.1-Carballo-Instr3</a></td><td>Modelo diseñado para procesar gallego, portugués, español, inglés y catalán. Es el resultado de un proceso de preentrenamiento continuo del modelo <a href="https://huggingface.co/meta-llama/Llama-3.1-8B">meta-llama/Llama-3.1-8B</a> sobre un corpus multilingüe de 340 millones de tokens, con un énfasis particular en el gallego.</td></tr><tr><td>LLM (gallego, portugués, español, inglés)</td><td>Llama-Carvalho-PT-GL</td><td><a href="https://huggingface.co/Nos-PT/Llama-Carvalho-PT-GL">https://huggingface.co/Nos-PT/Llama-Carvalho-PT-GL</a></td><td>Modelo de 8 mil millones de parámetros, diseñado para gallego, portugués, español e inglés. Es el resultado de un preentrenamiento continuo del modelo <a href="https://huggingface.co/meta-llama/Llama-3.1-8B">meta-llama/Llama-3.1-8B</a> utilizando un corpus multilingüe compuesto por 540 millones de tokens de texto plano y 72 millones de tokens de instrucciones.</td></tr><tr><td>LLM (euskera)</td><td>Latxa 3.1 8B</td><td><a href="https://huggingface.co/HiTZ/Latxa-Llama-3.1-8B">https://huggingface.co/HiTZ/Latxa-Llama-3.1-8B</a></td><td>Modelo de 8 mil millones de parametros basado en Llama 3.1 y entrenado con un corpus en euskera de 4,3 millones de documentos y 4,2 mil millones de tokens, utilizando técnicas de adaptación lingüística.</td></tr><tr><td>LLM (valenciano, español, inglés)</td><td>Aitana-7B-S-base</td><td><a href="https://huggingface.co/gplsi/Aitana-7B-S-base">https://huggingface.co/gplsi/Aitana-7B-S-base</a></td><td>Modelo de lenguaje generativo entrenado a partir de <a href="https://huggingface.co/BSC-LT/salamandra-7b">BSC-LT/salamandra-7b</a> utilizando datos en valenciano, español e inglés.</td></tr><tr><td>LLM (español - jurídico y administrativo)</td><td>ALIA-es-legal-administrative-7B-Base</td><td><a href="https://huggingface.co/SINAI/ALIA-es-legal-administrative-7B-Base">https://huggingface.co/SINAI/ALIA-es-legal-administrative-7B-Base</a></td><td>Versión adaptada al dominio del modelo Salamandra 7B, optimizada para el ámbito jurídico y administrativo español.</td></tr><tr><td>LLM (valenciano, español, inglés)</td><td>Aitana-2B-S-base</td><td><a href="https://huggingface.co/gplsi/Aitana-2B-S-base">https://huggingface.co/gplsi/Aitana-2B-S-base</a></td><td>Modelo de lenguaje generativo entrenado a partir de <a href="https://huggingface.co/BSC-LT/salamandra-2b">salamandra-2b</a>, utilizando datos en valenciano, español e inglés.</td></tr><tr><td>LLM (valenciano)</td><td>Aitana-2B-S</td><td><a href="https://huggingface.co/gplsi/Aitana-2B-S">https://huggingface.co/gplsi/Aitana-2B-S</a></td><td>Modelo de lenguaje generativo entrenado a partir de <a href="https://huggingface.co/BSC-LT/salamandra-2b">salamandra-2b</a>, utilizando datos en valenciano.</td></tr><tr><td>LLM (valenciano, español, inglés - propiedad intelectual)</td><td>Aitana-2B-S-IP-base</td><td><a href="https://huggingface.co/gplsi/Aitana-2B-S-IP-base">https://huggingface.co/gplsi/Aitana-2B-S-IP-base</a></td><td>Modelo de lenguaje generativo basado en en <a href="https://huggingface.co/BSC-LT/salamandra-2b">BSC-LT/salamandra-2b</a> y  entrenado adicionalmente con datos del ámbito de la propiedad intelectual.</td></tr><tr><td>LLM (valenciano, español, inglés - turismo)</td><td>Aitana-2B-S-tourism-base</td><td><a href="https://huggingface.co/gplsi/Aitana-2B-S-tourism-base-1.0">https://huggingface.co/gplsi/Aitana-2B-S-tourism-base</a></td><td>Modelo de lenguaje generativo basado en <a href="https://huggingface.co/gplsi/Aitana-2B-S-base-1.0">Aitana-2B-S-base</a> y entrenado adicionalmente con datos del dominio turístico.</td></tr><tr><td>Modelo transformer (multilingüe)</td><td>MrBERT</td><td><a href="https://huggingface.co/BSC-LT/MrBERT">https://huggingface.co/BSC-LT/MrBERT</a></td><td>Modelo multilingüe basado en <a href="https://huggingface.co/answerdotai/ModernBERT-base/tree/main">ModernBERT</a>, preentrenado con 6,1 billones de tokens en 35 lenguas europeas y código. Ofrece representaciones bidireccionales sólidas y es adecuado para tareas como recuperación, clasificación y búsqueda semántica multilingüe.</td></tr><tr><td>Modelo transformer (español–inglés)</td><td>MrBERT-es</td><td><a href="https://huggingface.co/BSC-LT/MrBERT-es">https://huggingface.co/BSC-LT/MrBERT-es</a></td><td>Modelo bilingüe español–inglés basado en <a href="https://huggingface.co/answerdotai/ModernBERT-base/tree/main">ModernBERT</a> y derivado de <a href="https://huggingface.co/BSC-LT/MrBERT">MrBERT</a> mediante una adaptación de vocabulario  y ajuste <em>embeddings</em>. Posteriormente, se continúa su preentrenamiento con 615.000 millones de tokens equilibrados entre ambos idiomas.</td></tr><tr><td>Modelo transformer (catalán–inglés)</td><td>MrBERT-ca</td><td><a href="https://huggingface.co/BSC-LT/MrBERT-ca">https://huggingface.co/BSC-LT/MrBERT-ca</a></td><td>Modelo bilingüe catalán–inglés basado en <a href="https://huggingface.co/answerdotai/ModernBERT-base/tree/main">ModernBERT</a> y derivado de <a href="https://huggingface.co/BSC-LT/MrBERT-es">MrBERT-es</a> mediante una adaptación de vocabulario y ajuste de <em>embeddings</em>. Posteriormente, se continúa su preentrenamiento con 47.400 millones de tokens equilibrados entre ambos idiomas.</td></tr><tr><td>Modelo transformer (multilingüe - biomédico)</td><td>MrBERT-biomed</td><td><a href="https://huggingface.co/BSC-LT/MrBERT-biomed">https://huggingface.co/BSC-LT/MrBERT-biomed</a></td><td>Modelo biomédico multilingüe basado en <a href="https://huggingface.co/answerdotai/ModernBERT-base/tree/main">ModernBERT</a>, adaptado desde <a href="https://huggingface.co/BSC-LT/MrBERT">MrBERT</a> y entrenado con 24,13 mil millones de tokens biomédicos, principalmente en inglés y español.</td></tr><tr><td>Modelo transformer (bilingüe - científico)</td><td>MrBERT-science</td><td><a href="https://huggingface.co/BSC-LT/MrBERT-science">https://huggingface.co/BSC-LT/MrBERT-science</a></td><td>Modelo científico multilingüe basado en <a href="https://huggingface.co/answerdotai/ModernBERT-base/tree/main">ModernBERT</a>, adaptado desde <a href="https://huggingface.co/BSC-LT/MrBERT">MrBERT</a> y entrenado adicionalmente con 3.600 millones de tokens científicos en inglés y español.</td></tr><tr><td>Modelo transformer (multilingüe - jurídico)</td><td>MrBERT-legal</td><td><a href="https://huggingface.co/BSC-LT/MrBERT-legal">https://huggingface.co/BSC-LT/MrBERT-legal</a></td><td>Modelo jurídico multilingüe basado en <a href="https://huggingface.co/answerdotai/ModernBERT-base/tree/main">ModernBERT</a>, adaptado desde <a href="https://huggingface.co/BSC-LT/MrBERT">MrBERT</a> y entrenado durante 10 épocas con 8.000 millones de tokens legales en inglés y español.</td></tr><tr><td>Modelo transformer (multilingüe)</td><td>mRoBERTa</td><td><a href="https://huggingface.co/BSC-LT/mRoBERTa">https://huggingface.co/BSC-LT/mRoBERTa</a></td><td>Modelo <a href="https://huggingface.co/FacebookAI/roberta-base">RoBERTa</a> multilingüe, entrenado en 35 idiomas y 92 lenguajes de programación, con un volumen total de 12,8 TB de datos.</td></tr><tr><td>Modelo transformer (catalán)</td><td>RoBERTa-ca </td><td><a href="https://huggingface.co/BSC-LT/RoBERTa-ca">https://huggingface.co/BSC-LT/RoBERTa-ca</a></td><td>Modelo para catalán basado en <a href="https://huggingface.co/FacebookAI/roberta-base">RoBERTa</a>, con pesos inicializados desde <a href="https://huggingface.co/BSC-LT/mRoBERTa">mRoBERTa</a> y ajustes en <em>embeddings</em> para diferencias de tokenización. Preentrenado de forma continua con 95 GB de datos en catalán de alta calidad.</td></tr><tr><td>Modelo transformer (euskera)</td><td>BERnaT-base</td><td><a href="https://huggingface.co/HiTZ/BERnaT-base">https://huggingface.co/HiTZ/BERnaT-base</a></td><td>Modelo discriminativo BERnaT de 100M de parámetros, basado en la arquitecutra <a href="https://huggingface.co/FacebookAI/roberta-base">RoBERTa</a>, entrenado from scratch con un corpus en euskera que combina texto estándar y no estándar (redes sociales e histórico).</td></tr><tr><td>Modelo transformer (euskera)</td><td>BERnaT-large</td><td><a href="https://huggingface.co/HiTZ/BERnaT-large">https://huggingface.co/HiTZ/BERnaT-large</a></td><td>Modelo discriminativo BERnaT de 400M de parámetros, basado en la arquitecutra <a href="https://huggingface.co/FacebookAI/roberta-base">RoBERTa,</a> entrenado desde cero con un corpus en euskera que combina texto estándar y no estándar (redes sociales e histórico).</td></tr><tr><td>Modelo transformer (euskera)</td><td>BERnaT-medium</td><td><a href="https://huggingface.co/HiTZ/BERnaT-medium">https://huggingface.co/HiTZ/BERnaT-medium</a></td><td>Modelo discriminativo BERnaT de 51,4M de parámetros, basado en la arquitecutra <a href="https://huggingface.co/FacebookAI/roberta-base">RoBERTa</a>, entrenado desde cero con corpus en euskera que combina texto estándar y no estándar (redes sociales e histórico).</td></tr><tr><td>Modelo transformer  (español - biomédico)</td><td>ALIA-MrBERT-es-biomedical-embeddings</td><td><a href="https://huggingface.co/SINAI/ALIA-MrBERT-es-biomedical-embeddings">https://huggingface.co/SINAI/ALIA-MrBERT-es-biomedical-embeddings</a></td><td><p>Modelo bi-encoder especializado en el dominio jurídico español, diseñado para tareas de similitud semántica y recuperación de información.</p><p>El modelo se basa en MrBERT-es y ha sido ajustado con datos específicos del ámbito jbiomédico mediante una estrategia de aprendizaje curricular.</p></td></tr><tr><td>Modelo transformer  (español - jurídico)</td><td>ALIA-MrBERT-es-legal-embeddings</td><td><a href="https://huggingface.co/SINAI/ALIA-MrBERT-es-legal-embeddings">https://huggingface.co/SINAI/ALIA-MrBERT-es-legal-embeddings</a></td><td><p>Modelo bi-encoder especializado en el dominio jurídico español, diseñado para tareas de similitud semántica y recuperación de información.</p><p>El modelo se basa en MrBERT-es y ha sido ajustado con datos específicos del ámbito jurídico y administrativo mediante una estrategia de aprendizaje curricular.</p></td></tr><tr><td>Modelo transformer  (español - patrimonio cultural)</td><td>ALIA-MrBERT-es-cultural-embeddings</td><td><a href="https://huggingface.co/SINAI/ALIA-MrBERT-es-cultural-embeddings">https://huggingface.co/SINAI/ALIA-MrBERT-es-cultural-embeddings</a></td><td><p>Modelo bi-encoder especializado en el dominio del patrimonio cultural español, diseñado para tareas de similitud semántica y recuperación de información.</p><p>El modelo se basa en MrBERT-es y ha sido ajustado con datos específicos del ámbito del patrimonio cultural mediante una estrategia de aprendizaje curricular.</p></td></tr><tr><td>Modelo transformer  (español - biomédico)</td><td>ALIA-MrBERT-es-biomedical-reranker</td><td><a href="https://huggingface.co/SINAI/ALIA-MrBERT-es-biomedical-reranker">https://huggingface.co/SINAI/ALIA-MrBERT-es-biomedical-reranker</a></td><td><p>Modelo cross-encoder especializado en el dominio jurídico español, diseñado como reranker para tareas de recuperación de información y ordenación de documentos.</p><p>El modelo se basa en MrBERT-es y ha sido ajustado con datos específicos del ámbito biomédico mediante una estrategia de aprendizaje curricular.</p></td></tr><tr><td>Modelo transformer  (español - jurídico)</td><td>ALIA-MrBERT-es-legal-reranker</td><td><a href="https://huggingface.co/SINAI/ALIA-MrBERT-es-legal-reranker">https://huggingface.co/SINAI/ALIA-MrBERT-es-legal-reranker</a></td><td><p>Modelo cross-encoder especializado en el dominio jurídico español, diseñado como reranker para tareas de recuperación de información y ordenación de documentos.</p><p>El modelo se basa en MrBERT-es y ha sido ajustado con datos específicos del ámbito jurídico y administrativo mediante una estrategia de aprendizaje curricular.</p></td></tr><tr><td>Modelo transformer  (español - patrimonio cultural)</td><td>ALIA-MrBERT-es-cultural-reranker</td><td><a href="https://huggingface.co/SINAI/ALIA-MrBERT-es-cultural-reranker">https://huggingface.co/SINAI/ALIA-MrBERT-es-cultural-reranker</a></td><td><p>Modelo cross-encoder especializado en el dominio del patrimonio cultural español, diseñado como reranker para tareas de recuperación de información y ordenación de documentos.</p><p>El modelo se basa en MrBERT-es y ha sido ajustado con datos específicos del ámbito del patrimonio cultural mediante una estrategia de aprendizaje curricular.</p></td></tr><tr><td>Modelo transformer  (español e inglés - propiedad intelectual)</td><td>Aitana-intellectual-property-mb-encoder</td><td><a href="https://huggingface.co/gplsi/Aitana-intellectual-property-mb-encoder">https://huggingface.co/gplsi/Aitana-intellectual-property-mb-encoder</a></td><td>Modelo ModernBERT-base preentrenado de forma continua con datos de propiedad intelectual en español e inglés. Este modelo encoder especializado está optimizado para la comprensión de textos relacionados con la propiedad intelectual.</td></tr></tbody></table>

### Adaptación de modelos para tareas específicas

<table data-view="cards"><thead><tr><th></th><th></th><th></th><th></th><th></th><th data-type="content-ref"></th><th></th><th></th></tr></thead><tbody><tr><td><sub>Descripción / Función</sub></td><td>Moderación de contenido</td><td><sub>Nombre modelo</sub></td><td>Salamandra-7b-instruct-guard</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/BSC-LT/salamandra-7b-instruct-guard">https://huggingface.co/BSC-LT/salamandra-7b-instruct-guard</a></td><td><sub>Comentarios</sub></td><td>Modelo de clasificación de seguridad diseñado para la moderación de contenido en catalán, español e inglés. Está construido sobre <a href="https://huggingface.co/BSC-LT/salamandra-7b-instruct">Salamandra-7b-Instruct</a>. </td></tr><tr><td><sub>Descripción / Función</sub></td><td>Detección de fraude</td><td><sub>Nombre modelo</sub></td><td>Aitana Enc Fraud Detection</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/gplsi/Aitana-FraudDetection-R-1.0">https://huggingface.co/gplsi/Aitana-FraudDetection-R-1.0</a></td><td><sub>Comentarios</sub></td><td>Modelo ajustado a partir de <a href="https://huggingface.co/BSC-LT/mRoBERTa">mRoBERTa</a> para la clasificación binaria de la detección de <em>phishing</em> en textos en inglés.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>Lenguaje claro</td><td><sub>Nombre modelo</sub></td><td>Aitana-ClearLangDetection-R-1.0</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/gplsi/Aitana-ClearLangDetection-R-1.0">https://huggingface.co/gplsi/Aitana-ClearLangDetection-R-1.0</a></td><td><sub>Comentarios</sub></td><td>Modelo ajustado a partir de <a href="https://huggingface.co/BSC-LT/mRoBERTa">mRoBERTa</a> para la tarea de clasificación de lenguaje claro en textos en español.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>Modelo adaptado al dominio</td><td><sub>Nombre modelo</sub></td><td>Aitana-tourism-mb-encoder-1.0</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/gplsi/Aitana-tourism-mb-encoder-1.0">https://huggingface.co/gplsi/Aitana-tourism-mb-encoder-1.0</a></td><td><sub>Comentarios</sub></td><td>Modelo <a href="https://huggingface.co/answerdotai/ModernBERT-base">ModernBERT-base </a>preentrenado de forma continua con datos del dominio del turismo en español y valenciano.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>Reconocimiento de entidades, preguntas y recuperación multilingüe (gallego y portugués)</td><td><sub>Nombre modelo</sub></td><td>MrBERT-nos-gl</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/proxectonos/MrBERT-nos-gl">https://huggingface.co/proxectonos/MrBERT-nos-gl</a></td><td><sub>Model card</sub></td><td>Modelo basado en <a href="https://huggingface.co/BSC-LT/MrBERT">BSC-LT/MrBERT</a> y adaptado al gallego mediante entrenamiento sobre <a href="https://huggingface.co/datasets/proxectonos/corpusnos">CorpusNÓS</a>. Mejora la representación del gallego y el portugués, y sirve para tareas como clasificación, reconocimiento de entidades, preguntas y recuperación multilingüe.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>Detección de entidades nombradas (gallego)</td><td><sub>Nombre modelo</sub></td><td>MrBERT-nos-gl-NER</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/proxectonos/MrBERT-nos-gl-NER">https://huggingface.co/proxectonos/MrBERT-nos-gl-NER</a></td><td><sub>Model card</sub></td><td>Versión ajustada de <a href="https://huggingface.co/proxectonos/MrBERT-nos-gl">MrBERT-nos-gl</a> para el reconocimiento de entidades nombradas (NER) en gallego, capaz de identificar cuatro tipos de entidades: PER, ORG, LOC, MISC.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>POS tagging (gallego)</td><td><sub>Nombre modelo</sub></td><td>MrBERT-nos-gl-POS</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/proxectonos/MrBERT-nos-gl-POS">https://huggingface.co/proxectonos/MrBERT-nos-gl-POS</a></td><td><sub>Model card</sub></td><td>Versión ajustada de <a href="https://huggingface.co/proxectonos/MrBERT-nos-gl">MrBERT-nos-gl</a> para el etiquetado morfosintáctico de categorías gramaticales (POS tagging) en gallego.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>Análisis de sentimiento (gallego)</td><td><sub>Nombre modelo</sub></td><td>MrBERT-nos-gl-sentiment</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/proxectonos/MrBERT-nos-gl-sentiment">https://huggingface.co/proxectonos/MrBERT-nos-gl-sentiment</a></td><td><sub>Model card</sub></td><td>Versión ajustada de <a href="https://huggingface.co/proxectonos/MrBERT-nos-gl">MrBERT-nos-gl</a> para el análisis de sentimiento en gallego, con clasificación en tres categorías: positivo, neutral y negativo.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>Clasificación temática de noticias (gallego)</td><td><sub>Nombre modelo</sub></td><td>MrBERT-nos-gl-thematic-press-classifier</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/proxectonos/MrBERT-nos-gl-thematic-press-classifier">https://huggingface.co/proxectonos/MrBERT-nos-gl-thematic-press-classifier</a></td><td><sub>Model card</sub></td><td>Versión ajustada de <a href="https://huggingface.co/proxectonos/MrBERT-nos-gl">MrBERT-nos-gl</a> para la clasificación temática de artículos de prensa en gallego según sus secciones editoriales.</td></tr><tr><td><sub>Descripción / Función</sub></td><td>Normalización (euskera)</td><td><sub>Nombre modelo</sub></td><td>marianmt-cap-punct-eu</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/HiTZ/cap-punct-eu">https://huggingface.co/HiTZ/cap-punct-eu</a></td><td><sub>Comentarios</sub></td><td>Modelo de traducción automática que sirve para capitalizar y puntuar texto normalizado en euskera. El modelo ha sido entrenado desde cero utilizando <a href="https://huggingface.co/docs/transformers/model_doc/marian">Marian NMT</a> y un dataset de 9.784.905 frases en euskera</td></tr><tr><td><sub>Descripción / Función</sub></td><td>Normalización (euskera)</td><td><sub>Nombre modelo</sub></td><td>marianmt-cap-punct-es</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/HiTZ/cap-punct-es">https://huggingface.co/HiTZ/cap-punct-es</a></td><td><sub>Comentarios</sub></td><td>Modelo de traducción automática que sirve para capitalizar y puntuar texto normalizado en español. El modelo ha sido entrenado desde cero utilizando <a href="https://huggingface.co/docs/transformers/model_doc/marian">Marian NMT</a> y un dataset de 9.784.905 frases en castellano.</td></tr></tbody></table>


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://langtech-bsc.gitbook.io/alia-kit/modelos/modelos-de-texto.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
