# Modelos multimodales

<table data-view="cards"><thead><tr><th>Descripción / Función</th><th>Nombre modelo</th><th data-type="content-ref">Model card</th><th>Comentario</th></tr></thead><tbody><tr><td>LLM especializado en imágenes y videos</td><td>Salamandra-VL-7B-2512</td><td><a href="https://huggingface.co/BSC-LT/Salamandra-VL-7B-2512">https://huggingface.co/BSC-LT/Salamandra-VL-7B-2512</a></td><td>Nueva versión de la familia de modelos de visión Salamandra y presenta importantes mejoras en su arquitectura y entrenamiento. Incorpora un codificador de imágenes <a href="https://huggingface.co/google/siglip2-giant-opt-patch16-384">SigLIP 2 Giant</a>, utiliza la base de <a href="https://huggingface.co/BSC-LT/salamandra-7b">Salamandra 7B</a> ajustada con datos de instrucciones recientes y un enfoque especial en lenguas europeas, y mejora su comprensión visual gracias a la integración de los conjuntos de datos <a href="https://huggingface.co/collections/allenai/pixmo">PixMo</a>, que refuerzan el anclaje visual preciso y las capacidades de conteo.</td></tr><tr><td>LLM especializado en imágenes y videos</td><td>salamandra-7b-vision</td><td><a href="https://huggingface.co/BSC-LT/salamandra-7b-vision">https://huggingface.co/BSC-LT/salamandra-7b-vision</a></td><td>Modelo salamandra-7b adaptado para el procesamiento de imágenes y videos.</td></tr><tr><td>Traducción de voz a texto</td><td>SalamandraTAV-7b</td><td><a href="https://huggingface.co/BSC-LT/salamandra-TAV-7b">https://huggingface.co/BSC-LT/salamandra-TAV-7b</a></td><td>Versión ajustada de <a href="https://huggingface.co/BSC-LT/salamandraTA-7b-instruct">salamandraTA-7b-instruct</a>, que utiliza <a href="https://huggingface.co/slprl/mhubert-base-25hz">mhubert-base-25hz</a> como codificador de voz. Ha sido entrenado con 12.000 horas de datos de reconocimiento de voz, 900 horas de datos de traducción de voz a texto y 113 millones de <em>tokens</em> de traducción de texto a texto para mantener el rendimiento del modelo original.</td></tr><tr><td>Modelo multimodal y muiltilingüe instruido</td><td>Latxa Qwen-3 VL 2B</td><td><a href="https://huggingface.co/HiTZ/Latxa-Qwen3-VL-2B-Instruct">https://huggingface.co/HiTZ/Latxa-Qwen3-VL-2B-Instruct</a></td><td><p>Modelo multimodal y multilingüe instruido, adaptado al euskera y construido sobre <a href="https://huggingface.co/Qwen/Qwen3-VL-2B-Instruct">Qwen3-VL-2B-Instruct</a>.</p><p>EL modelo ha sido entrenado con un corpus en euskera de 4,3 millones de documentos, así como un corpus de tamaño equivalente en Catalán y Gallego.</p></td></tr><tr><td>Modelo multimodal y muiltilingüe instruido</td><td>Latxa Qwen-3 VL 4B</td><td><a href="https://huggingface.co/HiTZ/Latxa-Qwen3-VL-4B-Instruct">https://huggingface.co/HiTZ/Latxa-Qwen3-VL-4B-Instruct</a></td><td><p>Modelo multimodal y multilingüe instruido, adaptado al euskera y construido sobre <a href="https://huggingface.co/Qwen/Qwen3-VL-4B-Instruct">Qwen3-VL-4B-Instruct</a>.</p><p>EL modelo ha sido entrenado con un corpus en euskera de 4,3 millones de documentos, así como un corpus de tamaño equivalente en Catalán y Gallego.</p></td></tr></tbody></table>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://langtech-bsc.gitbook.io/alia-kit/modelos/modelos-multimodales.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
