# Modelos de Voz

### Síntesis de voz

<table data-view="cards"><thead><tr><th>Descripció / Funció</th><th>Nom model</th><th data-type="content-ref">Model card</th><th>Comentaris</th><th data-hidden data-card-target data-type="content-ref"></th></tr></thead><tbody><tr><td>Síntesis de voz (español)</td><td>PL-BERT-es</td><td><a href="https://huggingface.co/BSC-LT/PL-BERT-es">https://huggingface.co/BSC-LT/PL-BERT-es</a></td><td>Encoder fonético para español con tokenización a nivel de palabra, arquitectura ALBERT y un vocabulario de aproximadamente 1,2 millones de tokens.</td><td></td></tr><tr><td>Síntesis de voz (español)</td><td>PL-BERT-wp-es</td><td><a href="https://huggingface.co/BSC-LT/PL-BERT-wp-es">https://huggingface.co/BSC-LT/PL-BERT-wp-es</a></td><td>Encoder fonético para español con tokenización a nivel de sub-palabra, arquitectura ALBERT y un vocabulario de aproximadamente 30.000 tokens.</td><td></td></tr><tr><td>Síntesis de voz (español)</td><td>ModernBERT-wp-es</td><td><a href="https://huggingface.co/BSC-LT/PL-ModernBERT-wp-es">https://huggingface.co/BSC-LT/PL-ModernBERT-wp-es</a></td><td>Encoder fonético para español con tokenización a nivel de sub-palabra, arquitectura ModernBERT y un vocabulario de aproximadamente 30.000 tokens.</td><td></td></tr><tr><td>Síntesis de voz (catalán)</td><td>matxa-tts-v2-ca-central-graphemes</td><td><a href="https://huggingface.co/BSC-LT/matxa-tts-v2-ca-central-graphemes">https://huggingface.co/BSC-LT/matxa-tts-v2-ca-central-graphemes</a></td><td>Modelo neuronal de texto a voz (TTS) multihablante en catalán que trabaja con grafemas. Funciona conjuntamente con un modelo de vocoder para generar voz expresiva y de alta calidad de manera eficiente. Puede utilizarse con cualquier vocoder, como 🥑 <a href="https://huggingface.co/projecte-aina/alvocat-vocos-22khz">alVoCat</a> o <a href="https://huggingface.co/BSC-LT/wavenext-mel">Wavenext</a>.</td><td></td></tr><tr><td>Síntesis de voz (catalán)</td><td>PL-BERT-ca</td><td><a href="https://huggingface.co/BSC-LT/PL-BERT-ca">https://huggingface.co/BSC-LT/PL-BERT-ca</a></td><td>Encoder fonético para catalán con tokenización a nivel de palabra, arquitectura ALBERT y un vocabulario de aproximadamente 1,1 millones de tokens.</td><td></td></tr><tr><td>Síntesis de voz (catalán)</td><td>PL-BERT-wp-ca</td><td><a href="https://huggingface.co/BSC-LT/PL-BERT-wp-ca">https://huggingface.co/BSC-LT/PL-BERT-wp-ca</a></td><td>Encoder fonético para catalán con tokenización a nivel de sub-palabra, arquitectura ALBERT y un vocabulario de aproximadamente 30.000 tokens.</td><td></td></tr><tr><td>Síntesis de voz (catalán)</td><td>ModernBERT-wp-ca</td><td><a href="https://huggingface.co/BSC-LT/PL-ModernBERT-wp-ca">https://huggingface.co/BSC-LT/PL-ModernBERT-wp-ca</a></td><td>Encoder fonético para catalán con tokenización a nivel de sub-palabra, arquitectura ModernBERT y un vocabulario de aproximadamente 30.000 tokens.</td><td></td></tr><tr><td>Síntesis de voz (gallego)</td><td>Nos_TTS-sabela-vits-phonemes</td><td><a href="https://huggingface.co/proxectonos/Nos_TTS-sabela-vits-phonemes">https://huggingface.co/proxectonos/Nos_TTS-sabela-vits-phonemes</a></td><td>Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería <a href="https://github.com/coqui-ai/TTS">Coqui TTS</a> a partir del corpus Sabela del dataset <a href="https://zenodo.org/records/8027725">CRPIH_UVigo-GL-Voices</a>. </td><td></td></tr><tr><td>Síntesis de voz (gallego)</td><td>Nos_TTS-icia-vits-phonemes</td><td><a href="https://huggingface.co/proxectonos/Nos_TTS-icia-vits-phonemes">https://huggingface.co/proxectonos/Nos_TTS-icia-vits-phonemes</a></td><td>Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería <a href="https://github.com/coqui-ai/TTS">Coqui TTS</a> a partir del corpus Icía del dataset <a href="https://zenodo.org/records/8027725">CRPIH_UVigo-GL-Voices</a>. </td><td></td></tr><tr><td>Síntesis de voz (gallego)</td><td>Nos_TTS-iago-vits-phonemes</td><td><a href="https://huggingface.co/proxectonos/Nos_TTS-iago-vits-phonemes">https://huggingface.co/proxectonos/Nos_TTS-iago-vits-phonemes</a></td><td>Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería <a href="https://github.com/coqui-ai/TTS">Coqui TTS</a> a partir del corpus Iago del dataset <a href="https://zenodo.org/records/8027725">CRPIH_UVigo-GL-Voices</a>. </td><td></td></tr><tr><td>Síntesis de voz (gallego)</td><td>Nos_TTS-paulo-vits-phonemes</td><td><a href="https://huggingface.co/proxectonos/Nos_TTS-paulo-vits-phonemes">https://huggingface.co/proxectonos/Nos_TTS-paulo-vits-phonemes</a></td><td>Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería <a href="https://github.com/coqui-ai/TTS">Coqui TTS</a> a partir del corpus Paulo del dataset <a href="https://zenodo.org/records/8027725">CRPIH_UVigo-GL-Voices</a>. </td><td></td></tr><tr><td>Síntesis de voz (gallego)</td><td>Nos_TTS-celtia-vits-phonemes</td><td><a href="https://huggingface.co/proxectonos/Nos_TTS-celtia-vits-phonemes">https://huggingface.co/proxectonos/Nos_TTS-celtia-vits-phonemes</a></td><td>Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería <a href="https://github.com/coqui-ai/TTS">Coqui TTS</a> a partir del corpus <a href="https://zenodo.org/record/7716958">Nos_Celtia-GL</a>. </td><td></td></tr><tr><td>Síntesis de voz (gallego)</td><td>Nos_TTS-brais-vits-phonemes</td><td><a href="https://huggingface.co/proxectonos/Nos_TTS-brais-vits-phonemes">https://huggingface.co/proxectonos/Nos_TTS-brais-vits-phonemes</a></td><td>Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería <a href="https://github.com/coqui-ai/TTS">Coqui TTS</a> a partir del corpus <a href="https://zenodo.org/records/14265241">Nos_Brais-GL</a>. </td><td></td></tr><tr><td>Síntesis de voz (gallego)</td><td>Nos _TTS-brais-vits-graphemes</td><td><a href="https://huggingface.co/proxectonos/Nos_TTS-brais-vits-graphemes">https://huggingface.co/proxectonos/Nos_TTS-brais-vits-graphemes</a></td><td>Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería <a href="https://github.com/coqui-ai/TTS">Coqui TTS</a> a partir del corpus <a href="https://zenodo.org/records/14265241">Nos_Brais-GL</a>. </td><td></td></tr><tr><td>Síntesis de voz (lenguas ibéricas)</td><td>HiTZ-TTS-Models collection</td><td><a href="https://huggingface.co/collections/HiTZ/tts">https://huggingface.co/collections/HiTZ/tts</a></td><td>Colección de 12 modelos de síntesis de voz en euskera (2), gallego (6), catalán (2), español (2), entrenados para el modelo VITS. Requiere el uso del script de síntesis de <a href="https://github.com/hitz-zentroa/aHoTTS">https://github.com/hitz-zentroa/aHoTTS</a></td><td></td></tr></tbody></table>

### Reconocimiento de voz

<table data-view="cards"><thead><tr><th>Descripció / Funció</th><th>Nom model</th><th data-type="content-ref">Model card</th><th>Comentaris</th><th data-hidden data-card-target data-type="content-ref"></th></tr></thead><tbody><tr><td>Reconocimiento de voz (español, catalán, gallego, euskera)</td><td>whisper-large-v3-LoS</td><td><a href="https://huggingface.co/BSC-LT/whisper-large-v3-LoS">https://huggingface.co/BSC-LT/whisper-large-v3-LoS</a></td><td>Modelo de reconocimiento de voz en español, catalán, gallego, euskera. Ha sido ajustado a partir de <a href="https://huggingface.co/openai/whisper-large-v3">openai/whisper-large-v3</a>, utilizando un total de 8.110 horas de datos previamente preprocesados.</td><td></td></tr><tr><td>Reconocimiento de voz (español, catalán, gallego, euskera)</td><td>whisper-large-v3-LoS-punctuated</td><td><a href="https://huggingface.co/BSC-LT/whisper-large-v3-LoS-punctuated">https://huggingface.co/BSC-LT/whisper-large-v3-LoS-punctuated</a></td><td>Modelo de reconocimiento de voz en español, catalán, gallego, euskera. Ha sido ajustado a partir de <a href="https://huggingface.co/openai/whisper-large-v3">openai/whisper-large-v3</a>, utilizando un total de 8.110 horas de datos previamente preprocesados.</td><td></td></tr><tr><td>Reconocimiento de voz (español, catalán, gallego, euskera)</td><td>stt_los_conformer_transducer_large</td><td><a href="https://huggingface.co/BSC-LT/stt_los_conformer_transducer_large">https://huggingface.co/BSC-LT/stt_los_conformer_transducer_large</a></td><td><p>Modelo acústico basado en “NVIDIA/stt_es_conformer_transducer_large”, optimizado para el reconocimiento automático multilingüe del habla en las lenguas de España (LoS).</p><p>El modelo genera transcripciones en minúsculas en los cuatro idiomas, respetando su alfabeto propio e incluyendo los espacios entre palabras. Se ha ajustado con un conjunto de datos multilingüe LoS de 2.700 horas.</p></td><td></td></tr><tr><td>Reconocimiento de voz (español, catalán, gallego, euskera)</td><td>stt_los_conformer_transducer_large_punctuated</td><td><a href="https://huggingface.co/BSC-LT/stt_los_conformer_transducer_large_punctuated">https://huggingface.co/BSC-LT/stt_los_conformer_transducer_large_punctuated</a></td><td><p>Modelo acústico basado en “NVIDIA/stt_es_conformer_transducer_large”, optimizado para el reconocimiento automático multilingüe del habla en las lenguas de España (LoS).</p><p>El modelo genera transcripciones en minúsculas en los cuatro idiomas, respetando su alfabeto propio  e incorporando signos de puntuación. Se ha ajustado con un conjunto de datos multilingüe LoS de 2.700 horas.</p></td><td></td></tr><tr><td>Reconocimiento de voz (español, catalán, gallego, euskera)</td><td>hubert-base-los-2k</td><td><a href="https://huggingface.co/BSC-LT/hubert-base-los-2k">https://huggingface.co/BSC-LT/hubert-base-los-2k</a></td><td>Modelo HuBERT Base preentrenado con 2.000 horas de datos de voz en lenguas ibéricas (español, catalán, euskera y gallego). La arquitectura del modelo es la misma que la del <a href="https://huggingface.co/facebook/hubert-base-ls960">HuBERT Base original</a>.</td><td></td></tr><tr><td>Reconocimiento de voz (catalán-español)</td><td>stt_ca-es_conformer_transducer_large</td><td><a href="https://huggingface.co/projecte-aina/stt_ca-es_conformer_transducer_large">https://huggingface.co/projecte-aina/stt_ca-es_conformer_transducer_large</a></td><td>Modelo de reconocimiento de voz derivado de <a href="https://huggingface.co/nvidia/stt_es_conformer_transducer_large">NVIDIA/stt_es_conformer_transducer_large</a>, ajustado mediante un corpus bilingüe catalán-español compuesto por 7.426 horas de audio.</td><td></td></tr><tr><td>Reconocimiento de voz (euskera-español)</td><td>stt_eseu_conformer_transducer_large</td><td><a href="https://huggingface.co/HiTZ/stt_eseu_conformer_transducer_large">https://huggingface.co/HiTZ/stt_eseu_conformer_transducer_large</a></td><td>Modelo de reconocimiento de voz derivado a partir del modelo preentrenado <a href="https://huggingface.co/HiTZ/BBS-S2TC_conformer_transducer_large">BBS-S2TC_conformer_transducer_large</a>, entrenado con un corpus de 1.366,18 horas de grabaciones en euskera, español y habla bilingüe con eventos de <em>code-switching</em>.</td><td></td></tr><tr><td>Reconocimiento de voz (euskera-español)</td><td>BBS-S2TC_conformer_transducer_large</td><td><a href="https://huggingface.co/HiTZ/BBS-S2TC_conformer_transducer_large">https://huggingface.co/HiTZ/BBS-S2TC_conformer_transducer_large</a></td><td>Modelo de reconocimiento de voz entrenado con 1.462 horas de audio en español y euskera. Se obtuvo mediante un proceso de ajuste del modelo vasco preentrenado <a href="https://huggingface.co/HiTZ/stt_eu_conformer_transducer_large"><em>stt_eu_conformer_transducer_large</em></a><em>,</em> utilizabdo el <a href="https://github.com/NVIDIA-NeMo/NeMo">toolkit Nvidia NeMo</a>. </td><td></td></tr><tr><td>Reconocimiento de voz (español)</td><td>spanish-verification-model-pkt-a</td><td><a href="https://huggingface.co/BSC-LT/spanish-verification-model-pkt-a">https://huggingface.co/BSC-LT/spanish-verification-model-pkt-a</a></td><td>Modelo de verificación, basado en <a href="/users/hVFuNmnAkdYh2koa8IfCY68laDI2">nvidia/parakeet-rnnt-1.1b</a> diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo <a href="https://huggingface.co/BSC-LT/spanish-verification-model-pkt-b">spanish-verification-model-pkt-b</a> para realizar verificación cruzada y aumentar la confianza en las transcripciones.</td><td></td></tr><tr><td>Reconocimiento de voz (español)</td><td>spanish-verification-model-pkt-b</td><td><a href="https://huggingface.co/BSC-LT/spanish-verification-model-pkt-b">https://huggingface.co/BSC-LT/spanish-verification-model-pkt-b</a></td><td>Modelo de verificación, basado en <a href="/users/hVFuNmnAkdYh2koa8IfCY68laDI2">nvidia/parakeet-rnnt-1.1b</a> diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo <a href="https://huggingface.co/nvidia/parakeet-rnnt-1.1b">spanish-verification-model-pkt-a</a> para realizar verificación cruzada y aumentar la confianza en las transcripciones.</td><td></td></tr><tr><td>Reconocimiento de voz (español)</td><td>spanish-verification-model-pkt-c</td><td><a href="https://huggingface.co/BSC-LT/spanish-verification-model-pkt-c">https://huggingface.co/BSC-LT/spanish-verification-model-pkt-c</a></td><td>Modelo de verificación, basado en <a href="/users/hVFuNmnAkdYh2koa8IfCY68laDI2">nvidia/parakeet-rnnt-1.1b</a> diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo <a href="https://huggingface.co/BSC-LT/spanish-verification-model-pkt-d">spanish-verification-model-pkt-d</a> para realizar verificación cruzada y aumentar la confianza en las transcripciones.</td><td></td></tr><tr><td>Reconocimiento de voz (español)</td><td>spanish-verification-model-pkt-d</td><td><a href="https://huggingface.co/BSC-LT/spanish-verification-model-pkt-d">https://huggingface.co/BSC-LT/spanish-verification-model-pkt-d</a></td><td>Modelo de verificación, basado en <a href="/users/hVFuNmnAkdYh2koa8IfCY68laDI2">nvidia/parakeet-rnnt-1.1b</a> diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo <a href="https://huggingface.co/BSC-LT/spanish-verification-model-pkt-c">spanish-verification-model-pkt-c</a> para realizar verificación cruzada y aumentar la confianza en las transcripciones.</td><td></td></tr><tr><td>Reconocimiento de voz (español)</td><td>parakeet-rnnt-1.1b_cv17_es_ep18_1270h</td><td><a href="https://huggingface.co/projecte-aina/parakeet-rnnt-1.1b_cv17_es_ep18_1270h">https://huggingface.co/projecte-aina/parakeet-rnnt-1.1b_cv17_es_ep18_1270h</a></td><td>Modelo acústico derivado de <a href="https://huggingface.co/nvidia/parakeet-rnnt-1.1b">nvidia/parakeet-rnnt-1.1b</a>, optimizado para tareas de reconocimiento automático de voz en español.</td><td></td></tr><tr><td>Diarización de hablantes (español)</td><td>pyannote-segmentation-3.0-RTVE</td><td><a href="https://huggingface.co/HiTZ/pyannote-segmentation-3.0-RTVE">https://huggingface.co/HiTZ/pyannote-segmentation-3.0-RTVE</a></td><td>Tres modelos ajustados, que se combinan mediante <a href="https://github.com/desh2608/dover-lap">DOVER-Lap</a>. Cada modelo ha sido ajustado para optimizar un componente específico de la tasa de error de diarización: falsas alarmas, detecciones omitidas y confusión de hablante. Cada uno de los modelos es una versión afinada de <a href="https://huggingface.co/pyannote/segmentation-3.0"><em>pyannote/segmentation-3.0</em></a> , entrenada sobre la <a href="https://catedrartve.unizar.es/rtvedatabase.html">base de datos de RTVE</a>.</td><td></td></tr><tr><td>Reconocimiento de voz (catalán)</td><td>faster-whisper-bsc-large-v3-cat</td><td><a href="https://huggingface.co/BSC-LT/faster-whisper-bsc-large-v3-cat">https://huggingface.co/BSC-LT/faster-whisper-bsc-large-v3-cat</a></td><td>Modelo de reconocimiento de voz, resultado de convertir el modelo <a href="https://huggingface.co/BSC-LT/whisper-bsc-large-v3-cat">whisper-bsc-large-v3-cat </a>en un modelo más ligero con <a href="https://github.com/SYSTRAN/faster-whisper/tree/master">faster-whisper</a>.</td><td></td></tr><tr><td>Reconocimiento de voz (catalán)</td><td>whisper-bsc-large-v3-cat</td><td><a href="https://huggingface.co/BSC-LT/whisper-bsc-large-v3-cat">https://huggingface.co/BSC-LT/whisper-bsc-large-v3-cat</a></td><td>Modelo de reconocimiento de voz en catalán, optimizado a partir del modelo <a href="https://huggingface.co/openai/whisper-large-v3">whisper-large-v3 </a>con 4.700 horas de grabaciones en catalán. El modelo está diseñado para transcribir audio en catalán a texto plano, sin signos de puntuación.</td><td></td></tr><tr><td>Reconocimiento de voz (valenciano)</td><td>faster-whisper-3cat-cv21-valencian</td><td><a href="https://huggingface.co/BSC-LT/faster-whisper-3cat-cv21-valencian">https://huggingface.co/BSC-LT/faster-whisper-3cat-cv21-valencian</a></td><td>Modelo de reconocimiento de voz, resultado de convertir el modelo <a href="https://huggingface.co/BSC-LT/whisper-3cat-cv21-valencian">whisper-3cat-cv21-valencian</a> en un modelo más ligero con <a href="https://github.com/SYSTRAN/faster-whisper/tree/master">faster-whisper</a>.</td><td></td></tr><tr><td>Reconocimiento de voz (valenciano)</td><td>whisper-3cat-cv21-valencian</td><td><a href="https://huggingface.co/BSC-LT/whisper-3cat-cv21-valencian">https://huggingface.co/BSC-LT/whisper-3cat-cv21-valencian</a></td><td>Modelo de reconocimiento de voz en valenciano, optimizado a partir del modelo <a href="https://huggingface.co/openai/whisper-large-v3">whisper-large-v3 </a>con 397 horas y 55 minutos de grabaciones.</td><td></td></tr><tr><td>Reconocimiento de voz (balear)</td><td>faster-whisper-3cat-balearic</td><td><a href="https://huggingface.co/BSC-LT/faster-whisper-3cat-balearic">https://huggingface.co/BSC-LT/faster-whisper-3cat-balearic</a></td><td>Modelo de reconocimiento de voz, resultado de convertir el modelo <a href="https://huggingface.co/BSC-LT/whisper-3cat-balearic">whisper-3cat-balearic</a> en un modelo más ligero con <a href="https://github.com/SYSTRAN/faster-whisper/tree/master">faster-whisper</a>.</td><td></td></tr><tr><td>Reconocimiento de voz (balear)</td><td>whisper-3cat-balearic</td><td><a href="https://huggingface.co/BSC-LT/whisper-3cat-balearic">https://huggingface.co/BSC-LT/whisper-3cat-balearic</a></td><td>Modelo de reconocimiento de voz en balear, optimizado a partir del modelo <a href="https://huggingface.co/openai/whisper-large-v3">whisper-large-v3 </a>con 90 horas de grabaciones.</td><td></td></tr><tr><td>Reconocimiento de voz (euskera)</td><td>stt_eu_conformer_ctc_large</td><td><a href="https://huggingface.co/HiTZ/stt_eu_conformer_ctc_large">https://huggingface.co/HiTZ/stt_eu_conformer_ctc_large</a></td><td>Este modelo realiza la transcripción automática de habla en euskera utilizando el alfabeto vasco en minúsculas, incluyendo la segmentación por espacios. Ha sido entrenado con un conjunto de 548 horas de audio en euskera y posteriormente ajustado a partir del modelo español preentrenado <a href="https://catalog.ngc.nvidia.com/orgs/nvidia/teams/nemo/models/stt_es_conformer_ctc_large?version=1.8.0"><em>stt_es_conformer_ctc_large</em></a> mediante el <a href="https://github.com/NVIDIA-NeMo/NeMo">toolkit Nvidia NeMo</a>. </td><td></td></tr><tr><td>Reconocimiento de voz (euskera)</td><td>stt_eu_conformer_transducer_large_v2</td><td><a href="https://huggingface.co/HiTZ/stt_eu_conformer_transducer_large_v2">https://huggingface.co/HiTZ/stt_eu_conformer_transducer_large_v2</a></td><td>Este modelo realiza la transcripción automática de habla en euskera utilizando el alfabeto vasco en minúsculas, incluyendo la segmentación por espacios. Ha sido entrenado con un conjunto de 771,73 horas de audio en euskera y posteriormente ajustado a partir del modelo español preentrenado <a href="https://catalog.ngc.nvidia.com/orgs/nvidia/teams/nemo/models/stt_es_conformer_transducer_large">stt_es_conformer_transducer_large</a> mediante el <a href="https://github.com/NVIDIA-NeMo/NeMo">toolkit Nvidia NeMo</a>. </td><td></td></tr><tr><td>Reconocimiento de voz (euskera)</td><td>stt_eu_conformer_transducer_large</td><td><a href="https://huggingface.co/HiTZ/stt_eu_conformer_transducer_large">https://huggingface.co/HiTZ/stt_eu_conformer_transducer_large</a></td><td>Este modelo realiza la transcripción automática de habla en euskera utilizando el alfabeto vasco en minúsculas, incluyendo la segmentación por espacios. Ha sido entrenado con un conjunto de 548 horas de audio en euskera y posteriormente ajustado a partir del modelo español preentrenado <a href="https://catalog.ngc.nvidia.com/orgs/nvidia/teams/nemo/models/stt_es_conformer_transducer_large?version=1.8.0"><em>stt_es_conformer_transducer_large</em></a> utilizando el <a href="https://github.com/NVIDIA-NeMo/NeMo">toolkit Nvidia NeMo</a>. </td><td></td></tr><tr><td>Reconocimiento de voz (euskera)</td><td>whisper-tiny-eu</td><td><a href="https://huggingface.co/HiTZ/whisper-tiny-eu">https://huggingface.co/HiTZ/whisper-tiny-eu</a></td><td>Modelo de reconocimiento de voz en euskera. Ha sido ajustado a partir de <a href="https://huggingface.co/openai/whisper-tiny">openai/whisper-tiny</a>, utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.</td><td></td></tr><tr><td>Reconocimiento de voz (euskera)</td><td>whisper-small-eu</td><td><a href="https://huggingface.co/HiTZ/whisper-small-eu">https://huggingface.co/HiTZ/whisper-small-eu</a></td><td>Modelo de reconocimiento de voz en euskera. Ha sido ajustado a partir de <a href="https://huggingface.co/openai/whisper-small">openai/whisper-small</a>, utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.</td><td></td></tr><tr><td>Reconocimiento de voz (euskera)</td><td>whisper-medium-eu</td><td><a href="https://huggingface.co/HiTZ/whisper-medium-eu">https://huggingface.co/HiTZ/whisper-medium-eu</a></td><td>Modelo de reconocimiento de voz en euskera. Ha sido ajustado a partir de <a href="https://huggingface.co/openai/whisper-medium">openai/whisper-medium</a>, utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.</td><td></td></tr><tr><td>Reconocimiento de voz (euskera)</td><td>whisper-base-eu</td><td><a href="https://huggingface.co/HiTZ/whisper-base-eu">https://huggingface.co/HiTZ/whisper-base-eu</a></td><td>Modelo de reconocimiento de voz en euskera. Ha sido ajustado a partir de <a href="https://huggingface.co/openai/whisper-base">openai/whisper-base</a>, utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.</td><td></td></tr><tr><td>Reconocimiento de voz (euskera)</td><td>whisper-large-eu</td><td><a href="https://huggingface.co/HiTZ/whisper-large-eu">https://huggingface.co/HiTZ/whisper-large-eu</a></td><td>Modelo de reconocimiento de voz en euskera. Ha sido ajustado a partir de <a href="https://huggingface.co/openai/whisper-large">openai/whisper-large</a>, utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.</td><td></td></tr><tr><td>Reconocimiento de voz (euskera)</td><td>whisper-large-v2-eu</td><td><a href="https://huggingface.co/HiTZ/whisper-large-v2-eu">https://huggingface.co/HiTZ/whisper-large-v2-eu</a></td><td>Modelo de reconocimiento de voz en euskera. Ha sido ajustado a partir de <a href="https://huggingface.co/openai/whisper-large-v2">openai/whisper-large-v2</a>, utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.</td><td></td></tr><tr><td>Reconocimiento de voz (euskera)</td><td>whisper-large-v3-eu</td><td><a href="https://huggingface.co/HiTZ/whisper-large-v3-eu">https://huggingface.co/HiTZ/whisper-large-v3-eu</a></td><td>Modelo de reconocimiento de voz en euskera. Ha sido ajustado a partir de <a href="https://huggingface.co/openai/whisper-large-v3">openai/whisper-large-v3</a>, utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.</td><td></td></tr></tbody></table>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://langtech-bsc.gitbook.io/alia-kit/modelos/modelos-de-voz.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
