🗣️Modelos de Voz

Síntesis de voz

Descripció / Funció

Síntesis de voz (español, catalán, gallego y euskera)

Nom model

whisper-large-v3-LoS

Comentaris

Modelo acústico basado en NVIDIA/stt_es_conformer_transducer_largearrow-up-right, diseñado para el reconocimiento automático del habla multilingüe en español, catalán, gallego y euskera. El modelo permite transcribir el habla en los alfabetos propios de estas lenguas, incorporando además la puntuación. Ha sido adaptado mediante fine-tuning sobre un conjunto de datos multilingüe con un total de 2.700 horas de audio.

Se trata de una variante large basada en la arquitectura Conformer-Transducer, con aproximadamente 120 millones de parámetros.

Descripció / Funció

Síntesis de voz (español, catalán, gallego y euskera)

Nom model

stt_los_conformer_transducer_large_punctuated

Comentaris

Modelo acústico basado en NVIDIA/stt_es_conformer_transducer_largearrow-up-right, diseñado para el reconocimiento automático del habla multilingüe en español, catalán, gallego y euskera. El modelo permite transcribir el habla en los alfabetos propios de estas lenguas, incorporando además la puntuación. Ha sido adaptado mediante fine-tuning sobre un conjunto de datos multilingüe con un total de 2.700 horas de audio.

Se trata de una variante large basada en la arquitectura Conformer-Transducer, con aproximadamente 120 millones de parámetros.

Descripció / Funció

Síntesis de voz (español)

Nom model

PL-BERT-es

Comentaris

Encoder fonético para español con tokenización a nivel de palabra, arquitectura ALBERT y un vocabulario de aproximadamente 1,2 millones de tokens.

Descripció / Funció

Síntesis de voz (español)

Nom model

PL-BERT-wp-es

Comentaris

Encoder fonético para español con tokenización a nivel de sub-palabra, arquitectura ALBERT y un vocabulario de aproximadamente 30.000 tokens.

Descripció / Funció

Síntesis de voz (español)

Nom model

ModernBERT-wp-es

Comentaris

Encoder fonético para español con tokenización a nivel de sub-palabra, arquitectura ModernBERT y un vocabulario de aproximadamente 30.000 tokens.

Descripció / Funció

Síntesis de voz (catalán)

Nom model

PL-BERT-ca

Comentaris

Encoder fonético para catalán con tokenización a nivel de palabra, arquitectura ALBERT y un vocabulario de aproximadamente 1,1 millones de tokens.

Descripció / Funció

Síntesis de voz (catalán)

Nom model

PL-BERT-wp-ca

Comentaris

Encoder fonético para catalán con tokenización a nivel de sub-palabra, arquitectura ALBERT y un vocabulario de aproximadamente 30.000 tokens.

Descripció / Funció

Síntesis de voz (catalán)

Nom model

ModernBERT-wp-ca

Comentaris

Encoder fonético para catalán con tokenización a nivel de sub-palabra, arquitectura ModernBERT y un vocabulario de aproximadamente 30.000 tokens.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-sabela-vits-phonemes

Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTSarrow-up-right a partir del corpus Sabela del dataset CRPIH_UVigo-GL-Voicesarrow-up-right.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-icia-vits-phonemes

Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTSarrow-up-right a partir del corpus Icía del dataset CRPIH_UVigo-GL-Voicesarrow-up-right.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-iago-vits-phonemes

Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTSarrow-up-right a partir del corpus Iago del dataset CRPIH_UVigo-GL-Voicesarrow-up-right.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-paulo-vits-phonemes

Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTSarrow-up-right a partir del corpus Paulo del dataset CRPIH_UVigo-GL-Voicesarrow-up-right.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-celtia-vits-phonemes

Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTSarrow-up-right a partir del corpus Nos_Celtia-GLarrow-up-right.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-brais-vits-phonemes

Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTSarrow-up-right a partir del corpus Nos_Brais-GLarrow-up-right.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos _TTS-brais-vits-graphemes

Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTSarrow-up-right a partir del corpus Nos_Brais-GLarrow-up-right.

Descripció / Funció

Síntesis de voz (lenguas ibéricas)

Nom model

HiTZ-TTS-Models collection

Comentaris

Colección de 12 modelos de síntesis de voz en euskera (2), gallego (6), catalán (2), español (2), entrenados para el modelo VITS. Requiere el uso del script de síntesis de https://github.com/hitz-zentroa/aHoTTSarrow-up-right

Reconocimiento de voz

Descripció / Funció

Reconocimiento de voz (español, catalán, gallego, euskera)

Nom model

whisper-large-v3-LoS

Comentaris

Modelo de reconocimiento de voz en español, catalán, gallego, euskera. Ha sido ajustado a partir de openai/whisper-large-v3arrow-up-right, utilizando un total de 8.110 horas de datos previamente preprocesados.

Descripció / Funció

Reconocimiento de voz (español, catalán, gallego, euskera)

Nom model

whisper-large-v3-LoS-punctuated

Comentaris

Modelo de reconocimiento de voz en español, catalán, gallego, euskera. Ha sido ajustado a partir de openai/whisper-large-v3arrow-up-right, utilizando un total de 8.110 horas de datos previamente preprocesados.

Descripció / Funció

Reconocimiento de voz (español, catalán, gallego, euskera)

Nom model

hubert-base-los-2k

Comentaris

Modelo HuBERT Base preentrenado con 2.000 horas de datos de voz en lenguas ibéricas (español, catalán, euskera y gallego). La arquitectura del modelo es la misma que la del HuBERT Base originalarrow-up-right.

Descripció / Funció

Reconocimiento de voz (catalán-español)

Nom model

stt_ca-es_conformer_transducer_large

Comentaris

Modelo de reconocimiento de voz derivado de NVIDIA/stt_es_conformer_transducer_largearrow-up-right, ajustado mediante un corpus bilingüe catalán-español compuesto por 7.426 horas de audio.

Descripció / Funció

Reconocimiento de voz (euskera-español)

Nom model

stt_eseu_conformer_transducer_large

Comentaris

Modelo de reconocimiento de voz derivado a partir del modelo preentrenado BBS-S2TC_conformer_transducer_largearrow-up-right, entrenado con un corpus de 1.366,18 horas de grabaciones en euskera, español y habla bilingüe con eventos de code-switching.

Descripció / Funció

Reconocimiento de voz (euskera-español)

Nom model

BBS-S2TC_conformer_transducer_large

Comentaris

Modelo de reconocimiento de voz entrenado con 1.462 horas de audio en español y euskera. Se obtuvo mediante un proceso de ajuste del modelo vasco preentrenado stt_eu_conformer_transducer_largearrow-up-right, utilizabdo el toolkit Nvidia NeMoarrow-up-right.

Descripció / Funció

Reconocimiento de voz (español)

Nom model

spanish-verification-model-pkt-a

Comentaris

Modelo de verificación, basado en nvidia/parakeet-rnnt-1.1benvelope diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-barrow-up-right para realizar verificación cruzada y aumentar la confianza en las transcripciones.

Descripció / Funció

Reconocimiento de voz (español)

Nom model

spanish-verification-model-pkt-b

Comentaris

Modelo de verificación, basado en nvidia/parakeet-rnnt-1.1benvelope diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-aarrow-up-right para realizar verificación cruzada y aumentar la confianza en las transcripciones.

Descripció / Funció

Reconocimiento de voz (español)

Nom model

spanish-verification-model-pkt-c

Comentaris

Modelo de verificación, basado en nvidia/parakeet-rnnt-1.1benvelope diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-darrow-up-right para realizar verificación cruzada y aumentar la confianza en las transcripciones.

Descripció / Funció

Reconocimiento de voz (español)

Nom model

spanish-verification-model-pkt-d

Comentaris

Modelo de verificación, basado en nvidia/parakeet-rnnt-1.1benvelope diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-carrow-up-right para realizar verificación cruzada y aumentar la confianza en las transcripciones.

Descripció / Funció

Reconocimiento de voz (español)

Nom model

parakeet-rnnt-1.1b_cv17_es_ep18_1270h

Comentaris

Modelo acústico derivado de nvidia/parakeet-rnnt-1.1barrow-up-right, optimizado para tareas de reconocimiento automático de voz en español.

Descripció / Funció

Diarización de hablantes (español)

Nom model

pyannote-segmentation-3.0-RTVE

Comentaris

Tres modelos ajustados, que se combinan mediante DOVER-Laparrow-up-right. Cada modelo ha sido ajustado para optimizar un componente específico de la tasa de error de diarización: falsas alarmas, detecciones omitidas y confusión de hablante. Cada uno de los modelos es una versión afinada de pyannote/segmentation-3.0arrow-up-right , entrenada sobre la base de datos de RTVEarrow-up-right.

Descripció / Funció

Reconocimiento de voz (catalán)

Nom model

faster-whisper-bsc-large-v3-cat

Comentaris

Modelo de reconocimiento de voz, resultado de convertir el modelo whisper-bsc-large-v3-cat arrow-up-righten un modelo más ligero con faster-whisperarrow-up-right.

Descripció / Funció

Reconocimiento de voz (catalán)

Nom model

whisper-bsc-large-v3-cat

Comentaris

Modelo de reconocimiento de voz en catalán, optimizado a partir del modelo whisper-large-v3 arrow-up-rightcon 4.700 horas de grabaciones en catalán. El modelo está diseñado para transcribir audio en catalán a texto plano, sin signos de puntuación.

Descripció / Funció

Reconocimiento de voz (valenciano)

Nom model

faster-whisper-3cat-cv21-valencian

Comentaris

Modelo de reconocimiento de voz, resultado de convertir el modelo whisper-3cat-cv21-valencianarrow-up-right en un modelo más ligero con faster-whisperarrow-up-right.

Descripció / Funció

Reconocimiento de voz (valenciano)

Nom model

whisper-3cat-cv21-valencian

Comentaris

Modelo de reconocimiento de voz en valenciano, optimizado a partir del modelo whisper-large-v3 arrow-up-rightcon 397 horas y 55 minutos de grabaciones.

Descripció / Funció

Reconocimiento de voz (balear)

Nom model

faster-whisper-3cat-balearic

Comentaris

Modelo de reconocimiento de voz, resultado de convertir el modelo whisper-3cat-balearicarrow-up-right en un modelo más ligero con faster-whisperarrow-up-right.

Descripció / Funció

Reconocimiento de voz (balear)

Nom model

whisper-3cat-balearic

Comentaris

Modelo de reconocimiento de voz en balear, optimizado a partir del modelo whisper-large-v3 arrow-up-rightcon 90 horas de grabaciones.

Descripció / Funció

Reconocimiento de voz (euskera)

Nom model

stt_eu_conformer_ctc_large

Comentaris

Este modelo realiza la transcripción automática de habla en euskera utilizando el alfabeto vasco en minúsculas, incluyendo la segmentación por espacios. Ha sido entrenado con un conjunto de 548 horas de audio en euskera y posteriormente ajustado a partir del modelo español preentrenado stt_es_conformer_ctc_largearrow-up-right mediante el toolkit Nvidia NeMoarrow-up-right.

Descripció / Funció

Reconocimiento de voz (euskera)

Nom model

stt_eu_conformer_transducer_large_v2

Comentaris

Este modelo realiza la transcripción automática de habla en euskera utilizando el alfabeto vasco en minúsculas, incluyendo la segmentación por espacios. Ha sido entrenado con un conjunto de 771,73 horas de audio en euskera y posteriormente ajustado a partir del modelo español preentrenado stt_es_conformer_transducer_largearrow-up-right mediante el toolkit Nvidia NeMoarrow-up-right.

Descripció / Funció

Reconocimiento de voz (euskera)

Nom model

stt_eu_conformer_transducer_large

Comentaris

Este modelo realiza la transcripción automática de habla en euskera utilizando el alfabeto vasco en minúsculas, incluyendo la segmentación por espacios. Ha sido entrenado con un conjunto de 548 horas de audio en euskera y posteriormente ajustado a partir del modelo español preentrenado stt_es_conformer_transducer_largearrow-up-right utilizando el toolkit Nvidia NeMoarrow-up-right.

Descripció / Funció

Reconocimiento de voz (euskera)

Nom model

whisper-tiny-eu

Comentaris

Modelo de reconocimiento de voz en euskera. Ha sido ajustado a partir de openai/whisper-tinyarrow-up-right, utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.

Descripció / Funció

Reconocimiento de voz (euskera)

Nom model

whisper-small-eu

Comentaris

Modelo de reconocimiento de voz en euskera. Ha sido ajustado a partir de openai/whisper-smallarrow-up-right, utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.

Descripció / Funció

Reconocimiento de voz (euskera)

Nom model

whisper-medium-eu

Comentaris

Modelo de reconocimiento de voz en euskera. Ha sido ajustado a partir de openai/whisper-mediumarrow-up-right, utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.

Descripció / Funció

Reconocimiento de voz (euskera)

Nom model

whisper-base-eu

Comentaris

Modelo de reconocimiento de voz en euskera. Ha sido ajustado a partir de openai/whisper-basearrow-up-right, utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.

Descripció / Funció

Reconocimiento de voz (euskera)

Nom model

whisper-large-eu

Comentaris

Modelo de reconocimiento de voz en euskera. Ha sido ajustado a partir de openai/whisper-largearrow-up-right, utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.

Descripció / Funció

Reconocimiento de voz (euskera)

Nom model

whisper-large-v2-eu

Comentaris

Modelo de reconocimiento de voz en euskera. Ha sido ajustado a partir de openai/whisper-large-v2arrow-up-right, utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.

Descripció / Funció

Reconocimiento de voz (euskera)

Nom model

whisper-large-v3-eu

Comentaris

Modelo de reconocimiento de voz en euskera. Ha sido ajustado a partir de openai/whisper-large-v3arrow-up-right, utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.

Última actualización