🗣️Modelos de Voz
Síntesis de voz
Síntesis de voz (español)
PL-BERT-es
Modelo de lenguaje enmascarado a nivel de fonemas, entrenado con texto en español que abarca diversos acentos regionales. Basado en la arquitectura PL-BERT
Síntesis de voz (español)
PL-BERT-wp-es
Modelo de lenguaje enmascarado a nivel de fonemas, entrenado con texto en español que abarca diversos acentos regionales. Basado en la arquitectura PL-BERT
Síntesis de voz (catalán)
PL-BERT-ca
Modelo de lenguaje enmascarado a nivel de fonemas, entrenado con texto en catalán que abarca diversos acentos regionales. Basado en la arquitectura PL-BERT
Síntesis de voz (catalán)
PL-BERT-wp-ca
Modelo de lenguaje enmascarado a nivel de fonemas, entrenado con texto en catalán que abarca diversos acentos regionales. Basado en la arquitectura PL-BERT
Síntesis de voz (gallego)
Nos_TTS-sabela-vits-phonemes
Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTS, a partir del corpus Sabela del dataset CRPIH_UVigo-GL-Voices. Requiere transcripción fonética generada mediante la herramienta Cotovía, la cual también realiza la normalización previa del texto.
Síntesis de voz (gallego)
Nos_TTS-icia-vits-phonemes
Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTS, a partir del corpus Icía del dataset CRPIH_UVigo-GL-Voices. Requiere transcripción fonética generada mediante la herramienta Cotovía, la cual también realiza la normalización previa del texto.
Síntesis de voz (gallego)
Nos_TTS-iago-vits-phonemes
Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTS, a partir del corpus Iago del dataset CRPIH_UVigo-GL-Voices. Requiere transcripción fonética generada mediante la herramienta Cotovía, la cual también realiza la normalización previa del texto.
Síntesis de voz (gallego)
Nos_TTS-paulo-vits-phonemes
Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTS, a partir del corpus Paulo del dataset CRPIH_UVigo-GL-Voices. Requiere transcripción fonética generada mediante la herramienta Cotovía, la cual también realiza la normalización previa del texto.
Síntesis de voz (gallego)
Nos_TTS-celtia-vits-phonemes
Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTS, a partir del corpus Nos_Celtia-GL. Requiere transcripción fonética generada mediante la herramienta Cotovía, la cual también realiza la normalización previa del texto.
Síntesis de voz (gallego)
Nos_TTS-brais-vits-phonemes
Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTS, a partir del corpus Nos_Brais-GL. Requiere transcripción fonética generada mediante la herramienta Cotovía, la cual también realiza la normalización previa del texto.
Síntesis de voz (gallego)
Nos _TTS-brais-vits-graphemes
Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTS, a partir del corpus Nos_Brais-GL. El modelo fue entrenado directamente con grafemas como entrada, de modo que no necesita una transcripción fonética. La herramienta Cotovía, puede utilizarse para llevar a cabo la normalización del texto de entrada.
Reconocimiento de voz
Reconocimiento de voz (lenguas ibéricas)
hubert-base-los-2k
Modelo HuBERT Base preentrenado con 2.000 horas de datos de voz en lenguas ibéricas (español, catalán, euskera y gallego). La arquitectura del modelo es la misma que la del HuBERT Base original
Reconocimiento de voz (bilingüe catalán-español)
stt_ca-es_conformer_transducer_large
Modelo de reconocimiento de voz derivado de NVIDIA/stt_es_conformer_transducer_large, ajustado mediante un corpus bilingüe catalán-español compuesto por 7.426 horas de audio.
Reconocimiento de voz (bilingüe euskera-español)
stt_eseu_conformer_transducer_large
Modelo de reconocimiento de voz derivado a partir del modelo preentrenado BBS-S2TC_conformer_transducer_large, entrenado con un corpus de 1.366,18 horas de grabaciones en euskera, español y habla bilingüe con eventos de code-switching.
Reconocimiento de voz (euskera-español)
BBS-S2TC_conformer_transducer_large
Modelo diseñado específicamente para una participación en el BBS-S2TC (Bilingual Basque Spanish Speech-to-Text Challenge) de la sección de desafíos de las evaluaciones Albayzin de IBERSPEECH 2024. El modelo transcribe habla en español utilizando el alfabeto en minúsculas, incluidos los espacios, y fue entrenado con un conjunto de datos compuesto por 1462 horas de audio en español y euskera. Se afinó (fine-tuned) a partir del modelo vasco preentrenado stt_eu_conformer_transducer_large mediante el toolkit Nvidia NeMo.
Reconocimiento de voz (español)
spanish-verification-model-pkt-a
Modelo de verificación, basado en nvidia/parakeet-rnnt-1.1b diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-b para realizar verificación cruzada y aumentar la confianza en las transcripciones.
Reconocimiento de voz (español)
spanish-verification-model-pkt-b
Modelo de verificación, basado en nvidia/parakeet-rnnt-1.1b diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-a para realizar verificación cruzada y aumentar la confianza en las transcripciones.
Reconocimiento de voz (español)
spanish-verification-model-pkt-c
Modelo de verificación, basado en nvidia/parakeet-rnnt-1.1b diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-d para realizar verificación cruzada y aumentar la confianza en las transcripciones.
Reconocimiento de voz (español)
spanish-verification-model-pkt-d
Modelo de verificación, basado en nvidia/parakeet-rnnt-1.1b diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-c para realizar verificación cruzada y aumentar la confianza en las transcripciones.
Reconocimiento de voz (español)
parakeet-rnnt-1.1b_cv17_es_ep18_1270h
Modelo acústico derivado de nvidia/parakeet-rnnt-1.1b, optimizado para tareas de reconocimiento automático de voz en español.
Diarización de hablantes (español)
pyannote-segmentation-3.0-RTVE
Este sistema consta de tres modelos ajustados, diseñados para fusionarse mediante DOVER-Lap. Cada modelo se entrena poniendo el foco en un componente distinto de la métrica Diarization Error Rate (Falsas Alarmas, Detecciones Omitidas y Confusión de Hablantes).
Cada modelo es una versión ajustada de pyannote/segmentation-3.0 utilizando la base de datos de RTVE empleada en las Evaluaciones Albayzin de IberSPEECH 2024.
Reconocimiento de voz (catalán)
faster-whisper-bsc-large-v3-cat
Modelo de reconocimiento de voz, resultado de convertir el modelo whisper-bsc-large-v3-cat en un modelo más ligero con faster-whisper.
Reconocimiento de voz (catalán)
whisper-bsc-large-v3-cat
Modelo para el reconocimiento automático de voz en catalán, optimizado a partir del modelo whisper-large-v3 con 4.700 horas de grabaciones en catalán. El modelo está diseñado para transcribir audio en catalán a texto plano, sin signos de puntuación.
Reconocimiento de voz (valenciano)
faster-whisper-3cat-cv21-valencian
Modelo de reconocimiento de voz, resultado de convertir el modelo whisper-3cat-cv21-valencian en un modelo más ligero con faster-whisper.
Reconocimiento de voz (valenciano)
whisper-3cat-cv21-valencian
Modelo para el reconocimiento automático de voz en valenciano, optimizado a partir del modelo whisper-large-v3 con 397 horas y 55 minutos de grabaciones.
Reconocimiento de voz (balear)
faster-whisper-3cat-balearic
Modelo de reconocimiento de voz, resultado de convertir el modelo whisper-3cat-balearic en un modelo más ligero con faster-whisper.
Reconocimiento de voz (balear)
whisper-3cat-balearic
Modelo para el reconocimiento automático de voz en balear, optimizado a partir del modelo whisper-large-v3 con 90 horas.
Reconocimiento de voz (euskera)
stt_eu_conformer_ctc_large
Este modelo transcribe habla en euskera utilizando el alfabeto vasco en minúsculas, con inclusión de espacios. Ha sido entrenado con un conjunto de datos que reúne 548 horas de audio en euskera y refinado (fine-tuned) a partir del modelo español preentrenado stt_es_conformer_ctc_large mediante el toolkit Nvidia NeMo.
Reconocimiento de voz (euskera)
stt_eu_conformer_transducer_large
Este modelo transcribe habla en euskera utilizando el alfabeto vasco en minúsculas, incluidos los espacios. Ha sido entrenado con un conjunto de datos compuesto por 548 horas de habla en euskera. Se afinó (fine-tuned) a partir del modelo español preentrenado stt_es_conformer_transducer_large utilizando el toolkit Nvidia NeMo.
Última actualización
