🗣️Modelos de Voz

Síntesis de voz

Descripció / Funció

Síntesis de voz (español)

Nom model

PL-BERT-es

Comentaris

Modelo de lenguaje enmascarado a nivel de fonemas, entrenado con texto en español que abarca diversos acentos regionales. Basado en la arquitectura PL-BERT

Descripció / Funció

Síntesis de voz (español)

Nom model

PL-BERT-wp-es

Comentaris

Modelo de lenguaje enmascarado a nivel de fonemas, entrenado con texto en español que abarca diversos acentos regionales. Basado en la arquitectura PL-BERT

Descripció / Funció

Síntesis de voz (catalán)

Nom model

PL-BERT-ca

Comentaris

Modelo de lenguaje enmascarado a nivel de fonemas, entrenado con texto en catalán que abarca diversos acentos regionales. Basado en la arquitectura PL-BERT

Descripció / Funció

Síntesis de voz (catalán)

Nom model

PL-BERT-wp-ca

Comentaris

Modelo de lenguaje enmascarado a nivel de fonemas, entrenado con texto en catalán que abarca diversos acentos regionales. Basado en la arquitectura PL-BERT

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-sabela-vits-phonemes

Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTS, a partir del corpus Sabela del dataset CRPIH_UVigo-GL-Voices. Requiere transcripción fonética generada mediante la herramienta Cotovía, la cual también realiza la normalización previa del texto.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-icia-vits-phonemes

Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTS, a partir del corpus Icía del dataset CRPIH_UVigo-GL-Voices. Requiere transcripción fonética generada mediante la herramienta Cotovía, la cual también realiza la normalización previa del texto.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-iago-vits-phonemes

Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTS, a partir del corpus Iago del dataset CRPIH_UVigo-GL-Voices. Requiere transcripción fonética generada mediante la herramienta Cotovía, la cual también realiza la normalización previa del texto.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-paulo-vits-phonemes

Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTS, a partir del corpus Paulo del dataset CRPIH_UVigo-GL-Voices. Requiere transcripción fonética generada mediante la herramienta Cotovía, la cual también realiza la normalización previa del texto.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-celtia-vits-phonemes

Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTS, a partir del corpus Nos_Celtia-GL. Requiere transcripción fonética generada mediante la herramienta Cotovía, la cual también realiza la normalización previa del texto.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-brais-vits-phonemes

Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTS, a partir del corpus Nos_Brais-GL. Requiere transcripción fonética generada mediante la herramienta Cotovía, la cual también realiza la normalización previa del texto.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos _TTS-brais-vits-graphemes

Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTS, a partir del corpus Nos_Brais-GL. El modelo fue entrenado directamente con grafemas como entrada, de modo que no necesita una transcripción fonética. La herramienta Cotovía, puede utilizarse para llevar a cabo la normalización del texto de entrada.

Reconocimiento de voz

Descripció / Funció

Reconocimiento de voz (lenguas ibéricas)

Nom model

hubert-base-los-2k

Comentaris

Modelo HuBERT Base preentrenado con 2.000 horas de datos de voz en lenguas ibéricas (español, catalán, euskera y gallego). La arquitectura del modelo es la misma que la del HuBERT Base original

Descripció / Funció

Reconocimiento de voz (bilingüe catalán-español)

Nom model

stt_ca-es_conformer_transducer_large

Comentaris

Modelo de reconocimiento de voz derivado de NVIDIA/stt_es_conformer_transducer_large, ajustado mediante un corpus bilingüe catalán-español compuesto por 7.426 horas de audio.

Descripció / Funció

Reconocimiento de voz (bilingüe euskera-español)

Nom model

stt_eseu_conformer_transducer_large

Comentaris

Modelo de reconocimiento de voz derivado a partir del modelo preentrenado BBS-S2TC_conformer_transducer_large, entrenado con un corpus de 1.366,18 horas de grabaciones en euskera, español y habla bilingüe con eventos de code-switching.

Descripció / Funció

Reconocimiento de voz (euskera-español)

Nom model

BBS-S2TC_conformer_transducer_large

Comentaris

Modelo diseñado específicamente para una participación en el BBS-S2TC (Bilingual Basque Spanish Speech-to-Text Challenge) de la sección de desafíos de las evaluaciones Albayzin de IBERSPEECH 2024. El modelo transcribe habla en español utilizando el alfabeto en minúsculas, incluidos los espacios, y fue entrenado con un conjunto de datos compuesto por 1462 horas de audio en español y euskera. Se afinó (fine-tuned) a partir del modelo vasco preentrenado stt_eu_conformer_transducer_large mediante el toolkit Nvidia NeMo.

Descripció / Funció

Reconocimiento de voz (español)

Nom model

spanish-verification-model-pkt-a

Comentaris

Modelo de verificación, basado en nvidia/parakeet-rnnt-1.1b diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-b para realizar verificación cruzada y aumentar la confianza en las transcripciones.

Descripció / Funció

Reconocimiento de voz (español)

Nom model

spanish-verification-model-pkt-b

Comentaris

Modelo de verificación, basado en nvidia/parakeet-rnnt-1.1b diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-a para realizar verificación cruzada y aumentar la confianza en las transcripciones.

Descripció / Funció

Reconocimiento de voz (español)

Nom model

spanish-verification-model-pkt-c

Comentaris

Modelo de verificación, basado en nvidia/parakeet-rnnt-1.1b diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-d para realizar verificación cruzada y aumentar la confianza en las transcripciones.

Descripció / Funció

Reconocimiento de voz (español)

Nom model

spanish-verification-model-pkt-d

Comentaris

Modelo de verificación, basado en nvidia/parakeet-rnnt-1.1b diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-c para realizar verificación cruzada y aumentar la confianza en las transcripciones.

Descripció / Funció

Reconocimiento de voz (español)

Nom model

parakeet-rnnt-1.1b_cv17_es_ep18_1270h

Comentaris

Modelo acústico derivado de nvidia/parakeet-rnnt-1.1b, optimizado para tareas de reconocimiento automático de voz en español.

Descripció / Funció

Diarización de hablantes (español)

Nom model

pyannote-segmentation-3.0-RTVE

Comentaris

Este sistema consta de tres modelos ajustados, diseñados para fusionarse mediante DOVER-Lap. Cada modelo se entrena poniendo el foco en un componente distinto de la métrica Diarization Error Rate (Falsas Alarmas, Detecciones Omitidas y Confusión de Hablantes).

Cada modelo es una versión ajustada de pyannote/segmentation-3.0 utilizando la base de datos de RTVE empleada en las Evaluaciones Albayzin de IberSPEECH 2024.

Descripció / Funció

Reconocimiento de voz (catalán)

Nom model

faster-whisper-bsc-large-v3-cat

Comentaris

Modelo de reconocimiento de voz, resultado de convertir el modelo whisper-bsc-large-v3-cat en un modelo más ligero con faster-whisper.

Descripció / Funció

Reconocimiento de voz (catalán)

Nom model

whisper-bsc-large-v3-cat

Comentaris

Modelo para el reconocimiento automático de voz en catalán, optimizado a partir del modelo whisper-large-v3 con 4.700 horas de grabaciones en catalán. El modelo está diseñado para transcribir audio en catalán a texto plano, sin signos de puntuación.

Descripció / Funció

Reconocimiento de voz (valenciano)

Nom model

faster-whisper-3cat-cv21-valencian

Comentaris

Modelo de reconocimiento de voz, resultado de convertir el modelo whisper-3cat-cv21-valencian en un modelo más ligero con faster-whisper.

Descripció / Funció

Reconocimiento de voz (valenciano)

Nom model

whisper-3cat-cv21-valencian

Comentaris

Modelo para el reconocimiento automático de voz en valenciano, optimizado a partir del modelo whisper-large-v3 con 397 horas y 55 minutos de grabaciones.

Descripció / Funció

Reconocimiento de voz (balear)

Nom model

faster-whisper-3cat-balearic

Comentaris

Modelo de reconocimiento de voz, resultado de convertir el modelo whisper-3cat-balearic en un modelo más ligero con faster-whisper.

Descripció / Funció

Reconocimiento de voz (balear)

Nom model

whisper-3cat-balearic

Comentaris

Modelo para el reconocimiento automático de voz en balear, optimizado a partir del modelo whisper-large-v3 con 90 horas.

Descripció / Funció

Reconocimiento de voz (euskera)

Nom model

stt_eu_conformer_ctc_large

Comentaris

Este modelo transcribe habla en euskera utilizando el alfabeto vasco en minúsculas, con inclusión de espacios. Ha sido entrenado con un conjunto de datos que reúne 548 horas de audio en euskera y refinado (fine-tuned) a partir del modelo español preentrenado stt_es_conformer_ctc_large mediante el toolkit Nvidia NeMo.

Descripció / Funció

Reconocimiento de voz (euskera)

Nom model

stt_eu_conformer_transducer_large

Comentaris

Este modelo transcribe habla en euskera utilizando el alfabeto vasco en minúsculas, incluidos los espacios. Ha sido entrenado con un conjunto de datos compuesto por 548 horas de habla en euskera. Se afinó (fine-tuned) a partir del modelo español preentrenado stt_es_conformer_transducer_large utilizando el toolkit Nvidia NeMo.

Última actualización