🗣️Modelos de Voz

Síntesis de voz

Descripció / Funció

Síntesis de voz (español)

Nom model

PL-BERT-es

Model card

https://huggingface.co/BSC-LT/PL-BERT-wp-es

Comentaris

Modelo de lenguaje enmascarado a nivel de fonemas, entrenado con texto en español que abarca diversos acentos regionales. Basado en la arquitectura PL-BERT

Descripció / Funció

Síntesis de voz (español)

Nom model

PL-BERT-wp-es

Model card

https://huggingface.co/BSC-LT/PL-BERT-wp-es

Comentaris

Modelo de lenguaje enmascarado a nivel de fonemas, entrenado con texto en español que abarca diversos acentos regionales. Basado en la arquitectura PL-BERT

Descripció / Funció

Síntesis de voz (catalán)

Nom model

PL-BERT-ca

Model card

https://huggingface.co/BSC-LT/PL-BERT-ca

Comentaris

Modelo de lenguaje enmascarado a nivel de fonemas, entrenado con texto en catalán que abarca diversos acentos regionales. Basado en la arquitectura PL-BERT

Descripció / Funció

Síntesis de voz (catalán)

Nom model

PL-BERT-wp-ca

Model card

https://huggingface.co/BSC-LT/PL-BERT-wp-ca

Comentaris

Modelo de lenguaje enmascarado a nivel de fonemas, entrenado con texto en catalán que abarca diversos acentos regionales. Basado en la arquitectura PL-BERT

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-sabela-vits-phonemes

Model card

https://huggingface.co/proxectonos/Nos_TTS-sabela-vits-phonemes

Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTS, a partir del corpus Sabela del dataset CRPIH_UVigo-GL-Voices. Requiere transcripción fonética generada mediante la herramienta Cotovía, la cual también realiza la normalización previa del texto.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-icia-vits-phonemes

Model card

https://huggingface.co/proxectonos/Nos_TTS-icia-vits-phonemes

Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTS, a partir del corpus Icía del dataset CRPIH_UVigo-GL-Voices. Requiere transcripción fonética generada mediante la herramienta Cotovía, la cual también realiza la normalización previa del texto.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-iago-vits-phonemes

Model card

https://huggingface.co/proxectonos/Nos_TTS-iago-vits-phonemes

Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTS, a partir del corpus Iago del dataset CRPIH_UVigo-GL-Voices. Requiere transcripción fonética generada mediante la herramienta Cotovía, la cual también realiza la normalización previa del texto.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-paulo-vits-phonemes

Model card

https://huggingface.co/proxectonos/Nos_TTS-paulo-vits-phonemes

Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTS, a partir del corpus Paulo del dataset CRPIH_UVigo-GL-Voices. Requiere transcripción fonética generada mediante la herramienta Cotovía, la cual también realiza la normalización previa del texto.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-celtia-vits-phonemes

Model card

https://huggingface.co/proxectonos/Nos_TTS-celtia-vits-phonemes

Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTS, a partir del corpus Nos_Celtia-GL. Requiere transcripción fonética generada mediante la herramienta Cotovía, la cual también realiza la normalización previa del texto.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos_TTS-brais-vits-phonemes

Model card

https://huggingface.co/proxectonos/Nos_TTS-brais-vits-phonemes

Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTS, a partir del corpus Nos_Brais-GL. Requiere transcripción fonética generada mediante la herramienta Cotovía, la cual también realiza la normalización previa del texto.

Descripció / Funció

Síntesis de voz (gallego)

Nom model

Nos _TTS-brais-vits-graphemes

Model card

https://huggingface.co/proxectonos/Nos_TTS-brais-vits-graphemes

Comentaris

Modelo de síntesis de voz en gallego entrenado desde cero utilizando la librería Coqui TTS, a partir del corpus Nos_Brais-GL. El modelo fue entrenado directamente con grafemas como entrada, de modo que no necesita una transcripción fonética. La herramienta Cotovía, puede utilizarse para llevar a cabo la normalización del texto de entrada.

Descripció / Funció

Síntesis de voz (lenguas ibéricas)

Nom model

HiTZ-TTS-Models collection

Model card

https://huggingface.co/collections/HiTZ/tts

Comentaris

Colección de 12 modelos de síntesis de voz en euskera (2), gallego (6), catalán (2), español (2), entrenados para el modelo VITS. Requiere el uso del script de síntesis de https://github.com/hitz-zentroa/aHoTTS

Reconocimiento de voz

Descripció / Funció

Reconocimiento de voz (lenguas ibéricas)

Nom model

hubert-base-los-2k

Model card

https://huggingface.co/BSC-LT/hubert-base-los-2k

Comentaris

Modelo HuBERT Base preentrenado con 2.000 horas de datos de voz en lenguas ibéricas (español, catalán, euskera y gallego). La arquitectura del modelo es la misma que la del HuBERT Base original

Descripció / Funció

Reconocimiento de voz (catalán-español)

Nom model

stt_ca-es_conformer_transducer_large

Model card

https://huggingface.co/projecte-aina/stt_ca-es_conformer_transducer_large

Comentaris

Modelo de reconocimiento de voz derivado de NVIDIA/stt_es_conformer_transducer_large, ajustado mediante un corpus bilingüe catalán-español compuesto por 7.426 horas de audio.

Descripció / Funció

Reconocimiento de voz (euskera-español)

Nom model

stt_eseu_conformer_transducer_large

Model card

https://huggingface.co/HiTZ/stt_eseu_conformer_transducer_large

Comentaris

Modelo de reconocimiento de voz derivado a partir del modelo preentrenado BBS-S2TC_conformer_transducer_large, entrenado con un corpus de 1.366,18 horas de grabaciones en euskera, español y habla bilingüe con eventos de code-switching.

Descripció / Funció

Reconocimiento de voz (euskera-español)

Nom model

BBS-S2TC_conformer_transducer_large

Model card

https://huggingface.co/HiTZ/BBS-S2TC_conformer_transducer_large

Comentaris

Modelo diseñado específicamente para una participación en el BBS-S2TC (Bilingual Basque Spanish Speech-to-Text Challenge) de la sección de desafíos de las evaluaciones Albayzin de IBERSPEECH 2024. El modelo transcribe habla en español utilizando el alfabeto en minúsculas, incluidos los espacios, y fue entrenado con un conjunto de datos compuesto por 1462 horas de audio en español y euskera. Se afinó (fine-tuned) a partir del modelo vasco preentrenado stt_eu_conformer_transducer_large mediante el toolkit Nvidia NeMo.

Descripció / Funció

Reconocimiento de voz (español)

Nom model

spanish-verification-model-pkt-a

Model card

https://huggingface.co/BSC-LT/spanish-verification-model-pkt-a

Comentaris

Modelo de verificación, basado en nvidia/parakeet-rnnt-1.1b diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-b para realizar verificación cruzada y aumentar la confianza en las transcripciones.

Descripció / Funció

Reconocimiento de voz (español)

Nom model

spanish-verification-model-pkt-b

Model card

https://huggingface.co/BSC-LT/spanish-verification-model-pkt-b

Comentaris

Modelo de verificación, basado en nvidia/parakeet-rnnt-1.1b diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-a para realizar verificación cruzada y aumentar la confianza en las transcripciones.

Descripció / Funció

Reconocimiento de voz (español)

Nom model

spanish-verification-model-pkt-c

Model card

https://huggingface.co/BSC-LT/spanish-verification-model-pkt-c

Comentaris

Modelo de verificación, basado en nvidia/parakeet-rnnt-1.1b diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-d para realizar verificación cruzada y aumentar la confianza en las transcripciones.

Descripció / Funció

Reconocimiento de voz (español)

Nom model

spanish-verification-model-pkt-d

Model card

https://huggingface.co/BSC-LT/spanish-verification-model-pkt-d

Comentaris

Modelo de verificación, basado en nvidia/parakeet-rnnt-1.1b diseñado para evaluar la fiabilidad de transcripciones. Este modelo se usa junto con el modelo spanish-verification-model-pkt-c para realizar verificación cruzada y aumentar la confianza en las transcripciones.

Descripció / Funció

Reconocimiento de voz (español)

Nom model

parakeet-rnnt-1.1b_cv17_es_ep18_1270h

Model card

https://huggingface.co/projecte-aina/parakeet-rnnt-1.1b_cv17_es_ep18_1270h

Comentaris

Modelo acústico derivado de nvidia/parakeet-rnnt-1.1b, optimizado para tareas de reconocimiento automático de voz en español.

Descripció / Funció

Diarización de hablantes (español)

Nom model

pyannote-segmentation-3.0-RTVE

Model card

https://huggingface.co/HiTZ/pyannote-segmentation-3.0-RTVE

Comentaris

Este sistema consta de tres modelos ajustados, diseñados para fusionarse mediante DOVER-Lap. Cada modelo se entrena poniendo el foco en un componente distinto de la métrica Diarization Error Rate (Falsas Alarmas, Detecciones Omitidas y Confusión de Hablantes).

Cada modelo es una versión ajustada de pyannote/segmentation-3.0 utilizando la base de datos de RTVE empleada en las Evaluaciones Albayzin de IberSPEECH 2024.

Descripció / Funció

Reconocimiento de voz (catalán)

Nom model

faster-whisper-bsc-large-v3-cat

Model card

https://huggingface.co/BSC-LT/faster-whisper-bsc-large-v3-cat

Comentaris

Modelo de reconocimiento de voz, resultado de convertir el modelo whisper-bsc-large-v3-cat en un modelo más ligero con faster-whisper.

Descripció / Funció

Reconocimiento de voz (catalán)

Nom model

whisper-bsc-large-v3-cat

Model card

https://huggingface.co/BSC-LT/whisper-bsc-large-v3-cat

Comentaris

Modelo para el reconocimiento automático de voz en catalán, optimizado a partir del modelo whisper-large-v3 con 4.700 horas de grabaciones en catalán. El modelo está diseñado para transcribir audio en catalán a texto plano, sin signos de puntuación.

Descripció / Funció

Reconocimiento de voz (valenciano)

Nom model

faster-whisper-3cat-cv21-valencian

Model card

https://huggingface.co/BSC-LT/faster-whisper-3cat-cv21-valencian

Comentaris

Modelo de reconocimiento de voz, resultado de convertir el modelo whisper-3cat-cv21-valencian en un modelo más ligero con faster-whisper.

Descripció / Funció

Reconocimiento de voz (valenciano)

Nom model

whisper-3cat-cv21-valencian

Model card

https://huggingface.co/BSC-LT/whisper-3cat-cv21-valencian

Comentaris

Modelo para el reconocimiento automático de voz en valenciano, optimizado a partir del modelo whisper-large-v3 con 397 horas y 55 minutos de grabaciones.

Descripció / Funció

Reconocimiento de voz (balear)

Nom model

faster-whisper-3cat-balearic

Model card

https://huggingface.co/BSC-LT/faster-whisper-3cat-balearic

Comentaris

Modelo de reconocimiento de voz, resultado de convertir el modelo whisper-3cat-balearic en un modelo más ligero con faster-whisper.

Descripció / Funció

Reconocimiento de voz (balear)

Nom model

whisper-3cat-balearic

Model card

https://huggingface.co/BSC-LT/whisper-3cat-balearic

Comentaris

Modelo para el reconocimiento automático de voz en balear, optimizado a partir del modelo whisper-large-v3 con 90 horas.

Descripció / Funció

Reconocimiento de voz (euskera)

Nom model

stt_eu_conformer_ctc_large

Model card

https://huggingface.co/HiTZ/stt_eu_conformer_ctc_large

Comentaris

Este modelo transcribe habla en euskera utilizando el alfabeto vasco en minúsculas, con inclusión de espacios. Ha sido entrenado con un conjunto de datos que reúne 548 horas de audio en euskera y refinado (fine-tuned) a partir del modelo español preentrenado stt_es_conformer_ctc_large mediante el toolkit Nvidia NeMo.

Descripció / Funció

Reconocimiento de voz (euskera)

Nom model

stt_eu_conformer_transducer_large

Model card

https://huggingface.co/HiTZ/stt_eu_conformer_transducer_large

Comentaris

Este modelo transcribe habla en euskera utilizando el alfabeto vasco en minúsculas, incluidos los espacios. Ha sido entrenado con un conjunto de datos compuesto por 548 horas de habla en euskera. Se afinó (fine-tuned) a partir del modelo español preentrenado stt_es_conformer_transducer_large utilizando el toolkit Nvidia NeMo.

Descripció / Funció

Reconocimiento de voz (euskera)

Nom model

whisper-tiny-eu

Model card

https://huggingface.co/HiTZ/whisper-tiny-eu

Comentaris

Modelo para el reconocimiento automático de voz en el euskera. Ha sido ajustado a partir de openai/whisper-tiny utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.

Descripció / Funció

Reconocimiento de voz (euskera)

Nom model

whisper-small-eu

Model card

https://huggingface.co/HiTZ/whisper-small-eu

Comentaris

Modelo para el reconocimiento automático de voz en el euskera. Ha sido ajustado (fine-tuned) a partir de openai/whisper-small utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.

Descripció / Funció

Reconocimiento de voz (euskera)

Nom model

whisper-medium-eu

Model card

https://huggingface.co/HiTZ/whisper-medium-eu

Comentaris

Modelo para el reconocimiento automático de voz en el euskera. Ha sido ajustado (fine-tuned) a partir de openai/whisper-medium utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.

Descripció / Funció

Reconocimiento de voz (euskera)

Nom model

whisper-base-eu

Model card

https://huggingface.co/HiTZ/whisper-base-eu

Comentaris

Modelo para el reconocimiento automático de voz en el euskera. Ha sido ajustado (fine-tuned) a partir de openai/whisper-base utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.

Descripció / Funció

Reconocimiento de voz (euskera)

Nom model

whisper-large-eu

Model card

https://huggingface.co/HiTZ/whisper-large-eu

Comentaris

Modelo para el reconocimiento automático de voz en el euskera. Ha sido ajustado (fine-tuned) a partir de openai/whisper-large utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.

Descripció / Funció

Reconocimiento de voz (euskera)

Nom model

whisper-large-v2-eu

Model card

https://huggingface.co/HiTZ/whisper-large-v2-eu

Comentaris

Modelo para el reconocimiento automático de voz en el euskera. Ha sido ajustado (fine-tuned) a partir de openai/whisper-large-v2 utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.

Descripció / Funció

Reconocimiento de voz (euskera)

Nom model

whisper-large-v3-eu

Model card

https://huggingface.co/HiTZ/whisper-large-v3-eu

Comentaris

Modelo para el reconocimiento automático de voz en el euskera. Ha sido ajustado (fine-tuned) a partir de openai/whisper-large-v3 utilizando el conjunto de datos en euskera de Mozilla Common Voice 13.0.

AnteriorModelos de texto SiguienteModelos de traducción automática

Última actualización hace 23 días

hashtagSíntesis de voz

hashtagReconocimiento de voz

Síntesis de voz

Reconocimiento de voz