🗣️Models de parla

Descripció / Funció

Reconeixement de la parla

Nom model

hubert-base-ca-2k

Comentaris

Model HuBERT Base preentrenat amb 1.778 hores de registre de veu en català. Manté la mateixa arquitectura que el model hubert-base-ls960 original.

Descripció / Funció

Síntesi de la parla (multiparlant i multidialectal)

Nom model

Matxa-TTS Catalan Multiaccent

Comentaris

Model de síntesi de la parla multiparlant i multidialectal (balear, central, nord-occidental i valencià) entrenat amb el conjunt de dades LaFrescat.

Descripció / Funció

Síntesi de la parla (multiparlant)

Nom model

Matxa-TTS Catalan Multispeaker

Comentaris

Model de síntesi de parla multiparlant entrenat amb els conjunts de dades Festcat i OpenSLR69.

Descripció / Funció

Síntesi de la parla

Nom model

alvocat-vocos-22khz

Comentaris

Codificador de veu per a la síntesi de la parla en català a partir d'espectrogrames de mel basat en l'arquitectura Vocos entrenat amb els conjunts de dades Festcat, OpenSLR69 i LaFrescat.

Descripció / Funció

Reconeixement de la parla (bilingüe)

Nom model

stt_ca-es_conformer_transducer_large

Comentaris

Model de reconeixement de la parla derivat de NVIDIA/stt_es_conformer_transducer_large i ajustat amb un corpus bilingüe català-castellà de 7.426 hores d'àudio

Descripció / Funció

Reconeixement de la parla

Nom model

whisper-large-v3-tiny-caesar

Comentaris

Model de reconeixement de la parla derivat del model whisper-large-v3, optimitzat per al reconeixement automàtic de la parla en contextos de canvi de codi entre català i castellà.

Descripció / Funció

Reconeixement de la parla

Nom model

faster-whisper-large-v3-ca-3catparla

Comentaris

Model de reconeixement de la parla, resultat de convertir el model whisper-large-v3-ca-3catparla a un model més lleuger amb faster-whisper.

Descripció / Funció

Reconeixement de la parla

Nom model

stt-ca-citrinet-512

Comentaris

Model de reconeixement de la parla ajustat a partir del model pre-entrenat espanyol stt-es-citrinet-512 amb el conjunt d'eines NeMo. Té uns 36,5 milions de paràmetres i s'ha entrenat amb Common Voice v11.0.

Last updated