🗣️Dades i eines per a models de veu
Last updated
Last updated
Conjunt de dades de veu obert que tothom pot utilitzar per entrenar aplicacions que utilitzin la veu.
Des de gener del 2023 s'han recollit més de 3.300 hores de dades de veu. Aquesta iniciativa ha comptat amb la col·laboració de més de 35.000 voluntaris, que han contribuït significativament a la creació d'un recurs lingüístic obert i accessible per a la millora dels sistemes de reconeixement de veu.
En la versió 16.1, el català s’ha situat com a primera llengua del corpus tant en hores enregistrades com en hores validades.
Accés: https://commonvoice.mozilla.org/ca/datasets
corts_valencianes_asr_a: Conjunt de dades format per enregistraments de parla de les sessions de les Corts Valencianes. Inclou 270 hores, 5 minuts i 34 segons de parla, incloent 239 h 05 m 24 s per als segments curts i 31 h 00 m 11 s per als segments llargs, amb un total de 2.621.096 paraules.
Tasca: Reconeixement de la parla
Accés: https://huggingface.co/datasets/projecte-aina/corts_valencianes_asr_a
annotated_catalan_common_voice_v17: Nova versió del corpus Common Voice en català (v17) que inclou metadades (gènere i dialecte) de 263 parlants que van gravar més de 1.200 segons de parla en la v13.
Tasca: Reconeixement de la parla, identificació de gènere, identificació de dialecte.
Accés: https://huggingface.co/datasets/projecte-aina/annotated_catalan_common_voice_v17
commonvoice_benchmark_catalan_accents: Nova versió del corpus Common Voice en català (v17) que inclou l’anotació de metadades (gènere i dialecte) feta per un grup d’experts de la Universitat de Barcelona dels 263 parlants que a la v13 havien gravat més de 1.200 segons de parla.
Tasca: Reconeixement de la parla
Accés: https://huggingface.co/datasets/projecte-aina/commonvoice_benchmark_catalan_accents
LaFrescat: Corpus d’àudio de 3,75 hores multidialectal (balear, central, nord-occidental i valencià) i multiparlant (2 parlants -femení i masculí- per dialecte).
Tasca: Reconeixement de la parla, síntesi de la parla
Accés: https://huggingface.co/datasets/projecte-aina/LaFrescat
cv17_es_other_automatically_verified: 581.680 fitxers d'àudio (784 hores i 50 minuts) en castellà validats automàticament amb el model OpenAI's Whisper
Tasca: Reconeixement de la parla
Accés: https://huggingface.co/datasets/projecte-aina/cv17_es_other_automatically_verified
escagleu-64k: Corpus paral·lel de 64.091 frases traduïdes del castellà al català, adaptació al valencià, gallec i basc. Les frases originals són en castellà i provenen del corpus Common Voice en castellà.
La traducció al gallec i al basc es va fer amb traducció automàtica.
Tasca: Traducció automàtica, traducció de veu a text i traducció de veu a veu
Accés: https://huggingface.co/datasets/projecte-aina/escagleu-64k
ParlamentParla_v3: Corpus d’àudio de 1059h 48m d'enregistraments del Parlament.
Tasca: Reconeixement de la parla, identificació del parlant
Accés: https://huggingface.co/datasets/projecte-aina/parlament_parla_v3
ParlamentParla: Corpus d’àudio de 611h d'enregistraments del Parlament.
Tasca: Reconeixement de la parla, identificació del parlant
Accés: https://huggingface.co/datasets/projecte-aina/parlament_parla
TV3 Parla: Corpus d’àudio de 240h d'enregistraments de diversos programes de TV3.
Tasca: Reconeixement de la parla
Accés: https://huggingface.co/datasets/collectivat/tv3_parla
TTS cat: Versions netes dels corpus de FESTCAT i OpenSLR69, específicament preparades per entrenar models neuronals de síntesi de la parla.
Tasca: Síntesi de la parla
Accés: https://huggingface.co/datasets/projecte-aina/festcat_trimmed_denoised/
Accés: https://huggingface.co/datasets/projecte-aina/openslr-slr69-ca-denoised
4catac: Corpus amb transcripció fonètica multidialectal per al català. Inclou quatre dialectes –balear, central, nord-occidental i valencià– cadascun amb 160 frases transcrites.
Tasca: Transcripció fonètica
Per generar dades per al reconeixement de la parla, processant continguts de forma automàtica i continuada, s’han creat dues eines:
Datapipe: Eina desenvolupada per generar un corpus de la parla alineat entre enregistraments de diverses fonts (YouTube, parlaments autonòmics, etc.) i les seves transcripcions i/o subtítols. Projecte iniciat per la comunitat de programari lliure, que hem adaptat i millorat.
Found speech pipeline: Eina desenvolupada per generar un corpus de la parla alineat entre enregistraments de YouTube i dels diversos parlaments d'autonomies d'Espanya i les seves transcripcions i/o subtítols.
Accés: TBA