🗣️Dades i eines per a models de veu
Corpus de veu
Common Voice
Conjunt de dades de veu obert i accessible per a tothom, pensat per entrenar aplicacions basades en la veu. Des del gener del 2023, s’han recollit més de 3.300 hores de gravacions gràcies a la participació de més de 35.000 voluntaris, que han contribuït de manera decisiva a la creació d’un recurs lingüístic col·laboratiu i de lliure accés, orientat a la millora dels sistemes de reconeixement automàtic de la parla. En la versió 16.1, el català s’ha posicionat com la primera llengua del corpus tant pel nombre d’hores enregistrades com pel de validacions completades.
Accés: https://commonvoice.mozilla.org/ca/datasets
Corpus de veu amb transcripció
CAESAR-TV3: Corpus d’àudio que inclou 5 hores i 45 minuts de parla en català amb canvis al castellà, extret del conjunt de dades original TV3 Parla.
Tasca: Reconeixement de la parla
corts_valencianes_asr_a: Conjunt de dades format per gravacions de veu de les sessions de les Corts Valencianes.. Inclou 270 hores, 5 minuts i 34 segons de veu, distribuïts en 239h 05m 24s corresponents a segments curts i 31h 00m 11s corresponents a segments llargs. El corpus inclou un total de 2.621.096 paraules.
Tasca: Reconeixement de la parla
Accés: https://huggingface.co/datasets/projecte-aina/corts_valencianes_asr_a
annotated_catalan_common_voice_v17: Nova versió del corpus Common Voice en català (v17) que inclou metadades (gènere i dialecte) de 263 parlants que van gravar més de 1.200 segons de parla en la v13.
Tasca: Reconeixement de la parla, identificació de gènere, identificació de dialecte.
Accés: https://huggingface.co/datasets/projecte-aina/annotated_catalan_common_voice_v17
commonvoice_benchmark_catalan_accents: Benchmark per avaluar la precisió dels models de reconeixement de la parla en diferents gèneres i dialectes. Fet a partir d'una reorganització de les dades de annotated_catalan_common_voice_v17, conté dues hores i mitja de cada combinació dels gèneres i dialectes tinguts en compte.
Tasca: Reconeixement de la parla
Accés: https://huggingface.co/datasets/projecte-aina/commonvoice_benchmark_catalan_accents
LaFrescat: Corpus d’àudio de 3,75 hores multidialectal (balear, central, nord-occidental i valencià) i multiparlant (2 parlants -femení i masculí- per dialecte).
Tasca: Reconeixement de la parla, síntesi de la parla
Accés: https://huggingface.co/datasets/projecte-aina/LaFrescat
cv17_es_other_automatically_verified: 581.680 fitxers d'àudio (784 hores i 50 minuts) en castellà validats automàticament amb el model OpenAI's Whisper
Tasca: Reconeixement de la parla
Accés: https://huggingface.co/datasets/projecte-aina/cv17_es_other_automatically_verified
escagleu-64k: Corpus paral·lel de 64.091 frases traduïdes del castellà al català, adaptació al valencià, gallec i basc. Les frases originals provenen del corpus Common Voice en castellà. La traducció al gallec i al basc es va fer amb traducció automàtica.
Tasca: Traducció automàtica, traducció de veu a text i traducció de veu a veu
Accés: https://huggingface.co/datasets/projecte-aina/escagleu-64k
ParlamentParla_v3: Corpus d’àudio de 1059h 48m d'enregistraments del Parlament.
Tasca: Reconeixement de la parla, identificació del parlant
Accés: https://huggingface.co/datasets/projecte-aina/parlament_parla_v3
ParlamentParla: Corpus d’àudio de 611h d'enregistraments del Parlament.
Tasca: Reconeixement de la parla, identificació del parlant
Accés: https://huggingface.co/datasets/projecte-aina/parlament_parla
TV3 Parla: Corpus d’àudio de 240h d'enregistraments de diversos programes de TV3.
Tasca: Reconeixement de la parla
Accés: https://huggingface.co/datasets/collectivat/tv3_parla
TTS cat: Versions netes dels corpus de FESTCAT i OpenSLR69, específicament preparades per entrenar models neuronals de síntesi de la parla.
Tasca: Síntesi de la parla
Accés: https://huggingface.co/datasets/projecte-aina/festcat_trimmed_denoised/
Accés: https://huggingface.co/datasets/projecte-aina/openslr-slr69-ca-denoised
4catac: Corpus amb transcripció fonètica multidialectal per al català. Inclou quatre dialectes –balear, central, nord-occidental i valencià– cadascun amb 160 frases transcrites.
Tasca: Transcripció fonètica
Eines per al subministrament de dades de veu
Per generar dades per al reconeixement de la parla, processant continguts de forma automàtica i continuada, s’han creat dues eines:
Datapipe: Eina desenvolupada per generar un corpus de la parla alineat entre enregistraments de diverses fonts (YouTube, parlaments autonòmics, etc.) i les seves transcripcions i/o subtítols. Projecte iniciat per la comunitat de programari lliure que hem adaptat i millorat.
Found speech pipeline: Eina desenvolupada per generar un corpus de la parla alineat entre enregistraments de YouTube i dels diversos parlaments d'autonomies d'Espanya i les seves transcripcions i/o subtítols.
Accés: TBA
Last updated