Dades i eines per a models de veu
Last updated
Last updated
Conjunt de dades de veu obert que tothom pot utilitzar per entrenar aplicacions que utilitzin la veu.
Des de gener del 2023 s'han recollit més de 3.300 hores de dades de veu. Aquesta iniciativa ha comptat amb la col·laboració de més de 35.000 voluntaris, que han contribuït significativament a la creació d'un recurs lingüístic obert i accessible per a la millora dels sistemes de reconeixement de veu.
En la versió 16.1, el català s’ha situat com a primera llengua del corpus tant en hores enregistrades com en hores validades.
Accés:
CAESAR-TV3: Inclou 5 hores i 45 minuts de parla en català amb canvis al castellà, extret del conjunt de dades original.
Tasca: Reconeixement de la parla
Accés:
corts_valencianes_asr_a: Conjunt de dades format per enregistraments de parla de les sessions de les Corts Valencianes. Inclou 270 hores, 5 minuts i 34 segons de parla, incloent 239 h 05 m 24 s per als segments curts i 31 h 00 m 11s per als segments llargs, amb un total de 2.621.096 paraules.
Tasca: Reconeixement de la parla
Accés:
annotated_catalan_common_voice_v17: Nova versió del corpus que inclou metadades (gènere i dialecte) de 263 parlants que van gravar més de 1.200 segons de parla en la .
Tasca: Reconeixement de la parla, identificació de gènere, identificació de dialecte.
Accés:
commonvoice_benchmark_catalan_accents: Nova versió del corpus que inclou l’anotació de metadades (gènere i dialecte) feta per un grup d’experts de la dels 263 parlants que a la havien gravat més de 1.200 segons de parla.
Tasca: Reconeixement de la parla
Accés:
LaFrescat: Corpus d’àudio de 3,75 hores multidialectal (balear, central, nord-occidental i valencià) i multiparlant (2 parlants -femení i masculí- per dialecte).
Tasca: Reconeixement de la parla, síntesi de la parla
Accés:
cv17_es_other_automatically_verified: 581.680 fitxers d'àudio (784 hores i 50 minuts) en castellà validats automàticament amb el model
Tasca: Reconeixement de la parla
Accés:
escagleu-64k: Corpus paral·lel de 64.091 frases traduïdes del castellà al català, adaptació al valencià, gallec i basc. Les frases originals són en castellà i provenen del corpus .
La traducció al gallec i al basc es va fer amb traducció automàtica.
Tasca: Traducció automàtica, traducció de veu a text i traducció de veu a veu
Accés:
ParlamentParla_v3: Corpus d’àudio de 1059h 48m d'enregistraments del Parlament.
Tasca: Reconeixement de la parla, identificació del parlant
Accés:
ParlamentParla: Corpus d’àudio de 611h d'enregistraments del Parlament.
Tasca: Reconeixement de la parla, identificació del parlant
Accés:
TV3 Parla: Corpus d’àudio de 240h d'enregistraments de diversos programes de TV3.
Tasca: Reconeixement de la parla
Accés:
TTS cat: Versions netes dels corpus de FESTCAT i OpenSLR69, específicament preparades per entrenar models neuronals de síntesi de la parla.
Tasca: Síntesi de la parla
Accés:
Accés:
4catac: Corpus amb transcripció fonètica multidialectal per al català. Inclou quatre dialectes –balear, central, nord-occidental i valencià– cadascun amb 160 frases transcrites.
Tasca: Transcripció fonètica
Accés:
Per generar dades per al reconeixement de la parla, processant continguts de forma automàtica i continuada, s’han creat dues eines:
Datapipe: Eina desenvolupada per generar un corpus de la parla alineat entre enregistraments de diverses fonts (YouTube, parlaments autonòmics, etc.) i les seves transcripcions i/o subtítols. Projecte iniciat per la comunitat de programari lliure, que hem adaptat i millorat.
Found speech pipeline: Eina desenvolupada per generar un corpus de la parla alineat entre enregistraments de YouTube i dels diversos parlaments d'autonomies d'Espanya i les seves transcripcions i/o subtítols.
Accés: TBA
Accés: