🗣️Dades i eines per a models de veu

Corpus de veu

Common Voice

Conjunt de dades de veu obert i accessible per a tothom, pensat per entrenar aplicacions basades en la veu. Des del gener del 2023, s’han recollit més de 3.300 hores de gravacions gràcies a la participació de més de 35.000 voluntaris, que han contribuït de manera decisiva a la creació d’un recurs lingüístic col·laboratiu i de lliure accés, orientat a la millora dels sistemes de reconeixement automàtic de la parla. En la versió 16.1, el català s’ha posicionat com la primera llengua del corpus tant pel nombre d’hores enregistrades com pel de validacions completades.

Accés: https://commonvoice.mozilla.org/ca/datasets

Corpus de veu amb transcripció


Eines per al subministrament de dades de veu

Per generar dades per al reconeixement de la parla, processant continguts de forma automàtica i continuada, s’han creat dues eines:

  • Datapipe: Eina desenvolupada per generar un corpus de la parla alineat entre enregistraments de diverses fonts (YouTube, parlaments autonòmics, etc.) i les seves transcripcions i/o subtítols. Projecte iniciat per la comunitat de programari lliure que hem adaptat i millorat.

    Accés: https://github.com/projecte-aina/datapipe

  • Found speech pipeline: Eina desenvolupada per generar un corpus de la parla alineat entre enregistraments de YouTube i dels diversos parlaments d'autonomies d'Espanya i les seves transcripcions i/o subtítols.

    Accés: TBA


Last updated