> For the complete documentation index, see [llms.txt](https://langtech-bsc.gitbook.io/aina-kit/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://langtech-bsc.gitbook.io/aina-kit/datasets/dades-i-eines-per-a-models-de-veu.md).

# Dades i eines per a models de veu

### Corpus de veu

#### **Common Voice**

Conjunt de dades de veu obert i accessible per a tothom, pensat per entrenar aplicacions basades en la veu.\
Des del gener del 2023, s’han recollit més de 3.300 hores de gravacions gràcies a la participació de més de 35.000 voluntaris, que han contribuït de manera decisiva a la creació d’un recurs lingüístic col·laboratiu i de lliure accés, orientat a la millora dels sistemes de reconeixement automàtic de la parla.\
En la versió 16.1, el català s’ha posicionat com la primera llengua del corpus tant pel nombre d’hores enregistrades com pel de validacions completades.

Accés: <https://commonvoice.mozilla.org/ca/datasets>

#### Corpus de veu amb transcripció

* **distilled-catalan-youtube-speech**: Subconjunt acuradament seleccionat del [Catalan YouTube Speech Corpus](https://huggingface.co/datasets/softcatala/catalan-youtube-speech) de Softcatalà, enriquit amb transcripcions verificades automàticament i generades mitjançant dos sistemes ASR independents, utilitzats com a models de verificació. El conjunt de dades inclou 207 hores de parla en català transcrita, amb les transcripcions classificades segons la qualitat: coincidències perfectes —quan els dos sistemes produeixen sortides idèntiques— i coincidències en el nombre de paraules —quan les sortides tenen el mateix nombre de paraules però difereixen en la formulació, cas que es resol mitjançant un tercer sistema ASR. A més, s’hi inclouen un conjunt de prova anotat manualment i un conjunt de validació d’alta confiança.

  Accés: <https://huggingface.co/datasets/BSC-LT/distilled-catalan-youtube-speech>
* **CommonPhone-SE**: Conjunt de dades de referència derivat de Commonphone. Conté mostres d’àudio en set llengües, enregistrades per persones d’entre 18 i 80 anys. El seu objectiu és oferir un conjunt de dades divers pel que fa als parlants, destinat a avaluar i comparar algoritmes de millora de la parla en condicions reals.

  Accés: <https://huggingface.co/datasets/BSC-LT/CommonPhone-SE>
* **BSCs\_Code\_Switching\_CA-ES\_ASR\_Test**: Conjunt de dades elaborat manualment, dissenyat per avaluar sistemes de reconeixement automàtic de la parla (ASR) en un escenari de canvi de codi entre el català i el castellà. Conté 867 enregistraments d’àudio, amb una durada total de 4 hores i 9 minuts, on el català és la llengua predominant, però s’hi troben segments en castellà de manera sistemàtica dins de cada enunciat.

  Accés: <https://huggingface.co/datasets/BSC-LT/BSCs_Code_Switching_CA-ES_ASR_Test>
* **CAESAR-TINY:** Conjunt de dades sintètic amb canvi de codi, generat a partir de la combinació de mostres monolingües en català i castellà. Conté dues hores de dades de parla, obtingudes mitjançant la concatenació d’àudios dels conjunts [Common Voice 17 Benchmark split](https://huggingface.co/datasets/projecte-aina/commonvoice_benchmark_catalan_accents) i [VoxForge Spanish](https://huggingface.co/datasets/ciempiess/voxforge_spanish).

  Accés: <https://huggingface.co/datasets/BSC-LT/CAESAR-TINY>
* **CAESAR-TV3**: Corpus d’àudio que inclou 5 hores i 45 minuts de parla en català amb canvis al castellà, extret del conjunt de dades original[ TV3 Parla](https://huggingface.co/datasets/collectivat/tv3_parla).

  Tasca: *Reconeixement de la parla*

  Accés: <https://huggingface.co/datasets/BSC-LT/CAESAR-TV3>
* **corts\_valencianes\_asr\_a**: Conjunt de dades format per gravacions de veu de les sessions de les Corts Valencianes.. Inclou 270 hores, 5 minuts i 34 segons de veu, distribuïts en 239h 05m 24s corresponents a segments curts i 31h 00m 11s corresponents a segments llargs. El corpus inclou un total de 2.621.096 paraules.

  Tasca: *Reconeixement de la parla*

  Accés: <https://huggingface.co/datasets/projecte-aina/corts_valencianes_asr_a>
* **annotated\_catalan\_common\_voice\_v17**: Nova versió del corpus [Common Voice en català (v17)](https://commonvoice.mozilla.org/en/datasets) que inclou metadades (gènere i dialecte) de 263 parlants que van gravar més de 1.200 segons de parla en la [v13](https://huggingface.co/datasets/mozilla-foundation/common_voice_13_0/tree/main/transcript/ca).

  Tasca: *Reconeixement de la parla, identificació de gènere, identificació de dialecte.*

  Accés: <https://huggingface.co/datasets/projecte-aina/annotated_catalan_common_voice_v17>
* **commonvoice\_benchmark\_catalan\_accents:** *Benchmark* per avaluar la precisió dels models de reconeixement de la parla en diferents gèneres i dialectes. Fet a partir d'una reorganització de les dades de [annotated\_catalan\_common\_voice\_v17](https://huggingface.co/datasets/projecte-aina/annotated_catalan_common_voice_v17), conté dues hores i mitja d'àudio.

  Tasca: *Reconeixement de la parla*

  Accé&#x73;*:* [*https://huggingface.co/datasets/projecte-aina/commonvoice\_benchmark\_catalan\_accents*](https://huggingface.co/datasets/projecte-aina/commonvoice_benchmark_catalan_accents)
* **LaFrescat**: Corpus d’àudio de 3,75 hores multidialectal (balear, central, nord-occidental i valencià) i multiparlant (2 parlants -femení i masculí- per dialecte).

  Tasca: *Reconeixement de la parla, síntesi de la parla*

  Accés: <https://huggingface.co/datasets/projecte-aina/LaFrescat>
* **cv17\_es\_other\_automatically\_verified**: 581.680 fitxers d'àudio (784 hores i 50 minuts) en castellà validats automàticament amb el model [OpenAI's Whisper](https://github.com/openai/whisper)

  Tasca: *Reconeixement de la parla*

  Accés: <https://huggingface.co/datasets/projecte-aina/cv17_es_other_automatically_verified>
* **escagleu-64k**: Corpus paral·lel de 64.091 frases traduïdes del castellà al català, adaptació al valencià, gallec i basc. Les frases originals provenen del corpus [Common Voice en castellà](https://github.com/common-voice/common-voice/tree/main/server/data/es). La traducció al gallec i al basc es va fer amb traducció automàtica.

  Tasca: *Traducció automàtica, traducció de veu a text i traducció de veu a veu*

  Accés: <https://huggingface.co/datasets/projecte-aina/escagleu-64k>
* **ParlamentParla\_v3***:* Corpus d’àudio de 1059h 48m d'enregistraments del Parlament.&#x20;

  Tasca: *Reconeixement de la parla, identificació del parlant*

  Accés: <https://huggingface.co/datasets/projecte-aina/parlament_parla_v3>
* **ParlamentParla***:* Corpus d’àudio de 611h d'enregistraments del Parlament.&#x20;

  Tasca: *Reconeixement de la parla, identificació del parlant*

  Accés: <https://huggingface.co/datasets/projecte-aina/parlament_parla>
* **TV3 Parla**: Corpus d’àudio de 240h d'enregistraments de diversos programes de TV3.

  Tasca: *Reconeixement de la parla*

  Accés: <https://huggingface.co/datasets/collectivat/tv3_parla>
* **TTS cat**: Versions netes dels corpus de FESTCAT i OpenSLR69, específicament preparades per entrenar models neuronals de síntesi de la parla.

  Tasca: *Síntesi de la parla*

  Accés: <https://huggingface.co/datasets/projecte-aina/festcat_trimmed_denoised/>

  Accés: <https://huggingface.co/datasets/projecte-aina/openslr-slr69-ca-denoised>
* **4catac**: Corpus amb transcripció fonètica multidialectal per al català. Inclou quatre dialectes –balear, central, nord-occidental i valencià– cadascun amb 160 frases transcrites.

  Tasca: *Transcripció fonètica*

  Accés: <https://huggingface.co/datasets/projecte-aina/4catac>&#x20;

***

### Eines per al subministrament de dades de veu

Per generar dades per al reconeixement de la parla, processant continguts de forma automàtica i continuada, s’han creat dues eines:

* **Datapipe:** Eina desenvolupada per generar un corpus de la parla alineat entre enregistraments de diverses fonts (YouTube, parlaments autonòmics, etc.) i les seves transcripcions i/o subtítols. Projecte iniciat per la comunitat de programari lliure que hem adaptat i millorat.

  Accés: <https://github.com/projecte-aina/datapipe>
* **Found speech pipeline:** Eina desenvolupada per generar un corpus de la parla alineat entre enregistraments de YouTube i dels diversos parlaments d'autonomies d'Espanya i les seves transcripcions i/o subtítols.&#x20;

  Accés: TBA

***