Aina Kit
Aina Kit
  • Inici
  • 🤗Models
    • 🔠Models de text
    • 🗣️Models de parla
    • ↔️Models de traducció automàtica
    • 🏆Avaluació de models en llengua catalana
  • 📚Datasets
    • 🔠Dades i eines per a models de text
    • 🗣️Dades i eines per a models de veu
    • ↔️Dades per a la traducció automàtica
  • ▶️Testing
    • 🤗Via Hugging Face
    • ☁️Via integració amb serveis al núvol
    • 🐋Via Docker
    • 🧰Via pre-integració amb entorns de codi obert per a tecnologies del llenguatge
  • ▶️EINES D'INTEGRACIÓ
    • ☁️MTUOC
  • 🕹️Demostradors
    • 🤗A Spaces de Hugging Face
    • Page
Powered by GitBook

Social

  • Web
  • Twitter
  • Linkedin
  • Contacte

Tech

  • Blog
  • Huggingface
  • Github
  • Dockerhub

© Projecte Aina | Language Technologies Unit at BSC

On this page
  • Corpus de veu
  • Eines per al subministrament de dades de veu
  1. Datasets

Dades i eines per a models de veu

Last updated 24 days ago

Corpus de veu

Common Voice

Conjunt de dades de veu obert que tothom pot utilitzar per entrenar aplicacions que utilitzin la veu.

Des de gener del 2023 s'han recollit més de 3.300 hores de dades de veu. Aquesta iniciativa ha comptat amb la col·laboració de més de 35.000 voluntaris, que han contribuït significativament a la creació d'un recurs lingüístic obert i accessible per a la millora dels sistemes de reconeixement de veu.

En la versió 16.1, el català s’ha situat com a primera llengua del corpus tant en hores enregistrades com en hores validades.

Accés:

Corpus de veu amb transcripció

  • CAESAR-TV3: Inclou 5 hores i 45 minuts de parla en català amb canvis al castellà, extret del conjunt de dades original.

    Tasca: Reconeixement de la parla

    Accés:

  • corts_valencianes_asr_a: Conjunt de dades format per enregistraments de parla de les sessions de les Corts Valencianes. Inclou 270 hores, 5 minuts i 34 segons de parla, incloent 239 h 05 m 24 s per als segments curts i 31 h 00 m 11s per als segments llargs, amb un total de 2.621.096 paraules.

    Tasca: Reconeixement de la parla

    Accés:

  • annotated_catalan_common_voice_v17: Nova versió del corpus que inclou metadades (gènere i dialecte) de 263 parlants que van gravar més de 1.200 segons de parla en la .

    Tasca: Reconeixement de la parla, identificació de gènere, identificació de dialecte.

    Accés:

  • commonvoice_benchmark_catalan_accents: Nova versió del corpus que inclou l’anotació de metadades (gènere i dialecte) feta per un grup d’experts de la dels 263 parlants que a la havien gravat més de 1.200 segons de parla.

    Tasca: Reconeixement de la parla

    Accés:

  • LaFrescat: Corpus d’àudio de 3,75 hores multidialectal (balear, central, nord-occidental i valencià) i multiparlant (2 parlants -femení i masculí- per dialecte).

    Tasca: Reconeixement de la parla, síntesi de la parla

    Accés:

  • cv17_es_other_automatically_verified: 581.680 fitxers d'àudio (784 hores i 50 minuts) en castellà validats automàticament amb el model

    Tasca: Reconeixement de la parla

    Accés:

  • escagleu-64k: Corpus paral·lel de 64.091 frases traduïdes del castellà al català, adaptació al valencià, gallec i basc. Les frases originals són en castellà i provenen del corpus .

    La traducció al gallec i al basc es va fer amb traducció automàtica.

    Tasca: Traducció automàtica, traducció de veu a text i traducció de veu a veu

    Accés:

  • ParlamentParla_v3: Corpus d’àudio de 1059h 48m d'enregistraments del Parlament.

    Tasca: Reconeixement de la parla, identificació del parlant

    Accés:

  • ParlamentParla: Corpus d’àudio de 611h d'enregistraments del Parlament.

    Tasca: Reconeixement de la parla, identificació del parlant

    Accés:

  • TV3 Parla: Corpus d’àudio de 240h d'enregistraments de diversos programes de TV3.

    Tasca: Reconeixement de la parla

    Accés:

  • TTS cat: Versions netes dels corpus de FESTCAT i OpenSLR69, específicament preparades per entrenar models neuronals de síntesi de la parla.

    Tasca: Síntesi de la parla

    Accés:

    Accés:

  • 4catac: Corpus amb transcripció fonètica multidialectal per al català. Inclou quatre dialectes –balear, central, nord-occidental i valencià– cadascun amb 160 frases transcrites.

    Tasca: Transcripció fonètica

    Accés:


Eines per al subministrament de dades de veu

Per generar dades per al reconeixement de la parla, processant continguts de forma automàtica i continuada, s’han creat dues eines:

  • Datapipe: Eina desenvolupada per generar un corpus de la parla alineat entre enregistraments de diverses fonts (YouTube, parlaments autonòmics, etc.) i les seves transcripcions i/o subtítols. Projecte iniciat per la comunitat de programari lliure, que hem adaptat i millorat.

  • Found speech pipeline: Eina desenvolupada per generar un corpus de la parla alineat entre enregistraments de YouTube i dels diversos parlaments d'autonomies d'Espanya i les seves transcripcions i/o subtítols.

    Accés: TBA


Accés:

📚
🗣️
https://github.com/projecte-aina/datapipe
https://commonvoice.mozilla.org/ca/datasets
TV3 Parla
https://huggingface.co/datasets/BSC-LT/CAESAR-TV3
https://huggingface.co/datasets/projecte-aina/corts_valencianes_asr_a
Common Voice en català (v17)
v13
https://huggingface.co/datasets/projecte-aina/annotated_catalan_common_voice_v17
Common Voice en català (v17)
Universitat de Barcelona
v13
https://huggingface.co/datasets/projecte-aina/commonvoice_benchmark_catalan_accents
https://huggingface.co/datasets/projecte-aina/LaFrescat
OpenAI's Whisper
https://huggingface.co/datasets/projecte-aina/cv17_es_other_automatically_verified
Common Voice en castellà
https://huggingface.co/datasets/projecte-aina/escagleu-64k
https://huggingface.co/datasets/projecte-aina/parlament_parla_v3
https://huggingface.co/datasets/projecte-aina/parlament_parla
https://huggingface.co/datasets/collectivat/tv3_parla
https://huggingface.co/datasets/projecte-aina/festcat_trimmed_denoised/
https://huggingface.co/datasets/projecte-aina/openslr-slr69-ca-denoised
https://huggingface.co/datasets/projecte-aina/4catac