> For the complete documentation index, see [llms.txt](https://langtech-bsc.gitbook.io/alia-kit/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://langtech-bsc.gitbook.io/alia-kit/datasets/datos-y-herramientas-para-modelos-de-voz.md).

# Datos y herramientas para modelos de voz

* **CommonPhone-SE:** Conjunto de datos derivado de Commonphone. Contiene muestras de audio en siete idiomas, grabadas por personas de entre 18 y 80 años. Su objetivo es ofrecer un conjunto de datos diverso en cuanto a los hablantes, destinado a evaluar y comparar algoritmos de mejora del habla en condiciones reales.

  Acceso: <https://huggingface.co/datasets/BSC-LT/CommonPhone-SE>

* **distilled-yodas-spanish**: Subconjunto de alta calidad de la sección en español del *YouTube-Oriented Dataset for Audio and Speech* ([YODAS](https://huggingface.co/datasets/espnet/yodas)). Mientras que el corpus completo de YODAS incluye más de 37.000 horas de habla en español distribuidas en 43 millones de archivos, este conjunto ofrece una versión depurada y validada que comprende aproximadamente 8.000 horas de grabaciones.

  Acceso: <https://huggingface.co/datasets/BSC-LT/distilled-yodas-spanish>

* **corts\_valencianes\_asr\_a**: Conjunto de datos formado por grabaciones de voz de las sesiones de las Corts Valencianes. Incluye 270 horas, 5 minutos y 34 segundos de voz, distribuidos en 239h 05m 24s correspondientes a segmentos cortos y 31h 00m 11s correspondientes a segmentos largos. El corpus incluye un total de 2.621.096 palabras.&#x20;

  Acceso: <https://huggingface.co/datasets/projecte-aina/corts_valencianes_asr_a>

* **commonvoice\_benchmark\_catalan\_accents:** *Benchmark* diseñado para evaluar la precisión de los modelos de reconocimiento automático del habla en distintos géneros y dialectos. Elaborado a partir de una reorganización de los datos de [annotated\_catalan\_common\_voice\_v17](https://huggingface.co/datasets/projecte-aina/annotated_catalan_common_voice_v17), incluye dos horas y media de audio.

  Acces&#x6F;*:* [*https://huggingface.co/datasets/projecte-aina/commonvoice\_benchmark\_catalan\_accents*](https://huggingface.co/datasets/projecte-aina/commonvoice_benchmark_catalan_accents)

* **cv17\_es\_other\_automatically\_verified**: 581.680 archivos de audio (784 horas y 50 minutos) en castellano validados automáticamente con el modelo [OpenAI's Whisper](https://github.com/openai/whisper).

  Acceso: <https://huggingface.co/datasets/projecte-aina/cv17_es_other_automatically_verified>

* **Synthetic DEM Corpus**: Conjunto de datos compuesto por grabaciones de voz con el acento característico del español del centro de México. El corpus tiene un tamaño de 371 horas e incluye palabras, definiciones, ejemplos y ejemplos generados por LLM. Este conjunto de datos es el resultado de la primera fase de una colaboración entre El Colegio de México (COLMEX) y el Barcelona Supercomputing Center (BSC).

  Acceso: <https://huggingface.co/datasets/projecte-aina/synthetic_dem>

* **composite\_corpus\_eseu\_v1.0**: Conjunto de datos bilingüe compuesto por grabaciones de voz con su transcripción en euskera y español (misma proporción) creado con datos de acceso público. Incluye un total de 1.456 horas (741.738 oraciones).

  Acceso: <https://huggingface.co/datasets/HiTZ/composite_corpus_eseu_v1.0>

* **composite\_corpus\_es\_1.0**: Conjunto de datos compuesto por grabaciones de voz con su transcripción en español creado con datos de acceso público. Incluye un total de 2.676 horas (525.692 oraciones).

  Acceso: <https://huggingface.co/datasets/HiTZ/composite_corpus_es_v1.0>

* **composite\_corpus\_eu\_2.1:**  Conjunto de datos compuesto por grabaciones de voz con su transcripción en euskera creado con datos de acceso público. Incluye un total de 707 horas (407.167 oraciones).

  Acceso: <https://huggingface.co/datasets/HiTZ/composite_corpus_eu_v2.1>

* **benchmark\_eseu\_testsets**: Conjunto de datos de test balanceados en castellano, euskera y bilingüe con code-switching. Incluye un total de 11 horas (5.737 oraciones).

  Acceso: <https://huggingface.co/datasets/HiTZ/benchmark_eseu_testsets>

* **Nos\_ImosNavegando-GL**: Corpus en gallego para el desarrollo y la evaluación de sistemas ASR, creado a partir del programa *Imos Navegando*. Incluye 14 horas de audio con transcripciones revisadas manualmente y alineadas temporalmente.

  Acceso: <https://huggingface.co/datasets/proxectonos/Nos_ImosNavegando-GL>

* **Nos\_ParlaSpeech-GL**: Conjunto de datos formado por  más de 1.600 horas de audio y texto alineados automáticamente, creado a partir de grabaciones y transcripciones oficiales de las sesiones parlamentarias gallegas celebradas entre 2015 y 2022.

  Acceso: <https://huggingface.co/datasets/proxectonos/Nos_Parlaspeech-GL>

* **Nos\_Transcrispeech-GL**: Corpus de datos en gallego transcrito manualmente y alineado con texto mediante reconocimiento de voz, que contiene 50 horas de habla multidominio. Incluye distintos tipos de audio: conferencias, debates, discursos e entrevistas.

  Acceso: <https://huggingface.co/datasets/proxectonos/Nos_Transcrispeech-GL>

* **Nos\_RG-Podcast-GL**: Conjunto de datos en gallego de 328 horas, transcrito y alineado automáticamente. Incluye 33 series de pódcast en gallego, organizadas en siete géneros principales: cultura, sociedad, historia, igualdad, ciencia, humor y ficción.

  Acceso: [https://huggingface.co/datasets/proxectonos/Nos\_RG-Podcast-G](https://huggingface.co/datasets/proxectonos/Nos_RG-Podcast-GL)

* **Nos\_Celtia-GL**: Corpus compuesto por 20.000 frases (aproximadamente 200.000 palabras). Está formado por dos subcorpus: el primero, elaborado previamente por el Grupo de Tecnoloxías Multimedia (GTM) en colaboración con el Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH), incluye texto periodístico (escrito) y frases diseñadas manualmente (interrogativas, exclamativas, imperativas, listas de números, etc.); el segundo, compilado por el Proyecto Nós a partir de textos de distintos dominios temáticos, reúne transcripciones de discurso oral, definiciones de diccionario, transcripciones de discursos parlamentarios, transcripciones de informativos y oraciones breves (<4 palabras), interrogativas, exclamativas, imperativas y elípticas.

  Acceso: <https://zenodo.org/records/7716958#.ZAtZm3bMJD8>

* **Nos\_Brais-GL**: Corpus basado en un corpus textual de 16.121 frases (aproximadamente 168.000 palabras) compuesto por tres subcorpus: frases seleccionadas de un corpus compilado por el Proyecto Nós a partir de textos multidominio y previamente utilizado en el corpus TTS Nos\_Celtia-GL; frases seleccionadas de un corpus elaborado anteriormente por el Grupo de Tecnoloxías Multimedia (GTM) y el Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH); y un subcorpus de 500 palabras fonéticamente ricas extraído del *Dicionario de pronuncia da lingua galega*. Nos\_Brais-GL fue grabado en un entorno controlado (estudio de grabación) por un locutor profesional seleccionado entre tres candidatos mediante una prueba de escucha perceptual en la que 37 participantes evaluaron la claridad, prosodia, agrado y competencia lingüística de cada uno.

  Acceso: <https://zenodo.org/records/14265241>

* **Nos\_Telexornais-GL**: Corpus de ASR con más de 1.100 horas de habla transcrita y alineada automáticamente utilizando Google Chirp2. Este corpus fue creado a partir de audio de noticias gallegas entre 2019 y 2022. El contenido pertenece a la Corporación de Radio y Televisión de Galicia y los datos se publican de acuerdo con sus términos de uso.

  Acceso: <https://huggingface.co/datasets/proxectonos/Nos_Telexornais-GL>

* **escagleu-64k**: Corpus paralelo de 64.091 frases traducidas del español al catalán, adaptación al valenciano, gallego y vasco. Las frases originales provienen del corpus Common Voice. La traducción al gallego y al vasco se realizó con traducción automática.&#x20;

  Acceso: <https://huggingface.co/datasets/projecte-aina/escagleu-64k>


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://langtech-bsc.gitbook.io/alia-kit/datasets/datos-y-herramientas-para-modelos-de-voz.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.