🗣️Datos y herramientas para modelos de voz

Corpus de voz

Corpus de voz con transcripción

  • Nos_ParlaSpeech-GL: Conjunto de datos formado por más de 1.600 horas de audio y texto alineados automáticamente, creado a partir de grabaciones y transcripciones oficiales de las sesiones parlamentarias gallegas celebradas entre 2015 y 2022.

    Acceso: https://huggingface.co/datasets/proxectonos/Nos_Parlaspeech-GLarrow-up-right

  • Nos_Transcrispeech-GL: Corpus ASR en gallego transcrito manualmente y alineado con texto mediante reconocimiento de voz, que contiene 50 horas de habla multidominio. Incluye distintos tipos de audio: conferencias, debates, discursos e entrevistas.

    Acceso: https://huggingface.co/datasets/proxectonos/Nos_Transcrispeech-GLarrow-up-right

  • Nos_RG-Podcast-GL: Conjunto de datos en gallego de 328 horas, transcrito y alineado automáticamente para tareas de reconocimiento automático del habla (ASR). Incluye 33 series de pódcast en gallego, organizadas en siete géneros principales: cultura, sociedad, historia, igualdad, ciencia, humor y ficción.

    Acceso: https://huggingface.co/datasets/proxectonos/Nos_RG-Podcast-GLarrow-up-right

  • CommonPhone-SE: Conjunto de datos de referencia derivado de Commonphone. Contiene muestras de audio en siete idiomas, grabadas por personas de entre 18 y 80 años. Su objetivo es ofrecer un conjunto de datos diverso en cuanto a los hablantes, destinado a evaluar y comparar algoritmos de mejora del habla en condiciones reales.

    Acceso: https://huggingface.co/datasets/BSC-LT/CommonPhone-SEarrow-up-right

  • distilled-yodas-spanish: Subconjunto de alta calidad de la sección en español del YouTube-Oriented Dataset for Audio and Speech (YODASarrow-up-right). Mientras que el corpus completo de YODAS incluye más de 37.000 horas de habla en español distribuidas en 43 millones de archivos, este conjunto ofrece una versión depurada y validada que comprende aproximadamente 8.000 horas de grabaciones.

    Acceso: https://huggingface.co/datasets/BSC-LT/distilled-yodas-spanisharrow-up-right

  • Nos_Celtia-GL: Corpus compuesto por 20.000 frases (aproximadamente 200.000 palabras). Está formado por dos subcorpus: el primero, elaborado previamente por el Grupo de Tecnoloxías Multimedia (GTM) en colaboración con el Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH), incluye texto periodístico (escrito) y frases diseñadas manualmente (interrogativas, exclamativas, imperativas, listas de números, etc.); el segundo, compilado por el Proyecto Nós a partir de textos de distintos dominios temáticos, reúne transcripciones de discurso oral, definiciones de diccionario, transcripciones de discursos parlamentarios, transcripciones de informativos y oraciones breves (<4 palabras), interrogativas, exclamativas, imperativas y elípticas.

    Acceso: https://zenodo.org/records/7716958#.ZAtZm3bMJD8arrow-up-right

  • Nos_Brais-GL: Corpus basado en un corpus textual de 16.121 frases (aproximadamente 168.000 palabras) compuesto por tres subcorpus: frases seleccionadas de un corpus compilado por el Proyecto Nós a partir de textos multidominio y previamente utilizado en el corpus TTS Nos_Celtia-GL; frases seleccionadas de un corpus elaborado anteriormente por el Grupo de Tecnoloxías Multimedia (GTM) y el Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH); y, por último, un subcorpus de 500 palabras fonéticamente ricas extraído del Dicionario de pronuncia da lingua galega. Nos_Brais-GL fue grabado en un entorno controlado (estudio de grabación) por un locutor profesional seleccionado entre tres candidatos mediante una prueba de escucha perceptual en la que 37 participantes evaluaron la claridad, prosodia, agrado y competencia lingüística de cada uno.

    Acceso: https://zenodo.org/records/14265241arrow-up-right

  • Nos_Telexornais-GL: Corpus de ASR con más de 1.100 horas de habla transcrita y alineada automáticamente utilizando Google Chirp2. Este corpus fue creado a partir de audio de noticias gallegas entre 2019 y 2022. El contenido pertenece a la Corporación de Radio y Televisión de Galicia y los datos se publican de acuerdo con sus términos de uso.

    Acceso: https://huggingface.co/datasets/proxectonos/Nos_Telexornais-GLarrow-up-right

  • corts_valencianes_asr_a: Conjunto de datos formado por grabaciones de voz de las sesiones de las Corts Valencianes. Incluye 270 horas, 5 minutos y 34 segundos de voz, distribuidos en 239h 05m 24s correspondientes a segmentos cortos y 31h 00m 11s correspondientes a segmentos largos. El corpus incluye un total de 2.621.096 palabras.

    Tarea: Reconocimiento del habla

    Acceso: https://huggingface.co/datasets/projecte-aina/corts_valencianes_asr_aarrow-up-right

  • commonvoice_benchmark_catalan_accents: Benchmark diseñado para evaluar la precisión de los modelos de reconocimiento automático del habla en distintos géneros y dialectos. Elaborado a partir de una reorganización de los datos de annotated_catalan_common_voice_v17arrow-up-right, incluye dos horas y media de audio.

    Tarea: Reconocimiento del habla

    Acceso: https://huggingface.co/datasets/projecte-aina/commonvoice_benchmark_catalan_accentsarrow-up-right

  • cv17_es_other_automatically_verified: 581.680 archivos de audio (784 horas y 50 minutos) en castellano validados automáticamente con el modelo OpenAI's Whisperarrow-up-right.

    Tarea: Reconocimiento del habla

    Acceso: https://huggingface.co/datasets/projecte-aina/cv17_es_other_automatically_verifiedarrow-up-right

  • escagleu-64k: Corpus paralelo de 64.091 frases traducidas del español al catalán, adaptación al valenciano, gallego y vasco. Las frases originales provienen del corpus Common Voice. La traducción al gallego y al vasco se realizó con traducción automática.

    Tarea: Traducción automática, traducción de voz a texto y traducción de voz a voz.

    Acceso: https://huggingface.co/datasets/projecte-aina/escagleu-64karrow-up-right

  • Synthetic DEM Corpus: Conjunto de datos compuesto por grabaciones de voz con el acento característico del español del centro de México. El corpus tiene un tamaño de 371 horas e incluye palabras, definiciones, ejemplos y ejemplos generados por LLM. Este conjunto de datos es el resultado de la primera fase de una colaboración entre El Colegio de México (COLMEX) y el Barcelona Supercomputing Center (BSC).

    Tarea: Reconocimiento del habla

    Acceso: https://huggingface.co/datasets/projecte-aina/synthetic_demarrow-up-right

  • composite_corpus_es_1.0: Conjunto de datos compuesto por grabaciones de voz con su transcripción en español creado con datos de acceso público. Incluye un total de 2.676 horas (525.692 oraciones).

    Acceso: https://huggingface.co/datasets/HiTZ/composite_corpus_es_v1.0arrow-up-right

  • composite_corpus_eu_2.1: Conjunto de datos compuesto por grabaciones de voz con su transcripción en euskera creado con datos de acceso público. Incluye un total de 707 horas (407.167 oraciones).

    Acceso: https://huggingface.co/datasets/HiTZ/composite_corpus_eu_v2.1arrow-up-right

  • composite_corpus_eseu_v1.0: Conjunto de datos bilingüe compuesto por grabaciones de voz con su transcripción en euskera y español (misma proporción) creado con datos de acceso público. Incluye un total de 1.456 horas (741.738 oraciones).

    Acceso: https://huggingface.co/datasets/HiTZ/composite_corpus_eseu_v1.0arrow-up-right

  • benchmark_eseu_testsets: Conjunto de datos de test balanceados en castellano, euskera y bilingüe con code-switching. Incluye un total de 11 horas (5.737 oraciones).

    Acceso: https://huggingface.co/datasets/HiTZ/benchmark_eseu_testsetsarrow-up-right


Última actualización