Datos y herramientas para modelos de voz
Corpus de voz
Corpus de voz con transcripción
corts_valencianes_asr_a: Conjunto de datos formado por grabaciones de voz de las sesiones de las Corts Valencianes. Incluye 270 horas, 5 minutos y 34 segundos de voz, incluyendo 239h 05m 24s para los segmentos cortos y 31h 00m 11s para los segmentos largos, con un total de 2.621.096 palabras.
Tarea: Reconocimiento del habla
Acceso: https://huggingface.co/datasets/projecte-aina/corts_valencianes_asr_a
commonvoice_benchmark_catalan_accents: Nueva versión del corpus Common Voice en catalán (v17) que incluye la anotación de metadatos (género y dialecto) hecha por un grupo de expertos de la Universidad de Barcelona de los 263 hablantes que en la v13 habían grabado más de 1.200 segundos de voz .
Tarea: Reconocimiento del habla
Acceso: https://huggingface.co/datasets/projecte-aina/commonvoice_benchmark_catalan_accents
escagleu-64k: Corpus paralelo de 64.091 frases traducidas del español al catalán, adaptación al valenciano, gallego y vasco. Las frases originales son en español y provienen del corpus Common Voice en español. La traducción al gallego y al vasco se realizó con traducción automática.
Tarea: Traducción automática, traducción de voz a texto y traducción de voz a voz
Acceso: https://huggingface.co/datasets/projecte-aina/escagleu-64k
Synthetic DEM Corpus: Conjunto de datos compuesto por grabaciones de voz con el acento característico del español del centro de México. El corpus tiene un tamaño de 371 horas e incluye palabras, definiciones, ejemplos y ejemplos generados por LLM. Este conjunto de datos es el resultado de la primera fase de una colaboración entre El Colegio de México (COLMEX) y el Barcelona Supercomputing Center (BSC).
Tarea: Reconocimiento del habla
Acceso: https://huggingface.co/datasets/projecte-aina/synthetic_dem
Última actualización