🗣️Datos y herramientas para modelos de voz
Corpus de voz
Corpus de voz con transcripción
corts_valencianes_asr_a: Conjunto de datos formado por grabaciones de voz de las sesiones de las Corts Valencianes. Incluye 270 horas, 5 minutos y 34 segundos de voz, distribuidos en 239h 05m 24s correspondientes a segmentos cortos y 31h 00m 11s correspondientes a segmentos largos. El corpus incluye un total de 2.621.096 palabras.
Tarea: Reconocimiento del habla
Acceso: https://huggingface.co/datasets/projecte-aina/corts_valencianes_asr_a
commonvoice_benchmark_catalan_accents: Benchmark diseñado para evaluar la precisión de los modelos de reconocimiento automático del habla en distintos géneros y dialectos. Elaborado a partir de una reorganización de los datos de annotated_catalan_common_voice_v17,, incluye dos horas y media de audio para cada combinación de género y dialecto considerada.
Tarea: Reconocimiento del habla
Acceso: https://huggingface.co/datasets/projecte-aina/commonvoice_benchmark_catalan_accents
cv17_es_other_automatically_verified: 581.680 archivos de audio (784 horas y 50 minutos) en castellano validados automáticamente con el modelo OpenAI's Whisper.
Tarea: econocimiento del habla
Acceso: https://huggingface.co/datasets/projecte-aina/cv17_es_other_automatically_verified
escagleu-64k: Corpus paralelo de 64.091 frases traducidas del español al catalán, adaptación al valenciano, gallego y vasco. Las frases originales provienen del corpus Common Voice. La traducción al gallego y al vasco se realizó con traducción automática.
Tarea: Traducción automática, traducción de voz a texto y traducción de voz a voz.
Acceso: https://huggingface.co/datasets/projecte-aina/escagleu-64k
Synthetic DEM Corpus: Conjunto de datos compuesto por grabaciones de voz con el acento característico del español del centro de México. El corpus tiene un tamaño de 371 horas e incluye palabras, definiciones, ejemplos y ejemplos generados por LLM. Este conjunto de datos es el resultado de la primera fase de una colaboración entre El Colegio de México (COLMEX) y el Barcelona Supercomputing Center (BSC).
Tarea: Reconocimiento del habla
Acceso: https://huggingface.co/datasets/projecte-aina/synthetic_dem
Última actualización