LogoLogo
LogoLogo
  • Inicio
  • 🤗Modelos
    • 🔠Modelos de texto
    • ↔️Modelos de traducción automática
  • 📚Datasets
    • 🔠Datos y herramientas para modelos de texto
      • Datasets de pre entrenamiento ALIA 40B
    • 🗣️Datos y herramientas para modelos de voz
    • ↔️Datos para la traducción automática
  • 🕹️Demostradores
    • 🤗En Spaces de Hugging Face
    • Page
Con tecnología de GitBook
En esta página
Exportar como PDF
  1. Datasets

Datos y herramientas para modelos de voz

AnteriorDatasets de pre entrenamiento ALIA 40BSiguienteDatos para la traducción automática

Última actualización hace 2 meses

Corpus de voz

Corpus de voz con transcripción

  • corts_valencianes_asr_a: Conjunto de datos formado por grabaciones de voz de las sesiones de las Corts Valencianes. Incluye 270 horas, 5 minutos y 34 segundos de voz, incluyendo 239h 05m 24s para los segmentos cortos y 31h 00m 11s para los segmentos largos, con un total de 2.621.096 palabras.

    Tarea: Reconocimiento del habla

    Acceso:

  • commonvoice_benchmark_catalan_accents: Nueva versión del corpus Common Voice en catalán (v17) que incluye la anotación de metadatos (género y dialecto) hecha por un grupo de expertos de la Universidad de Barcelona de los 263 hablantes que en la v13 habían grabado más de 1.200 segundos de voz .

    Tarea: Reconocimiento del habla

    Acceso:

  • cv17_es_other_automatically_verified: 581.680 archivos de audio (784 horas y 50 minutos) en castellano validados automáticamente con el modelo

    Tarea: econocimiento del habla

    Acceso:

  • escagleu-64k: Corpus paralelo de 64.091 frases traducidas del español al catalán, adaptación al valenciano, gallego y vasco. Las frases originales son en español y provienen del corpus Common Voice en español. La traducción al gallego y al vasco se realizó con traducción automática.

    Tarea: Traducción automática, traducción de voz a texto y traducción de voz a voz

    Acceso:

  • Synthetic DEM Corpus: Conjunto de datos compuesto por grabaciones de voz con el acento característico del español del centro de México. El corpus tiene un tamaño de 371 horas e incluye palabras, definiciones, ejemplos y ejemplos generados por LLM. Este conjunto de datos es el resultado de la primera fase de una colaboración entre El Colegio de México (COLMEX) y el Barcelona Supercomputing Center (BSC).

    Tarea: Reconocimiento del habla

    Acceso:


📚
🗣️
https://huggingface.co/datasets/projecte-aina/corts_valencianes_asr_a
https://huggingface.co/datasets/projecte-aina/commonvoice_benchmark_catalan_accents
OpenAI's Whisper
https://huggingface.co/datasets/projecte-aina/cv17_es_other_automatically_verified
https://huggingface.co/datasets/projecte-aina/escagleu-64k
https://huggingface.co/datasets/projecte-aina/synthetic_dem