LogoLogo
LogoLogo
  • Inicio
  • 🤗Modelos
    • 🔠Modelos de texto
    • ↔️Modelos de traducción automática
  • 📚Datasets
    • 🔠Datos y herramientas para modelos de texto
      • Datasets de pre entrenamiento ALIA 40B
    • 🗣️Datos y herramientas para modelos de voz
    • ↔️Datos para la traducción automática
  • 🕹️Demostradores
    • 🤗En Spaces de Hugging Face
    • Page
Con tecnología de GitBook
En esta página
Exportar como PDF
  1. Datasets

Datos para la traducción automática

AnteriorDatos y herramientas para modelos de vozSiguienteEn Spaces de Hugging Face

Última actualización hace 6 meses

Corpus paralelos para el entrenamiento de modelos de traducción automática

Idiomas
Núm. de Frases
Origen de los datos
Disponible en
Nombre del corpus
Idiomas
Núm. de Frases
Origen de los datos
Disponible en
Nombre del corpus
Idiomas
Núm. de Frases
Origen de los datos
Disponible en
Nombre del corpus
Idiomas
Núm. de Frases
Origen de los datos
Disponible en
Nombre del corpus
Idiomas
Núm. de Frases
Origen de los datos
Disponible en
Nombre del corpus


📚
↔️

Catalán-Gallego

33.668.599

NOS + AINA

CA-GL_Parallel_Corpus

Catalán-Euskera

10.471.139

GAITU + AINA

CA-EU_Parallel_Corpus

Español-Aragonés

47.521

Corpus sintético + OPUS

ES-AN Parallel Corpus

Español-Asturiano

704.378

Corpus sintético + OPUS

ES-AST Parallel Corpus

Español-Aranés

419.908

Corpus sintético + OPUS

ES-OC Parallel Corpus

https://huggingface.co/datasets/projecte-aina/CA-GL_Parallel_Corpus
https://huggingface.co/datasets/projecte-aina/CA-EU_Parallel_Corpus
https://huggingface.co/datasets/projecte-aina/ES-AN_Parallel_Corpus
https://huggingface.co/datasets/projecte-aina/ES-AST_Parallel_Corpus
https://huggingface.co/datasets/projecte-aina/ES-OC_Parallel_Corpus