↔️Datos para la traducción automática

Corpus paralelos para el entrenamiento de modelos de traducción automática

Idiomas

Multilingüe

Núm. de Frases

453.783.349

Origen de los datos

OPUS + otras funets públicas + corpus sintético

Nombre del corpus

ALIA_mixed_authentic_synthetic_MT

Idiomas

Catalán-Gallego

Núm. de Frases

33.668.599

Origen de los datos

NOS + AINA

Nombre del corpus

CA-GL_Parallel_Corpus

Idiomas

Catalán-Euskera

Núm. de Frases

10.471.139

Origen de los datos

GAITU + AINA

Nombre del corpus

CA-EU_Parallel_Corpus

Idiomas

Español-Aragonés

Núm. de Frases

47.521

Origen de los datos

Corpus sintético + OPUS

Nombre del corpus

ES-AN Parallel Corpus

Idiomas

Español-Asturiano

Núm. de Frases

704.378

Origen de los datos

Corpus sintético + OPUS

Nombre del corpus

ES-AST Parallel Corpus

Idiomas

Español-Aranés

Núm. de Frases

419.908

Origen de los datos

Corpus sintético + OPUS

Nombre del corpus

ES-OC Parallel Corpus

Idiomas

Valenciano - Español

Núm. de Frases

120.281

Origen de los datos

Universitat Jaume I

Nombre del corpus

UJI_PARALLEL_VA_ES Dataset

Idiomas

Valenciano - Español

Núm. de Frases

8.759.238

Origen de los datos

Diari Oficial de la Generalitat Valenciana

Nombre del corpus

DOGV_PARALLEL Dataset

Idiomas

Valenciano - Español

Núm. de Frases

738.777

Origen de los datos

Associació de Mitjans d'Informació i Comunicació

Nombre del corpus

AMIC_PARALLEL Dataset

Idiomas

Valenciano - Español

Núm. de Frases

357.518

Origen de los datos

Boletín Oficial de la Universidad de Alicante

Nombre del corpus

BOUA_PARALLEL Dataset

Idiomas

Valenciano - Inglés

Núm. de Frases

43.107

Origen de los datos

Universitat Jaume I

Nombre del corpus

UJI_PARALLEL_VA_EN Dataset

Idiomas

Español - Catalán

Núm. de Frases

1.958

Origen de los datos

Common Voice

Nombre del corpus

ES-CA_alignment_test Dataset

Idiomas

Español - Valenciano

Núm. de Frases

1.958

Origen de los datos

Common Voice

Nombre del corpus

ES-VA_alignment_test Dataset

Idiomas

Catalán - Valenciano

Núm. de Frases

1.958

Origen de los datos

Common Voice

Nombre del corpus

CA-VA_alignment_test Dataset

Idiomas

Inglés - Español

Núm. de Frases

35.753.765

Origen de los datos

Distintas funtes de dominios legal-administrativo, biomédico y patrimonial

Nombre del corpus

ALIA-parallel-translation

Idiomas

Inglés - Español - Euskera

Núm. de Frases

137.726

Origen de los datos

Berria (Sintético)

Nombre del corpus

ALIA synthetic MT



Corpus para la adaptación y la evaluación de modelos de traducción automática

Idiomas

Multilingüe

Núm. Frases
742.183
Origen de los datos

Repositorios académicos europeos

Nombre

ACAData

Última actualización