↔️Datos para la traducción automática

Corpus paralelos para el entrenamiento de modelos de traducción automática

Idiomas

Multilingüe

Núm. de Frases

453.783.349

Origen de los datos

OPUS + otras funets públicas + corpus sintético

Nombre del corpus

ALIA_mixed_authentic_synthetic_MT

Idiomas

Catalán-Gallego

Núm. de Frases

33.668.599

Origen de los datos

NOS + AINA

Nombre del corpus

CA-GL_Parallel_Corpus

Idiomas

Catalán-Euskera

Núm. de Frases

10.471.139

Origen de los datos

GAITU + AINA

Nombre del corpus

CA-EU_Parallel_Corpus

Idiomas

Catalán - Aranés

Núm. de Frases

539.110

Origen de los datos

Distintas fuentes de datos paralelos + Sintético

Nombre del corpus

Catalan-Aranese Parallel Corpus

Idiomas

Español-Aragonés

Núm. de Frases

47.521

Origen de los datos

Corpus sintético + OPUS

Nombre del corpus

ES-AN Parallel Corpus

Idiomas

Español-Asturiano

Núm. de Frases

704.378

Origen de los datos

Corpus sintético + OPUS

Nombre del corpus

ES-AST Parallel Corpus

Idiomas

Español-Aranés

Núm. de Frases

419.908

Origen de los datos

Corpus sintético + OPUS

Nombre del corpus

ES-OC Parallel Corpus

Idiomas

Español - Valenciano

Núm. de Frases

2.162.451

Origen de los datos

BOUA + DOGV + BOUMH + Generalitat Valenciana + Les Corts Valencianes

Nombre del corpus

Spanish-Valencian Catalan Parallel Corpus

Idiomas

Valenciano - Español

Núm. de Frases

120.281

Origen de los datos

Universitat Jaume I

Nombre del corpus

UJI_PARALLEL_VA_ES Dataset

Idiomas

Valenciano - Español

Núm. de Frases

8.759.238

Origen de los datos

Diari Oficial de la Generalitat Valenciana

Nombre del corpus

DOGV_PARALLEL Dataset

Idiomas

Valenciano - Español

Núm. de Frases

738.777

Origen de los datos

Associació de Mitjans d'Informació i Comunicació

Nombre del corpus

AMIC_PARALLEL Dataset

Idiomas

Valenciano - Español

Núm. de Frases

357.518

Origen de los datos

Boletín Oficial de la Universidad de Alicante

Nombre del corpus

BOUA_PARALLEL Dataset

Idiomas

Valenciano - Inglés

Núm. de Frases

43.107

Origen de los datos

Universitat Jaume I

Nombre del corpus

UJI_PARALLEL_VA_EN Dataset

Idiomas

Español - Catalán

Núm. de Frases

1.958

Origen de los datos

Common Voice

Nombre del corpus

ES-CA_alignment_test Dataset

Idiomas

Español - Valenciano

Núm. de Frases

1.958

Origen de los datos

Common Voice

Nombre del corpus

ES-VA_alignment_test Dataset

Idiomas

Catalán - Valenciano

Núm. de Frases

1.958

Origen de los datos

Common Voice

Nombre del corpus

CA-VA_alignment_test Dataset

Idiomas

Inglés - Español

Núm. de Frases

35.753.765

Origen de los datos

Distintas fuentes de dominios legal-administrativo, biomédico y patrimonial

Nombre del corpus

ALIA-parallel-translation

Idiomas

Inglés - Español

Núm. de Frases

288.955 documentos

Origen de los datos

Distintas fuentes de dominio patrimonial

Nombre del corpus

ALIA-heritage-parallel-translation

Idiomas

Inglés - Español - Euskera

Núm. de Frases

137.726

Origen de los datos

Berria (Sintético)

Nombre del corpus

ALIA synthetic MT

Idiomas

Español-Gallego

Núm. de Frases

8.800 pares oracionales bilingües

Origen de los datos

CORPES,CORGA + Sintético

Nombre del corpus

Spanish–Galician Idiom Parallel Corpus

Idiomas

Español–Gallego e Inglés–Gallego

Núm. de Frases

300.000 oraciones alineadas

Origen de los datos

SCIELO

Nombre del corpus

corpus SCIELO

Idiomas

Español–Gallego

Núm. de Frases

320.000 pares de oraciones alineadas

Origen de los datos

Dirección General de Traducción

Nombre del corpus

Corpus DGT

Idiomas

gallego, portugués, español, catalán, esuskera, inglés

Núm. de Frases

190.000 pares de oraciones alineadas

Origen de los datos

TowerBlocks

Nombre del corpus

Finetuning-MT



Corpus para la adaptación y la evaluación de modelos de traducción automática

Idiomas

Multilingüe

Núm. Frases
742.183
Origen de los datos

Repositorios académicos europeos

Nombre

ACAData

Última actualización