arrow-left

Todas las páginas
gitbookCon tecnología de GitBook
1 de 1

Loading...

Datos para la traducción automática

hashtag
Corpus paralelos para el entrenamiento de modelos de traducción automática

Idiomas
Núm. de Frases
Origen de los datos
Disponible en
Nombre del corpus
Idiomas
Núm. de Frases
Origen de los datos
Disponible en
Nombre del corpus
Idiomas
Núm. de Frases
Origen de los datos
Disponible en
Nombre del corpus
Idiomas
Núm. de Frases
Origen de los datos
Disponible en
Nombre del corpus
Idiomas
Núm. de Frases
Origen de los datos
Disponible en
Nombre del corpus
Idiomas
Núm. de Frases
Origen de los datos
Disponible en
Nombre del corpus
Idiomas
Núm. de Frases
Origen de los datos
Disponible en
Nombre del corpus
Idiomas
Núm. de Frases
Origen de los datos
Disponible en
Nombre del corpus
Idiomas
Núm. de Frases
Origen de los datos
Disponible en
Nombre del corpus
Idiomas
Núm. de Frases
Origen de los datos
Disponible en
Nombre del corpus
Idiomas
Núm. de Frases
Origen de los datos
Disponible en
Nombre del corpus
Idiomas
Núm. de Frases
Origen de los datos
Disponible en
Nombre del corpus
Idiomas
Núm. de Frases
Origen de los datos
Disponible en
Nombre del corpus
Idiomas
Núm. de Frases
Origen de los datos
Disponible en
Nombre del corpus
Idiomas
Núm. de Frases
Origen de los datos
Disponible en
Nombre del corpus
Idiomas
Núm. de Frases
Origen de los datos
Disponible en
Nombre del corpus


hashtag
Corpus para la adaptación y la evaluación de modelos de traducción automática

Multilingüe

453.783.349

OPUS + otras funets públicas + corpus sintético

https://huggingface.co/datasets/BSC-LT/ALIA_mixed_authentic_synthetic_MTarrow-up-right

ALIA_mixed_authentic_synthetic_MT

Catalán-Gallego

33.668.599

NOS + AINA

https://huggingface.co/datasets/projecte-aina/CA-GL_Parallel_Corpusarrow-up-right

CA-GL_Parallel_Corpus

Catalán-Euskera

10.471.139

GAITU + AINA

https://huggingface.co/datasets/projecte-aina/CA-EU_Parallel_Corpusarrow-up-right

CA-EU_Parallel_Corpus

Español-Aragonés

47.521

Corpus sintético + OPUS

https://huggingface.co/datasets/projecte-aina/ES-AN_Parallel_Corpusarrow-up-right

ES-AN Parallel Corpus

Español-Asturiano

704.378

Corpus sintético + OPUS

https://huggingface.co/datasets/projecte-aina/ES-AST_Parallel_Corpusarrow-up-right

ES-AST Parallel Corpus

Español-Aranés

419.908

Corpus sintético + OPUS

https://huggingface.co/datasets/projecte-aina/ES-OC_Parallel_Corpusarrow-up-right

ES-OC Parallel Corpus

Valenciano - Español

120.281

Universitat Jaume I

https://huggingface.co/datasets/gplsi/uji_parallel_va_esarrow-up-right

UJI_PARALLEL_VA_ES Dataset

Valenciano - Español

8.759.238

Diari Oficial de la Generalitat Valenciana

https://huggingface.co/datasets/gplsi/dogv_parallelarrow-up-right

DOGV_PARALLEL Dataset

Valenciano - Español

738.777

Associació de Mitjans d'Informació i Comunicació

https://huggingface.co/datasets/gplsi/amic_parallelarrow-up-right

AMIC_PARALLEL Dataset

Valenciano - Español

357.518

Boletín Oficial de la Universidad de Alicante

https://huggingface.co/datasets/gplsi/boua_parallelarrow-up-right

BOUA_PARALLEL Dataset

Valenciano - Inglés

43.107

Universitat Jaume I

https://huggingface.co/datasets/gplsi/uji_parallel_va_enarrow-up-right

UJI_PARALLEL_VA_EN Dataset

Español - Catalán

1.958

Common Voice

https://huggingface.co/datasets/gplsi/ES-CA_translation_testarrow-up-right

ES-CA_alignment_test Dataset

Español - Valenciano

1.958

Common Voice

https://huggingface.co/datasets/gplsi/ES-VA_translation_testarrow-up-right

ES-VA_alignment_test Dataset

Catalán - Valenciano

1.958

Common Voice

https://huggingface.co/datasets/gplsi/CA-VA_alignment_testarrow-up-right

CA-VA_alignment_test Dataset

Inglés - Español

35.753.765

Distintas funtes de dominios legal-administrativo, biomédico y patrimonial

https://huggingface.co/datasets/SINAI/ALIA-parallel-translationarrow-up-right

ALIA-parallel-translation

Inglés - Español - Euskera

137.726

Berria (Sintético)

https://huggingface.co/datasets/HiTZ/ALIA_syntethic_MTarrow-up-right

ALIA synthetic MT

Idiomas

Multilingüe

Núm. Frases
742.183
Origen de los datos

Repositorios académicos europeos

Disponible en

Nombre

ACAData

https://huggingface.co/datasets/BSC-LT/ACADataarrow-up-right