> For the complete documentation index, see [llms.txt](https://langtech-bsc.gitbook.io/alia-kit/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://langtech-bsc.gitbook.io/alia-kit/datasets/datos-y-herramientas-para-traduccion-automatica.md). # Datos y herramientas para traducción automática ### Corpus paralelos para el entrenamiento de modelos de traducción automática

Idiomas	Núm. de Frases	Origen de los datos	Disponible en	Nombre del corpus
Multilingüe	453.783.349	OPUS + otras funets públicas + corpus sintético	https://huggingface.co/datasets/BSC-LT/ALIA_mixed_authentic_synthetic_MT	ALIA_mixed_authentic_synthetic_MT
Catalán-Gallego	33.668.599	NOS + AINA	https://huggingface.co/datasets/projecte-aina/CA-GL_Parallel_Corpus	CA-GL_Parallel_Corpus
Catalán-Euskera	10.471.139	GAITU + AINA	https://huggingface.co/datasets/projecte-aina/CA-EU_Parallel_Corpus	CA-EU_Parallel_Corpus
Catalán - Aranés	539.110	Distintas fuentes de datos paralelos + Sintético	https://huggingface.co/datasets/BSC-LT/Catalan-Aranese_Parallel_Corpus	Catalan-Aranese Parallel Corpus
Español-Aragonés	47.521	Corpus sintético + OPUS	https://huggingface.co/datasets/projecte-aina/ES-AN_Parallel_Corpus	ES-AN Parallel Corpus
Español-Asturiano	704.378	Corpus sintético + OPUS	https://huggingface.co/datasets/projecte-aina/ES-AST_Parallel_Corpus	ES-AST Parallel Corpus
Español-Aranés	419.908	Corpus sintético + OPUS	https://huggingface.co/datasets/projecte-aina/ES-OC_Parallel_Corpus	ES-OC Parallel Corpus
Español - Valenciano	2.162.451	BOUA + DOGV + BOUMH + Generalitat Valenciana + Les Corts Valencianes	https://huggingface.co/datasets/BSC-LT/Spanish-Valencian_Catalan_Parallel_Corpus	Spanish-Valencian Catalan Parallel Corpus
Valenciano - Español	15.697	Universitat de València	https://huggingface.co/datasets/gplsi/uv_parallel_va_es	UV_PARALLEL_VA_ES
Valenciano - Inglés	6.494	Universitat de València	https://huggingface.co/datasets/gplsi/uv_parallel_va_en	UV_PARALLEL_VA_EN
Valenciano - Español	120.281	Universitat Jaume I	https://huggingface.co/datasets/gplsi/uji_parallel_va_es	UJI_PARALLEL_VA_ES Dataset
Valenciano - Inglés	43.107	Universitat Jaume I	https://huggingface.co/datasets/gplsi/uji_parallel_va_en	UJI_PARALLEL_VA_EN Dataset
Valenciano - Español	8.759.238	Diari Oficial de la Generalitat Valenciana	https://huggingface.co/datasets/gplsi/dogv_parallel	DOGV_PARALLEL Dataset
Valenciano - Español	738.777	Associació de Mitjans d'Informació i Comunicació	https://huggingface.co/datasets/gplsi/amic_parallel	AMIC_PARALLEL Dataset
Valenciano - Español	357.518	Boletín Oficial de la Universidad de Alicante	https://huggingface.co/datasets/gplsi/boua_parallel	BOUA_PARALLEL Dataset
Español - Catalán	1.958	Common Voice	https://huggingface.co/datasets/gplsi/ES-CA_translation_test	ES-CA_alignment_test Dataset
Español - Valenciano	1.958	Common Voice	https://huggingface.co/datasets/gplsi/ES-VA_translation_test	ES-VA_alignment_test Dataset
Catalán - Valenciano	1.958	Common Voice	https://huggingface.co/datasets/gplsi/CA-VA_alignment_test	CA-VA_alignment_test Dataset
español-valenciano-catalán	802 (palabras/expresiones)		https://huggingface.co/datasets/gplsi/es_vaca	es_vaca
Español - Inglés (MWEs)	235 (expresiones multi-palabra)	Películas de Pedro Almodóvar	https://huggingface.co/datasets/gplsi/almo-mwe	ALMO-MWE
Inglés - Español	35.753.765	Distintas fuentes de dominios legal-administrativo, biomédico y patrimonial	https://huggingface.co/datasets/SINAI/ALIA-parallel-translation	ALIA-parallel-translation
Inglés - Español	288.955 documentos	Distintas fuentes de dominio patrimonial	https://huggingface.co/datasets/SINAI/ALIA-heritage-parallel-translation	ALIA-heritage-parallel-translation
Inglés - Español - Euskera	137.726	Berria (Sintético)	https://huggingface.co/datasets/HiTZ/ALIA_syntethic_MT	ALIA synthetic MT
Español-Gallego	8.800 pares oracionales bilingües	CORPES,CORGA + Sintético	https://huggingface.co/datasets/proxectonos/corpus_paralelo_idioms	Spanish–Galician Idiom Parallel Corpus
Español–Gallego e Inglés–Gallego	300.000 oraciones alineadas	SCIELO	https://huggingface.co/datasets/proxectonos/SciELO-GL	corpus SCIELO
Español–Gallego	320.000 pares de oraciones alineadas	Dirección General de Traducción	https://huggingface.co/datasets/proxectonos/DGT-GL	Corpus DGT
gallego, portugués, español, catalán, euskera, inglés	190.000 pares de oraciones alineadas	TowerBlocks	https://huggingface.co/datasets/proxectonos/Finetuning-MT	Finetuning-MT

*** *** ### Corpus para la adaptación y la evaluación de modelos de traducción automática

Idiomas	Núm. Frases	Origen de los datos	Disponible en	Nombre
Multilingüe	742.183	Repositorios académicos europeos	https://huggingface.co/datasets/BSC-LT/ACAData	ACAData
español, catalán, euskera, inglés	518	FLORES	https://huggingface.co/datasets/HiTZ/flores_plus_gender	FLORES+G
euskera	1.827	WinoMT	https://huggingface.co/datasets/HiTZ/winomteus	WinoTMeus
español - gallego	13.198		https://huggingface.co/datasets/proxectonos/corpus_paralelo_idioms	Corpus paralelo idioms
español - gallego	13.6		https://huggingface.co/datasets/proxectonos/erros_sistematicos_traducion_es_gl	Errores sistemáticos traducción

### Herramientas para modelos de traducción automática * Herramienta optimizada para el alineamiento de oraciones, párrafos y documentos: --- # Agent Instructions This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com. ## Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter: ``` GET https://langtech-bsc.gitbook.io/alia-kit/datasets/datos-y-herramientas-para-traduccion-automatica.md?ask=&goal= ``` `ask` is the immediate question: it should be specific, self-contained, and written in natural language. `goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.