↔️Dades per a la traducció automàtica

Corpus paral·lels per a l'entrenament de models de traducció automàtica

CA-EN_Parallel_Corpus

Llengües

Català-Anglès

Num. de Frases

14.967.978

Orígen de les dades

web

CA-FR_Parallel_Corpus

Llengües

Català-Francès

Num. de Frases

18.634.858

Orígen de les dades

OPUS

CA-PT_Parallel_Corpus

Llengües

Català-Portuguès

Num. de Frases

9.892.953

Orígen de les dades

OPUS + Softcatalà (augmentat)

CA-IT_Parallel_Corpus

Llengües

Català-Italià

Num. de Frases

9.482.931

Orígen de les dades

OPUS

CA-DE_Parallel_Corpus

Llengües

Català-Alemany

Num. de Frases

6.258.270

Orígen de les dades

OPUS + Softcatalà (augmentat)

CA-ZH_Parallel_Corpus

Llengües

Català-Xinès

Num. de Frases

94.187.858

Orígen de les dades

OPUS (augmentat)

CA-GL_Parallel_Corpus

Llengües

Català-Gallec

Num. de Frases

33.668.599

Orígen de les dades

NOS + AINA

CA-EU_Parallel_Corpus

Llengües

Català-Euskera

Num. de Frases

10.471.139

Orígen de les dades

GAITU + AINA


Corpus paral·lels per a l'adaptació i l'avaluació de models de traducció automàtica

Corpus

GEnCaTa

Font

gencat.cat

Llengües

català, anglès

Frases

38.595

Domini

Administratiu

Disponible a
Llicència

CC0

Corpus

Corpus bilingüe CA-EN de la CE

Font

Comissió Europea

Llengües

català, anglès

Frases

46.048

Domini

Ciència i Tecnologia, Economia, Educació, Medi Ambient, Institucional, Temes Socials

Disponible a
Llicència

CC-BY-4.0

Corpus

Col·lecció de corpus CA-EN de l’AP

Font

Generalitat de Catalunya

Llengües

català, anglès

Frases

37.116

Domini

Diversos

Disponible a
Llicència

CC-BY-NC-ND-4.0

Corpus

Col·lecció de corpus CA-ES de l’AP

Font

Generalitat de Catalunya

Llengües

català, castellà

Frases

63.773

Domini

Diversos

Disponible a
Llicència

CC-BY-NC-ND-4.0

Corpus

TaCon

Font

Agencia Estatal del Boletín Oficial del Estado (www.boe.es)

Llengües

català, castellà, gallec, basc, anglès

Frases

1.314

Domini

Legal

Disponible a
Llicència

CC-BY-4.0

Corpus

Cyber MT test set

Font

corpus INCIBE castellà-anglès

Llengües

català, castellà, anglès

Frases

966

Domini

Ciberseguretat

Disponible a
Llicència

CC-BY-NC-SA-3.0

Corpus

Catalan WMT2013

Font

WMT 2013 shared task test set

Llengües

català, anglès

Frases

3.000

Domini

Notícies

Disponible a
Llicència

CC-BY-4.0


Last updated