Aina Kit
Aina Kit
  • Inici
  • 🤗Models
    • 🔠Models de text
    • 🗣️Models de parla
    • ↔️Models de traducció automàtica
    • 🏆Avaluació de models en llengua catalana
  • 📚Datasets
    • 🔠Dades i eines per a models de text
    • 🗣️Dades i eines per a models de veu
    • ↔️Dades per a la traducció automàtica
  • ▶️Testing
    • 🤗Via Hugging Face
    • ☁️Via integració amb serveis al núvol
    • 🐋Via Docker
    • 🧰Via pre-integració amb entorns de codi obert per a tecnologies del llenguatge
  • ▶️EINES D'INTEGRACIÓ
    • ☁️MTUOC
  • 🕹️Demostradors
    • 🤗A Spaces de Hugging Face
    • Page
Powered by GitBook

Social

  • Web
  • Twitter
  • Linkedin
  • Contacte

Tech

  • Blog
  • Huggingface
  • Github
  • Dockerhub

© Projecte Aina | Language Technologies Unit at BSC

On this page
  • Corpus paral·lels per a l'entrenament de models de traducció automàtica
  • Corpus paral·lels per a l'adaptació i l'avaluació de models de traducció automàtica
  1. Datasets

Dades per a la traducció automàtica

Last updated 3 months ago

Corpus paral·lels per a l'entrenament de models de traducció automàtica

Llengües
Num. de Frases
Orígen de les dades
Disponible a
Llengües
Num. de Frases
Orígen de les dades
Disponible a
Llengües
Num. de Frases
Orígen de les dades
Disponible a
Llengües
Num. de Frases
Orígen de les dades
Disponible a
Llengües
Num. de Frases
Orígen de les dades
Disponible a
Llengües
Num. de Frases
Orígen de les dades
Disponible a
Llengües
Num. de Frases
Orígen de les dades
Disponible a
Llengües
Num. de Frases
Orígen de les dades
Disponible a

Corpus paral·lels per a l'adaptació i l'avaluació de models de traducció automàtica

Corpus
Font
Llengües
Frases
Domini
Disponible a
Llicència
Corpus
Font
Llengües
Frases
Domini
Disponible a
Llicència
Corpus
Font
Llengües
Frases
Domini
Disponible a
Llicència
Corpus
Font
Llengües
Frases
Domini
Disponible a
Llicència
Corpus
Font
Llengües
Frases
Domini
Disponible a
Llicència
Corpus
Font
Llengües
Frases
Domini
Disponible a
Llicència
Corpus
Font
Llengües
Frases
Domini
Disponible a
Llicència

📚
↔️

CA-EN_Parallel_Corpus

Català-Anglès

14.967.978

web

CA-FR_Parallel_Corpus

Català-Francès

18.634.858

OPUS

CA-PT_Parallel_Corpus

Català-Portuguès

9.892.953

OPUS + Softcatalà (augmentat)

CA-IT_Parallel_Corpus

Català-Italià

9.482.931

OPUS

CA-DE_Parallel_Corpus

Català-Alemany

9.530.709

OPUS + Softcatalà (augmentat)

CA-ZH_Parallel_Corpus

Català-Xinès

94.187.858

OPUS (augmentat)

CA-GL_Parallel_Corpus

Català-Gallec

33.668.599

NOS + AINA

CA-EU_Parallel_Corpus

Català-Euskera

10.471.139

GAITU + AINA

GEnCaTa

gencat.cat

català, anglès

38.595

Administratiu

CC0

Corpus bilingüe CA-EN de la CE

Comissió Europea

català, anglès

46.048

Ciència i Tecnologia, Economia, Educació, Medi Ambient, Institucional, Temes Socials

CC-BY-4.0

Col·lecció de corpus CA-EN de l’AP

Generalitat de Catalunya

català, anglès

37.116

Diversos

CC-BY-NC-ND-4.0

Col·lecció de corpus CA-ES de l’AP

Generalitat de Catalunya

català, castellà

63.773

Diversos

CC-BY-NC-ND-4.0

TaCon

Agencia Estatal del Boletín Oficial del Estado (www.boe.es)

català, castellà, gallec, basc, anglès

1.314

Legal

CC-BY-4.0

Cyber MT test set

corpus INCIBE castellà-anglès

català, castellà, anglès

966

Ciberseguretat

CC-BY-NC-SA-3.0

Catalan WMT2013

WMT 2013 shared task test set

català, anglès

3.000

Notícies

CC-BY-4.0

https://huggingface.co/datasets/projecte-aina/CA-EN_Parallel_Corpus
https://huggingface.co/datasets/projecte-aina/CA-FR_Parallel_Corpus
https://huggingface.co/datasets/projecte-aina/CA-PT_Parallel_Corpus
https://huggingface.co/datasets/projecte-aina/CA-IT_Parallel_Corpus
https://huggingface.co/datasets/projecte-aina/CA-DE_Parallel_Corpus
https://huggingface.co/datasets/projecte-aina/CA-ZH_Parallel_Corpus
https://huggingface.co/datasets/projecte-aina/CA-GL_Parallel_Corpus
https://huggingface.co/datasets/projecte-aina/CA-EU_Parallel_Corpus
ELRC-Share
ELRC-Share
ELRC-Share
ELRC-Share
ELRC-Share
ELRC-Share
ELRC-Share