Datasets de pre entrenamiento ALIA 40B
Relación de datasets con referencias en el marco del pre entrenamiento del modelo ALIA 40B.
Los corpus de entrenamiento se listan a continuación:
Corpus
Lenguas
Link
Colossal OSCAR 1.0
bg, ca, cs, cy, da, de, el, en, es, et, eu, fi, fr, ga, gl, hr, hu, it, lt, lv, mt, nl, nn, no, oc, pl, pt, ro, ru, sh, sk, sl, sr, sv, uk
Aya Dataset (w/o Evaluation Suite)
eu, hr, nl, fi, ka, hu, lt, nn, ro, sk, lv, cy, bg, cs, en, fr, de, ga, mt, pl, ru, sl, sv, ca, da, et, gl, el, it, no, pt, sr, es, uk
Wikimedia dumps
bg, ca, cs, da, de, el, en, es, et, eu, fi, fr, ga, gl, hr, hu, it, lt, lv, mt, nl, nn, no, pl, pt, ro, sh, sk, sl, sr, uk
OpenSubtitles v2016
bg, ca, cs, da, de, el, en, es, et, eu, fi, fr, gl, hr, it, lt, lv, nl, no, pl, pt, ro, sk, sl, sr, sv, uk
EurLEX-Resources
bg, cs, da, de, el, en, es, et, fi, fr, ga, hr, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv
MC4-Legal
bg, cs, da, de, el, en, es, et, fi, fr, ga, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv
Parlamint
at, bg, cz, dk, ee, es, es-ga, fi, fr, gb, gr, hr, hu, it, lv, nl, no, pl, pt, rs, se, si
Norwegian Colossal Corpus (NCC)
nn, no
Dolmino-mix-1124 (subset without synthetically generated data and privative licenses)
en
Estonian National Corpus 2021 (ENC)
et
Fineweb2 (ad hoc subset of 178BT)
ar, as, bg, ca, cs, cy, da, de, el, es, et, eu, fi, fr, ga, gl, hr, hu, it, lt, lv, mt, nl, nn, no, oc, pl, pt, ro, ru, sk, sl, sr, sv, uk
French Public Domain Newspapers (French-PD)
fr
MARCELL Romanian legislative subcorpus v2
ro
Occitan Corpus (IEA-AALO)
oc
Datos descargados de la web del institut a través de acuerdo, no publicados.
Open Legal Data - German court decisions and laws
de
enlace de descarga desactualizado
RedPajama-Data T1 (StackExchange subset)
en
Scientific-ES
es
Recopilación de repositorios en abierto (https://dialnet.unirioja.es/, https://scielo.isciii.es/scielo.php, https://revistas.csic.es/, https://www.tesisenred.net/, https://docta.ucm.es/home)
SK Court Decisions v2.0 (OD-Justice)
sk
SoNaR Corpus NC 1.2
nl
SrpKorSubset: news, legal, academic, conversation, lit- erary (SrpKor)
sr
State-related content from the Latvian Web (State-Latvian-Web)
lv
SYN v9: large corpus of written Czech
cs
The Danish Parliament Corpus 2009 - 2017, v1
da
The Gaois bilingual corpus of English-Irish legislation (Ga-Legislation)
ga
The Swedish Culturomics Gigaword Corpus (Swedish- Gigaword)
sv
Última actualización