arrow-left

Todas las páginas
gitbookCon tecnología de GitBook
1 de 2

Loading...

Loading...

Datos y herramientas para modelos de texto

hashtag
Corpus textuales

  • CATalog: Corpus textual masivo compuesto por 17.450.496.729 palabras (aproximadamente 23 mil millones de tokens), distribuidas en 34.816.765 documentos provenientes de una amplia variedad de fuentes, con un porcentaje significativo de textos curados manualmente.

    Acceso: https://huggingface.co/datasets/projecte-aina/CATalogarrow-up-right

  • ALIA_DOGV Dataset: Corpus textual bilingüe valenciano-español proveniente del Diari Oficial de la Generalitat Valenciana.

    Acceso:

  • ALIA_BOUA Dataset: Corpus textual bilingüe valenciano-español proveniente del Boletín Oficial de la Universidad de Alicante.

    Acceso:

  • ALIA_AMIC Dataset: Corpus textual en valenciano proveniente de periódicos/blogs del repositorio AMIC.

    Acceso:

  • ALIA_LES_CORTS Dataset: Corpus textual bilingüe valenciano-español proveniente de Les Corts Valencianes.

    Acceso:

  • MULTILINGUAL PARALLEL SENTENCES Dataset: Corpus de textos multilingües valenciano, español e inglés.

    Acceso:


hashtag
Corpus de dominio

  • ALIA_TOURISM: Corpus especializado en el dominio turístico que incluye textos en valenciano, español e inglés. Cada documento incluye su fuente original, lo que permite filtrar el contenido según la licencia necesaria para cada caso de uso. Incluye un total de 79.15M tokens, de ellos 12.56M en valenciano, 65.34M en español y 1.35M en inglés.

    Acceso:

  • ALIA_INTELLECTUAL_PROPERTY: Corpus especializado en el dominio de la propiedad intelectual que incluye en su versión actual textos en español. Incluye un total de 1130M tokens en español.

    Acceso:


hashtag
Datos anotados para fine tuning y/o evaluación de modelos de texto

hashtag
Razonamiento causal

  • COPA-es: Traducción al castellano del corpus COPA, corpus de referencia para el razonamiento causal. Incluye 600 instancias, cada una de las cuales se compone de una premisa y dos hipótesis.

    Acceso:


hashtag
Datos para instruir modelos de texto

  • InstruCAT: Corpus que recopila más de 200.000 instrucciones destinadas al entrenamiento de modelos de lenguaje (LLMs) en tareas downstream, generadas a partir de los siguientes conjuntos de datos: caBreu, CatalanQA, CoQCat, GuiaCat, IntoxiCat, Parafraseja, PAWS-ca, sts-ca, WikiCat, CEIL, TECA y NLUCat. Estas instrucciones abarcan categorías como paráfrasis, detección de toxicidad, pregunta-respuesta, clasificación, resumen y análisis de sentimientos. Acceso:

  • ALIA-legal-administrative-synthetic-instructions: Corpus sintético de instrucciones en español para el dominio legal-administrativo. Incluye más de 7,4 millones de pares instrucción–respuesta.

    Acceso:

hashtag
Generación de datos sintéticos

  • mPersonas: Conjunto de datos multilingüe y de código abierto que contiene descripciones de personalidad de alta calidad, generadas sintéticamente con DeepSeek-V3–0324. Emplea una metodología de síntesis de datos basada en personas, similar a la de .

    Acceso:

hashtag
Datos para evaluar modelos de texto

  • SIQA_es: Traducción y adaptación al español del conjunto de validación de (Social Interaction Question Answering), diseñado para evaluar el razonamiento social de sentido común en modelos de lenguaje, presentando una colección de preguntas basadas en situaciones sociales cotidianas, con el objetivo de desafiar a los modelos a inferir motivaciones, reacciones e implicaciones sociales detrás de las acciones humanas.

    Acceso:

  • arc_es: Traducción y adaptación al español del conjunto de validación de (AI2 Reasoning Challenge), diseñado para evaluar el razonamiento científico en modelos de lenguaje, presentando una colección de preguntas auténticas de ciencias de nivel escolar en formato de opción múltiple, divididas en dos conjuntos de distinta dificultad: ARC Easy y ARC Challenging.

hashtag
Datasets de clasificación

  • DISCRIMINATIVE CLEARSIM_ES Dataset: Conjunto de textos en español diseñado para entrenar o evaluar modelos en una tarea de clasificación relacionada con el lenguaje claro. El conjunto de datos está compuesto por pares y tríos de textos alineados en tres niveles de complejidad: lengua original, lengua facilitada y lectura fácil. Incluye un total de 13.953 textos, agrupados en 4.651 tripletas únicas.

    Acceso:

  • DISCRIMINATIVE CLEARSIM_VA Dataset: Conjunto de textos en valenciano diseñado para entrenar o evaluar modelos en una tarea de clasificación relacionada con el lenguaje claro. El conjunto de datos está compuesto por pares y tríos de textos alineados en tres niveles de complejidad: lengua original, lengua facilitada y lectura fácil. Incluye un total de 13.953 textos, agrupados en 4.651 tripletas únicas.

hashtag
Datasets de pre entrenamiento ALIA 40B

Acceso:


hashtag
Herramientas para el suministro de datos de texto

Para garantizar el suministro de datos, se han implantado distintos métodos de adquisición de datos que automatizan este proceso y garantizan el suministro y la actualización de los datos.

  • Extractor de texto de Wikipedia que interpreta correctamente textos en una gran variedad de lenguas, entre ellas el español y el catalán. Extracción de más de 675.000 documentos.

    • Acceso:

Por otra parte, se ha desarrollado un anonimizador de contenidos generados por usuarios. Canal de anonimización para introducir datos de fuera del BSC que puedan contener datos protegidos por el GDPR.

  • Acceso:


latxa-corpus-v2: Corpus en euskera que incluye de textos en los dominio legal, administrativo, periodístico y científico/académico, entre otros.

Acceso:

  • ALIA-legal-administrative-cqa: Corpus de preguntas-respuestas en el dominio legal-administrativo

    Acceso:

  • Acceso:
  • ALIA-legal-administrative: Recurso que reúne y organiza una amplia colección de documentos oficiales del ámbito jurídico y administrativo español. Con más de 7 millones de documentos y 5 mil millones de tokens, incluye boletines oficiales estatales, autonómicos y provinciales, registros especializados, documentos ministeriales, licitaciones, contratos públicos y actas parlamentarias, cubriendo así todo el ecosistema normativo e institucional español.

    Acceso:

  • Multi-LMentry: Conjunto de datos en nueve idiomas diseñado para evaluar LLMs en tareas de razonamiento y comprensión de nivel elemental; facilitar comparaciones multilingües, en particular entre idiomas con abundantes recursos y aquellos con recursos limitados; y servir como herramienta de diagnóstico o como un conjunto de pruebas unitarias para examinar las habilidades fundamentales de los modelos. Se trata de una extensión multilingüe de .

    Acceso:

  • EQ-bench_ca: Versión traducida al calalán y adaptada lingüísticamente del conjunto de datos original , diseñado para evaluar el razonamiento emocional en modelos de lenguaje mediante indicaciones basadas en diálogos. Su diseño responde a la necesidad de ajustar las capacidades de detección emocional de los modelos multilingües, reconociendo que la expresión y la percepción de las emociones pueden variar de manera significativa entre lenguas.

    Acceso:

  • EQ-bench_es: Versión traducida al castellano y adaptada lingüísticamente del conjunto de datos original , diseñado para evaluar el razonamiento emocional en modelos de lenguaje mediante indicaciones basadas en diálogos. Su diseño responde a la necesidad de ajustar las capacidades de detección emocional de los modelos multilingües, reconociendo que la expresión y la percepción de las emociones pueden variar de manera significativa entre lenguas.

    Acceso:

  • CaBBQ: Adaptación del conjunto de datos original a la lengua catalana y al contexto social de España. Este recurso se utiliza para evaluar el sesgo social en modelos de lenguaje a gran escala (LLM) en una tarea de preguntas y respuestas con opciones múltiples, centrada en diez categorías sociales: edad, discapacidad, género, identidad LGBTQIA, nacionalidad, apariencia física, raza/etnicidad, religión, nivel socioeconómico y región española.

    Acceso:

  • EsBBQ: Adaptación del conjunto de datos original a la lengua castellana y al contexto social de España. Este recurso se utiliza para evaluar el sesgo social en modelos de lenguaje a gran escala (LLM) en una tarea de preguntas y respuestas con opciones múltiples, centrada en diez categorías sociales: edad, discapacidad, género, identidad LGBTQIA, nacionalidad, apariencia física, raza/etnicidad, religión, nivel socioeconómico y región española.

    Acceso:

  • OpenBookQA_es: Traducción al castellano del corpus OpenBookQA, diseñado para evaluar conocimientos básicos del mundo y cierta capacidad de razonamiento. Incluye 1000 instancias con una pregunta, cuatro opciones posibles y la letra que indica la respuesta correcta.

    Acceso:

  • hhh_alignment_ca: Traducción al catalán del corpus hhh_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, con una clasificación pragmática en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.

    Acceso:

  • hhh_alignment_es: Traducción al castellano del corpus hhh_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, con una clasificación pragmática en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.

    Acceso:

  • IFEval_ca: Traducción al catalán del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.

    Acceso:

  • IFEval_es: Traducción al castellano del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.

    Acceso:

  • VeritasQA: Corpus diseñado para evaluar grandes modelos de lenguaje sobre la veracidad en un entorno zero-shot, basado en el corpus TruthfulQA. Incluye 353 pares de preguntas-respuestas inspiradas en ideas erróneas y falsedades comunes.

    Acceso:

  • cobie_sst2: Modificación del original para evaluar sesgos cognitivos en LLMs.

    Acceso:

  • cobie_ai2_arc: Modificación del original para evaluar sesgos cognitivos en LLMs.

    Acceso:

  • RAG_eu: Corpus de evaluación para RAGs en diferentes dominios (legal-administrativo, parlamentos, periodistico) y tareas (clasificación de dominio, predicción de capacidad de respuesta y recuperación de información).

    Acceso:

  • ALIA-administrative-triplets: conjunto de datos diseñad para entrenar y evaluar modelos orientados a la recuperación de información.

    Acceso:

  • Acceso:
  • BALANCED_FAKE_JOB_POSTINGS_EN Dataset: Conjunto de textos en inglés diseñado para entrenar o evaluar modelos en una tarea de detección de fraude. Versión balanceada en inglés del conjunto de datos original de Kaggle Fake Job Postings Dataset: . Incluye 1.730 ofertas de empleo, distribuidas equitativamente entre anuncios fraudulentos (falsos) y no fraudulentos (reales).

    Acceso:

  • BALANCED_FAKE_JOB_POSTINGS_VA Dataset: Conjunto de textos en valenciano diseñado para entrenar o evaluar modelos en una tarea de detección de fraude. Versión traducida del conjunto de datos original de Kaggle Fake Job Postings Dataset: . Incluye 1.730 ofertas de empleo, distribuidas equitativamente entre anuncios fraudulentos (falsos) y no fraudulentos (reales).

    Acceso:

  • DISCRIMINATIVE COUNTERFEIT_ES Dataset: Conjunto de textos en español diseñado para entrenar o evaluar modelos en una tarea de verificación de marcas y detección de productos falsificados en entornos jurídicos y administrativos.

    Acceso:

  • DISCRIMINATIVE COUNTERFEIT_EN Dataset: Conjunto de textos en inglés diseñado para entrenar o evaluar modelos en una tarea de verificación de marcas y detección de productos falsificados en entornos jurídicos y administrativos.

    Acceso:

  • https://huggingface.co/datasets/gplsi/alia_dogvarrow-up-right
    https://huggingface.co/datasets/gplsi/alia_bouaarrow-up-right
    https://huggingface.co/datasets/gplsi/alia_amicarrow-up-right
    https://huggingface.co/datasets/gplsi/alia_les_cortsarrow-up-right
    https://huggingface.co/datasets/gplsi/alia_multilingual_parallel_sentencesarrow-up-right
    https://huggingface.co/datasets/gplsi/alia_tourismarrow-up-right
    https://huggingface.co/datasets/gplsi/alia_intellectual_propertyarrow-up-right
    https://huggingface.co/datasets/BSC-LT/COPA-esarrow-up-right
    https://huggingface.co/datasets/projecte-aina/InstruCATarrow-up-right
    https://huggingface.co/datasets/SINAI/ALIA-legal-administrative-synthetic-instructionsarrow-up-right
    PersonaHubarrow-up-right
    https://huggingface.co/datasets/BSC-LT/m-personasarrow-up-right
    SIQAarrow-up-right
    https://huggingface.co/datasets/BSC-LT/SIQA_esarrow-up-right
    ARCarrow-up-right
    https://huggingface.co/datasets/gplsi/discriminative_clearsim_esarrow-up-right
    https://langtech-bsc.gitbook.io/alia-kit/datasets/datos-y-herramientas-para-modelos-de-texto/datasets-de-pre-entrenamiento-alia-40barrow-up-right
    https://github.com/langtech-bsc/Wikiextractor-V2/​arrow-up-right
    https://github.com/langtech-bsc/AnonymizationPipelinearrow-up-right
    https://huggingface.co/datasets/HiTZ/latxa-corpus-v2arrow-up-right
    https://huggingface.co/datasets/SINAI/ALIA-legal-administrative-cqaarrow-up-right
    https://huggingface.co/datasets/BSC-LT/arc_esarrow-up-right
    https://huggingface.co/datasets/SINAI/ALIA-legal-administrativearrow-up-right
    LMentryarrow-up-right
    https://huggingface.co/datasets/BSC-LT/multi_lmentryarrow-up-right
    EQ-Bencharrow-up-right
    https://huggingface.co/datasets/BSC-LT/EQ-bench_caarrow-up-right
    EQ-Bencharrow-up-right
    https://huggingface.co/datasets/BSC-LT/EQ-bench_esarrow-up-right
    BBQarrow-up-right
    https://huggingface.co/datasets/BSC-LT/CaBBQarrow-up-right
    BBQarrow-up-right
    https://huggingface.co/datasets/BSC-LT/EsBBQarrow-up-right
    https://huggingface.co/datasets/BSC-LT/openbookqa-esarrow-up-right
    https://huggingface.co/datasets/projecte-aina/hhh_alignment_caarrow-up-right
    https://huggingface.co/datasets/BSC-LT/hhh_alignment_esarrow-up-right
    https://huggingface.co/datasets/projecte-aina/IFEval_caarrow-up-right
    https://huggingface.co/datasets/BSC-LT/IFEval_esarrow-up-right
    https://huggingface.co/datasets/projecte-aina/veritasQAarrow-up-right
    SST-2arrow-up-right
    https://huggingface.co/datasets/BSC-LT/cobie_sst2arrow-up-right
    ARCarrow-up-right
    https://huggingface.co/datasets/BSC-LT/cobie_ai2_arcarrow-up-right
    https://huggingface.co/datasets/HiTZ/RAG_euarrow-up-right
    https://huggingface.co/datasets/SINAI/ALIA-administrative-tripletsarrow-up-right
    https://huggingface.co/datasets/gplsi/discriminative_clearsim_vaarrow-up-right
    Real or Fake? Fake Job Posting Predictionarrow-up-right
    https://huggingface.co/datasets/gplsi/fake_job_postings_balanced_enarrow-up-right
    Real or Fake? Fake Job Posting Predictionarrow-up-right
    https://huggingface.co/datasets/gplsi/fake_job_postings_balanced_vaarrow-up-right
    https://huggingface.co/datasets/gplsi/discriminative_counterfeit_esarrow-up-right
    https://huggingface.co/datasets/gplsi/discriminative_counterfeit_enarrow-up-right

    Datasets de pre entrenamiento ALIA 40B

    Relación de datasets con referencias en el marco del pre entrenamiento del modelo ALIA 40B.

    Los corpus de entrenamiento se listan a continuación:

    Corpus

    Lenguas

    Link

    Colossal OSCAR 1.0

    bg, ca, cs, cy, da, de, el, en, es, et, eu, fi, fr, ga, gl, hr, hu, it, lt, lv, mt, nl, nn, no, oc, pl, pt, ro, ru, sh, sk, sl, sr, sv, uk

    Aya Dataset (w/o Evaluation Suite)

    eu, hr, nl, fi, ka, hu, lt, nn, ro, sk, lv, cy, bg, cs, en, fr, de, ga, mt, pl, ru, sl, sv, ca, da, et, gl, el, it, no, pt, sr, es, uk

    Wikimedia dumps

    bg, ca, cs, da, de, el, en, es, et, eu, fi, fr, ga, gl, hr, hu, it, lt, lv, mt, nl, nn, no, pl, pt, ro, sh, sk, sl, sr, uk

    OpenSubtitles v2016

    bg, ca, cs, da, de, el, en, es, et, eu, fi, fr, gl, hr, it, lt, lv, nl, no, pl, pt, ro, sk, sl, sr, sv, uk

    EurLEX-Resources

    bg, cs, da, de, el, en, es, et, fi, fr, ga, hr, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv

    MC4-Legal

    bg, cs, da, de, el, en, es, et, fi, fr, ga, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv

    Parlamint

    at, bg, cz, dk, ee, es, es-ga, fi, fr, gb, gr, hr, hu, it, lv, nl, no, pl, pt, rs, se, si

    MaCoCu

    bg, ca, el, hr, mt, sl, sr, uk

    CURLICAT

    bg, hr, hu, pl, ro, sk, sl

    Norwegian Colossal Corpus (NCC)

    nn, no

    Academic Slovene KAS 2.0

    sl

    BIGPATENT

    en

    Biomedical-ES

    es

    Brazilian Portuguese Web as Corpus (BrWaC)

    pt

    Bulgarian National Corpus (BulNC)

    bg

    CaBeRnet

    fr

    CATalog 1.0

    ca

    CorpusNÓS

    gl

    Croatian Web as Corpus 2.1 (hrWaC)

    hr

    DaNewsroom

    da

    Danish GigaWord

    da

    Dolmino-mix-1124 (subset without synthetically generated data and privative licenses)

    en

    DK-CLARIN Reference Corpus of General Danish

    da

    Estonian National Corpus 2021 (ENC)

    et

    Estonian Reference Corpus (ERC)

    et

    EusCrawl (w/o Wikipedia or NC-licenses)

    eu

    FineWeb-Edu (350BT subset)

    en

    Fineweb2 (ad hoc subset of 178BT)

    ar, as, bg, ca, cs, cy, da, de, el, es, et, eu, fi, fr, ga, gl, hr, hu, it, lt, lv, mt, nl, nn, no, oc, pl, pt, ro, ru, sk, sl, sr, sv, uk

    French Public Domain Books (French-PD)

    fr

    French Public Domain Newspapers (French-PD)

    fr

    German Web as Corpus (DeWaC)

    de

    Greek Legal Code (GLC)

    el

    Greek Web Corpus (GWC)

    el

    HPLT v1 - Spanish

    es

    HPLT v1.1 - Spanish

    es

    Irish Universal Dependencies (Ga-UD)

    ga

    Italian Web as Corpus (ItWaC)

    it

    Korpus Malti

    mt

    Korpus slovenských právnych predpisov v1.9 (SK-Laws)

    sk

    Latxa Corpus v1.1 (GAITU)

    eu

    Laws and legal acts of Ukraine (UK-Laws)

    uk

    Legal-ES

    es

    MARCELL Romanian legislative subcorpus v2

    ro

    Math AMPS

    en

    NKPJ National Corpus of Polish v1.2 (NKPJ)

    pl

    Occitan Corpus (IEA-AALO)

    oc

    Datos descargados de la web del institut a través de acuerdo, no publicados.

    Open Legal Data - German court decisions and laws

    de

    enlace de descarga desactualizado

    ParlamentoPT

    pt

    peS2o

    en

    PG-19

    en

    Pile of Law (selected subsets)

    en

    Polish Parliamentary Corpus (PPC)

    pl

    Proof Pile

    en

    RedPajama-Data T1 (StackExchange subset)

    en

    Scientific-ES

    es

    Recopilación de repositorios en abierto (, , , /, )

    SK Court Decisions v2.0 (OD-Justice)

    sk

    Slovene Web as Corpus (slWaC)

    sl

    SoNaR Corpus NC 1.2

    nl

    Spanish Legal Domain Corpora (Spanish-Legal)

    es

    SrpKorSubset: news, legal, academic, conversation, lit- erary (SrpKor)

    sr

    Starcoder

    code

    State-related content from the Latvian Web (State-Latvian-Web)

    lv

    SYN v9: large corpus of written Czech

    cs

    Tagesschau Archive Article

    de

    The Danish Parliament Corpus 2009 - 2017, v1

    da

    The Gaois bilingual corpus of English-Irish legislation (Ga-Legislation)

    ga

    The Pile (PhilPapers)

    en

    The Swedish Culturomics Gigaword Corpus (Swedish- Gigaword)

    sv

    Welsh-GOV

    cy

    Yle Finnish News Archive (Yle-News)

    https://huggingface.co/datasets/oscar-corpus/colossal-oscar-1.0arrow-up-right
    https://huggingface.co/datasets/CohereForAI/aya_datasetarrow-up-right
    https://dumps.wikimedia.org/arrow-up-right
    https://huggingface.co/datasets/Helsinki-NLP/open_subtitlesarrow-up-right
    https://huggingface.co/datasets/joelniklaus/eurlex_resourcesarrow-up-right
    https://huggingface.co/datasets/joelniklaus/legal-mc4arrow-up-right
    https://clarin-eric.github.io/ParlaMint/arrow-up-right
    https://macocu.eu/arrow-up-right
    https://curlicat-project.eu/arrow-up-right
    https://github.com/NbAiLab/notram/blob/master/guides/corpus_description.mdarrow-up-right
    https://www.clarin.si/repository/xmlui/handle/11356/1448arrow-up-right
    https://huggingface.co/datasets/NortheasternUniversity/big_patentarrow-up-right
    https://zenodo.org/records/4561971arrow-up-right
    https://huggingface.co/datasets/dominguesm/brwacarrow-up-right
    http://old.dcl.bas.bg/dataset/BulNC.7zarrow-up-right
    https://aclanthology.org/2020.cmlc-1.3/arrow-up-right
    https://huggingface.co/datasets/projecte-aina/CATalogarrow-up-right
    https://zenodo.org/records/11655219arrow-up-right
    https://clarin.si/repository/xmlui/handle/11356/1064arrow-up-right
    https://github.com/danielvarab/da-newsroomarrow-up-right
    https://huggingface.co/datasets/danish-foundation-models/danish-gigawordarrow-up-right
    https://huggingface.co/datasets/allenai/dolmino-mix-1124arrow-up-right
    https://korpus.dsl.dk/clarin/arrow-up-right
    https://metashare.ut.ee/repository/search/?q=estonian%20national%20corpusarrow-up-right
    https://lindat.mff.cuni.cz/repository/xmlui/handle/11372/LRT-1068arrow-up-right
    https://huggingface.co/datasets/HiTZ/euscrawlarrow-up-right
    https://huggingface.co/datasets/HuggingFaceFW/fineweb-eduarrow-up-right
    https://huggingface.co/datasets/HuggingFaceFW/fineweb-2arrow-up-right
    https://huggingface.co/datasets/PleIAs/French-PD-Booksarrow-up-right
    https://huggingface.co/datasets/PleIAs/French-PD-Newspapersarrow-up-right
    https://wacky.sslmit.unibo.it/doku.php?id=seed_urlsarrow-up-right
    https://huggingface.co/datasets/AI-team-UoA/greek_legal_codearrow-up-right
    http://nlp.polytechnique.fr/resources-greekarrow-up-right
    https://hplt-project.org/datasets/v1arrow-up-right
    https://hplt-project.org/datasets/v1.1arrow-up-right
    https://universaldependencies.org/ga/arrow-up-right
    https://wacky.sslmit.unibo.it/doku.php?id=seed_urlsarrow-up-right
    https://huggingface.co/datasets/MLRS/korpus_maltiarrow-up-right
    https://www.juls.savba.sk/data.htmlarrow-up-right
    https://huggingface.co/datasets/HiTZ/latxa-corpus-v1.1arrow-up-right
    https://lang.org.ua/en/corpora/#anchor7arrow-up-right
    https://aclanthology.org/2020.lt4gov-1.6/arrow-up-right
    https://elrc-share.eu/repository/browse/marcell-romanian-legislative-subcorpus-v2/2da548428b9d11eb9c1a00155d026706ce94a6b59ffc4b0e9fb5cd9cebe6889e/arrow-up-right
    https://github.com/hendrycks/matharrow-up-right
    https://nkjp.pl/index.php?page=0&lang=1arrow-up-right
    https://www.institutestudisaranesi.cat/arrow-up-right
    https://openlegaldata.io/arrow-up-right
    https://huggingface.co/datasets/PORTULAN/parlamento-ptarrow-up-right
    https://huggingface.co/datasets/allenai/peS2oarrow-up-right
    https://huggingface.co/datasets/deepmind/pg19arrow-up-right
    https://huggingface.co/datasets/pile-of-law/pile-of-lawarrow-up-right
    https://clip.ipipan.waw.pl/PPCarrow-up-right
    https://huggingface.co/datasets/hoskinson-center/proof-pilearrow-up-right
    https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1Tarrow-up-right
    https://dialnet.unirioja.es/arrow-up-right
    https://scielo.isciii.es/scielo.phparrow-up-right
    https://revistas.csic.es/arrow-up-right
    https://www.tesisenred.netarrow-up-right
    https://docta.ucm.es/homearrow-up-right
    https://www.juls.savba.sk/data/od-justice/od-justice-2.0.ver.xzarrow-up-right
    https://www.sketchengine.eu/slwac-slovenian-corpus-from-the-web/arrow-up-right
    https://elrc-share.eu/repository/browse/sonar-corpus/9735a54f1f9111e7bfe700155d020502b917ac3b8c8844e19665914d110e94d1/arrow-up-right
    https://zenodo.org/records/5495529arrow-up-right
    http://metashare.elda.org/repository/browse/corpus-of-contemporary-serbian/00cc41168bdf11e29c9e0015171445924cdac8693bf840f780418187133495b8/arrow-up-right
    https://huggingface.co/datasets/bigcode/starcoderdataarrow-up-right
    https://catalog.elra.info/en-us/repository/browse/ELRA-W0169/arrow-up-right
    https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-4635arrow-up-right
    https://huggingface.co/datasets/bjoernp/tagesschau-2018-2023arrow-up-right
    https://repository.clarin.dk/repository/xmlui/handle/20.500.12115/8arrow-up-right
    https://portulanclarin.net/repository/browse/the-gaois-bilingual-corpus-of-english-irish-legislation-processed/daeac17c9e3511ea9b7f02420a000407b83de243dc0b469aab41084386c5b80f/arrow-up-right
    https://github.com/thoppe/The-Pile-PhilPapersarrow-up-right
    https://spraakbanken.gu.se/en/resources/gigawordarrow-up-right
    Crawling de aqui: https://www.llyw.cymru/arrow-up-right
    https://www.kielipankki.fi/download/YLE/fi/2019-2020-src/arrow-up-right