Aina Kit
Aina Kit
  • Inici
  • 🤗Models
    • 🔠Models de text
    • 🗣️Models de parla
    • ↔️Models de traducció automàtica
    • 🏆Avaluació de models en llengua catalana
  • 📚Datasets
    • 🔠Dades i eines per a models de text
    • 🗣️Dades i eines per a models de veu
    • ↔️Dades per a la traducció automàtica
  • ▶️Testing
    • 🤗Via Hugging Face
    • ☁️Via integració amb serveis al núvol
    • 🐋Via Docker
    • 🧰Via pre-integració amb entorns de codi obert per a tecnologies del llenguatge
  • ▶️EINES D'INTEGRACIÓ
    • ☁️MTUOC
  • 🕹️Demostradors
    • 🤗A Spaces de Hugging Face
    • Page
Powered by GitBook

Social

  • Web
  • Twitter
  • Linkedin
  • Contacte

Tech

  • Blog
  • Huggingface
  • Github
  • Dockerhub

© Projecte Aina | Language Technologies Unit at BSC

On this page
  • Corpus textual massiu
  • Dades anotades per a fine tuning i/o avaluació de models de text
  • Dades per instruir models de text
  • Dades per avaluar models de text
  • Eines per al subministrament de dades de text
  1. Datasets

Dades i eines per a models de text

Last updated 5 months ago

Corpus textual massiu

CATalog: Corpus format per 17.450.496.729 paraules (al voltant de 23 mil milions de tokens) distribuïts en 34.816.765 documents d’una gran varietat de fonts i amb un percentatge important de textos curats manualment. Aquesta és una tasca contínua en el temps que busca augmentar el CATalog al llarg de tot projecte.

Accés:


Dades anotades per a fine tuning i/o avaluació de models de text

Identificació, classificació i vinculació d'entitats

  • CEIL: Corpus de 60.000 textos curts per a la identificació, classificació i vinculació d'entitats. Conté 9 tipus i 52 subtipus.

    Accés:

Anotació d’entitats amb nom i dependències

  • ANCORA_ca v2: Corpus d’entrenament de cadenes de processament, afegint la columna NER a la versió CONLLU de UD versió 9, per fer multitask learning dins de spaCy.

    Accés:

Anàlisi de sentiments

  • CaSSA: Corpus de 6.400 ressenyes i missatges de fòrum anotats amb expressions de polaritat.

    Accés:

  • GuiaCat: Corpus de 5.750 ressenyes de restaurants en català de la plataforma GuiaCat. Cada ressenya té associada una valoració per servei, menjar, qualitat-preu i ambient, i una nota mitjana.

    Accés:

Detecció d'emocions i opinió

  • CaSET: Corpus de tuits anotats amb emocions i opinió. Conté 11.000 frases úniques sobre cinc temes controvertits, agrupades en 6.000 parells de frases.

  • CaSERa: Corpus de missatges de fòrum anotats amb emocions i opinió. Conté 15.782 frases úniques agrupades en 10.745 parells de frases.

Implicació textual

  • XNLI-ca: Traducció al català del corpus XNLI per a l'avaluació de sistemes de comprensió de llenguatge cross-lingüe en tasques com ara la inferència del llenguatge natural. Conté 7.500 parells de frases.

  • WNLI-ca: Traducció al català del corpus WNLI, que inclou 855 parells d'oracions en què la primera frase conté una ambigüitat i la segona una possible interpretació d'aquesta.

  • Teca: Corpus d’implicació textual. Conté 21.163 parells de premisses i hipòtesis, anotades segons la relació d'inferència que tenen (implicació, contradicció o neutre).

Classificació de textos

  • TeCla v2: Corpus de notícies en català per a tasques de classificació de textos multiclasse. Conté 113.376 articles classificats sota una estructura de classes jeràrquica que consisteix en 4 classes i 53 subclasses.

  • CaWikiTC: Corpus creat de manera automàtica a partir dels resums d'articles de la Viquipèdia i la categoria temàtica associada. Conté 21.002 textos classificats en 67 categories.

Classificació de documents

  • WikiCAT_ca: Corpus català per a tasques de classificació temàtica de textos no periodístics. Conté 13.201 articles de la Viquipedia classificats en 13 categories diferents.

Pregunta resposta conversacional

  • CoQCat: Corpus anotats amb una conversa d'uns 15 torns de pregunta-resposta. Consta de 89.364 parells de preguntes-respostes procedents de converses relacionades amb 6.000 paràgrafs de sis dominis diferents.

Pregunta resposta multilingüe

  • XQUAD-ca: Traducció al català del corpus XQUAD, que consta d'un subconjunt de 240 paràgrafs i 1.190 parells de pregunta-resposta del corpus SQuAD v1.1.

Pregunta resposta

  • VilaQuAD: Corpus de parells preguntes/resposta sobre notícies. Conté 2.095 articles de notícies en català i d'1 a 5 preguntes amb la seva resposta per a cada fragment (o context).

  • ViquiQuAD: Corpus de parells preguntes/resposta sobre la Viquipèdia. Conté 3.111 contextos extrets d'un conjunt de 597 articles originals i d'1 a 5 preguntes amb la seva resposta per a cada fragment.

  • CatalanQA: Corpus de 21.426 parells preguntes/resposta sobre la Viquipèdia i notícies.

Identificació d’imatges

Classificació d’intents, detecció d’entitats associades i entrenament/avaluació de sistemes conversacionals

  • XitXat: Corpus de 950 converses de 10 dominis diferents entre xatbots i usuaris.

  • NLUCat: Corpus de 12.000 frases anotades segons el seu intent i els slots més rellevants, com a dades de suport per al desenvolupament d'assistents electrònics.

Paràfrasi

  • Parafraseja: Corpus de 21.984 parells de frases anotades segons si són paràfrasis l’una de l’altra, o no.

  • PAWS-ca: Traducció al català del corpus PAWS per a la indentificació de paràfrasis. Conté 4.000 parells d'exemples traduïts per humans i 49.400 parells traduïts automàticament.

Similitud textual semàntica

  • STS-ca: Corpus per a l’avaluació de la similitud textual semàntica.

Negació

  • NoNiRes: Anotació de les expressions de negació en 20.541 frases en català.

Resum de textos

  • CaBreu: Corpus de resums abstractius, extractius i extrems de 3.000 documents.

Detecció de llenguatge abusiu

  • IntoxiCAT: Corpus de 29.809 frases obtingudes de missatges de fòrums, anotades segons si són o no abusives.

Raonament causal

  • COPA-ca: Traducció al català del corpus COPA, corpus de referència per al raonament causal. Inclou 1.000 instàncies, cadascuna de les quals es compon d'una premissa i dues hipòtesis (o alternatives).

Generació augmentada per recuperació (RAG)

  • RAG_Multilingual: Conjunt de dades sintètic de preguntes i respostes creat per ajustar models per a sistemes de generació augmentada per recuperació (RAG).


Dades per instruir models de text


Dades per avaluar models de text


Eines per al subministrament de dades de text

Per garantir el subministrament de dades, s’han implantat diferents mètodes d'adquisició de dades que automatitzen aquest procés i garanteixen el subministrament i l'actualització de les dades.

  • Extractor de text de la Viquipèdia que interpreta correctament textos en una gran varietat de llengües, entre elles el català. Extracció de més de 675.000 documents amb més de 266M de paraules en català.

  • Operacionalització de les dades obertes del DOGC (Diari Oficial de la Generalitat de Catalunya) mitjançant una pipeline automatitzada que fa ús de l’API de transparència de Catalunya. S’han extret més de 30.000 publicacions en català amb 70M de paraules.

D’altra banda, s’ha desenvolupat un Anonimitzador de continguts generats per usuaris. Canal d'anonimització per introduir dades de fora del BSC que puguin contenir dades protegides pel GDPR.


Accés:

Accés:

Accés:

Accés:

Accés:

Accés:

Accés:

Accés:

Accés:

Accés:

Accés:

Accés:

Accés:

Flickr8k-ca: Versió catalana del corpus per a la descripció d'imatges basades en frases. Consta de 8.000 imatges recollides de Flickr amb 5 subtítols de referència.

Accés:

Multi30k_train-ca: Versió catalana del corpus train.en.multi30. és un conjunt de dades per a la descripció d'imatges basades en frases. Inclou 31.000 imatges recollides de Flickr amb 5 subtítols de referència.

Accés:

Accés:

Accés:

Accés:

Accés:

Accés:

Accés:

Accés:

Accés:

Accés:

Accés:

oasst1_ca: Traducció al català del corpus . Inclou 5.486 instruccions (5213 train i 273 validation). Cada instrucció inclou un missatge, que pot ser un prompt o una resposta, i metadades, inclosos 4 identificadors diferents per al missatge, el missatge principal, la conversa i l'usuari; el rol de l'usuari, la llengua d'origen i les etiquetes d'avaluació de la qualitat.

Accés:

MentorES: Corpus d’instruccions en castellà. Inclou 10.175 instruccions, distribuïdes en les següents categories: closed_qa, classification, open_qa, summarization, general_qa information_extraction, brainstorming i creative_writing.

Accés:

MentorCA: Traducció al català de les 10.175 instruccions del corpus MentorES.

Accés:

InstruCAT: Corpus que conté més de 200.000 instruccions per a l'entrenament de LLMs en tasques downstream generades a partir dels següents corpus: , , , , , , , , , , , , en categories com paràfrasi, toxicitat, pregunta-resposta, classificació, resum i anàlisis de sentiments.

Accés:

hhh_alignment_ca: Traducció al català del corpus hhh_alignment de preguntes i respostes. Està dissenyat per avaluar els models de llenguatge quant a alineació, dividits pragmàticament en les categories d'utilitat, honestedat/precisió, innocuïtat i d'altres. Cada instància conté una sol·licitud i dues possibles respostes.

Accés:

IFEval_ca: Traducció al català del corpus IFEval, dissenyat per avaluar models de llenguatge optimitzats per a xat o instruccions. El conjunt de dades inclou 541 “instruccions verificables”, com ara “escriure més de 400 paraules” i “esmentar la paraula clau de la IA almenys 3 vegades”, que es poden verificar mitjançant heurística. Cada instància conté una única sol·licitud d'entrada.

Accés:

VeritasQA: Corpus disenyat per avaluar grans models de llenguatge sobre la veracitat en un entorn zero-shot, basat en el corpus TruthfulQA. Inclou 353 parells de preguntes-respostes inspirades en idees errònies i falsedats comuns.

Accés:

arc_ca: Traducció al català de les versions Easy i Challenge del corpus , centrat en el raonament i coneixement bàsic sobre ciències. Inclou 2.950 instàncies a la versió Easy (570 test i 2.380 validation) i 1.469 instàncies a la versió Challenge (299 test i 1.170 validation). Cada instància conté una pregunta, entre 3 i 5 opcions possibles, i la lletra que indica la resposta correcta.

Accés:

MGSM_ca: Traducció al català del corpus MGSM, dissenyat per avaluar el raonament matemàtic. Inclou 258 instàncies. Cada instància conté un problema matemàtic, una resposta pas a pas, el resultat final del problema i la solució formulada com a equacions.

Accés:

OpenBookQA_ca: Traducció al català del corpus OpenBookQA, dissenyat per avaluar coneixements bàsics del món i certa capacitat de raonament. Inclou 1.000 instàncies amb una pregunta, quatre opcions possibles i la lletra que indica la resposta correcta.

Accés:

PIQA_ca: Traducció al català del corpus PIQA, dissenyat per avaluar el raonament lògic sobre el món físic. Inclou 1.838 instàncies amb una frase (goal), dues solucions possibles i l'etiqueta que indica quina de les dues solucions és la correcte.

Accés:

SIQA_ca: Traducció al català del corpus, centrat en el raonament lògic sobre les accions i situacions del dia a dia i les seves implicacions socials. Inclou 1.954 instàncies amb cinc camps principals: una frase afirmativa (context), una pregunta sobre el context (question) i tres respostes.

Accés:

xstorycloze_ca: Traducció al català del corpus (v. Spring 2016), entrat en la comprensió del llenguatge i el raonament espacial i temporal propi de les narracions. Inclou 1.870 instàncies (360 ​​train i 1510 test). Cada instància conté una història, dividida en 4 frases, 2 possibles finalitzacions i el número que indica la resposta correcta.

Accés:

Accés:

Accés:

Accés:

📚
🔠
https://huggingface.co/datasets/projecte-aina/CaSET-catalan-stance-emotions-twitter
https://huggingface.co/datasets/projecte-aina/CaSERa-catalan-stance-emotions-raco
https://huggingface.co/datasets/projecte-aina/xnli-ca
https://huggingface.co/datasets/projecte-aina/wnli-ca
https://huggingface.co/datasets/projecte-aina/teca
https://huggingface.co/datasets/projecte-aina/tecla
https://huggingface.co/datasets/projecte-aina/CaWikiTC
https://huggingface.co/datasets/projecte-aina/WikiCAT_ca
https://huggingface.co/datasets/projecte-aina/CoQCat
https://huggingface.co/datasets/projecte-aina/xquad-ca
https://huggingface.co/datasets/projecte-aina/vilaquad
https://huggingface.co/datasets/projecte-aina/viquiquad
https://huggingface.co/datasets/projecte-aina/catalanqa
https://zenodo.org/records/10728641
https://zenodo.org/records/10728674
https://zenodo.org/record/7276036#.Y2zMn4LMITU
https://huggingface.co/datasets/projecte-aina/NLUCat
https://huggingface.co/datasets/projecte-aina/Para
fraseja
https://huggingface.co/datasets/projecte-aina/PAWS-ca
https://huggingface.co/datasets/projecte-aina/sts-ca
https://zenodo.org/record/7319487#.Y3S_uL7MLOs
https://huggingface.co/datasets/projecte-aina/caBreu
https://huggingface.co/datasets/projecte-aina/InToxiCat
https://huggingface.co/datasets/projecte-aina/COPA-ca
https://huggingface.co/datasets/projecte-aina/RAG_Multilingual
https://huggingface.co/datasets/projecte-aina/oasst1_ca
https://huggingface.co/datasets/projecte-aina/MentorES
https://huggingface.co/datasets/projecte-aina/MentorCA
caBreu
CatalanQA
CoQCat
GuiaCat
IntoxiCat
Parafraseja
PAWS-ca
sts-ca
WikiCat
CEIL
TECA
NLUCat
https://huggingface.co/datasets/projecte-aina/InstruCAT
https://huggingface.co/datasets/projecte-aina/hhh_alignment_ca
https://huggingface.co/datasets/projecte-aina/IFEval_ca
https://huggingface.co/datasets/projecte-aina/veritasQA
https://huggingface.co/datasets/projecte-aina/arc_ca
https://huggingface.co/datasets/projecte-aina/mgsm_ca
https://huggingface.co/datasets/projecte-aina/openbookqa_ca
https://huggingface.co/datasets/projecte-aina/PIQA_ca
https://huggingface.co/datasets/projecte-aina/SIQA_ca
https://huggingface.co/datasets/projecte-aina/xstorycloze_ca
https://github.com/langtech-bsc/Wikiextractor-V2/
https://github.com/projecte-aina/docg-pipeline
https://github.com/langtech-bsc/AnonymizationPipeline
https://huggingface.co/datasets/projecte-aina/CATalog
https://huggingface.co/datasets/projecte-aina/ceil
https://doi.org/10.5281/zenodo.5036650
https://huggingface.co/datasets/projecte-aina/CaSSA-catalan-structured-sentiment-analysis
https://huggingface.co/datasets/projecte-aina/GuiaCat
Flickr8k
Flickr30k
OASST1
ARC
English StoryCloze dataset