🔠Dades i eines per a models de text
Last updated
Last updated
CATalog: Corpus format per 17.450.496.729 paraules (al voltant de 23 mil milions de tokens) distribuïts en 34.816.765 documents d’una gran varietat de fonts i amb un percentatge important de textos curats manualment. Aquesta és una tasca contínua en el temps que busca augmentar el CATalog al llarg de tot projecte.
Accés: https://huggingface.co/datasets/projecte-aina/CATalog
CEIL: Corpus de 60.000 textos curts per a la identificació, classificació i vinculació d'entitats. Conté 9 tipus i 52 subtipus.
ANCORA_ca v2: Corpus d’entrenament de cadenes de processament, afegint la columna NER a la versió CONLLU de UD versió 9, per fer multitask learning dins de spaCy.
CaSSA: Corpus de 6.400 ressenyes i missatges de fòrum anotats amb expressions de polaritat.
Accés: https://huggingface.co/datasets/projecte-aina/CaSSA-catalan-structured-sentiment-analysis
GuiaCat: Corpus de 5.750 ressenyes de restaurants en català de la plataforma GuiaCat. Cada ressenya té associada una valoració per servei, menjar, qualitat-preu i ambient, i una nota mitjana.
Accés: https://huggingface.co/datasets/projecte-aina/GuiaCat
CaSET: Corpus de tuits anotats amb emocions i opinió. Conté 11.000 frases úniques sobre cinc temes controvertits, agrupades en 6.000 parells de frases.
Accés: https://huggingface.co/datasets/projecte-aina/CaSET-catalan-stance-emotions-twitter
CaSERa: Corpus de missatges de fòrum anotats amb emocions i opinió. Conté 15.782 frases úniques agrupades en 10.745 parells de frases.
Accés: https://huggingface.co/datasets/projecte-aina/CaSERa-catalan-stance-emotions-raco
XNLI-ca: Traducció al català del corpus XNLI per a l'avaluació de sistemes de comprensió de llenguatge cross-lingüe en tasques com ara la inferència del llenguatge natural. Conté 7.500 parells de frases.
Accés: https://huggingface.co/datasets/projecte-aina/xnli-ca
WNLI-ca: Traducció al català del corpus WNLI, que inclou 855 parells d'oracions en què la primera frase conté una ambigüitat i la segona una possible interpretació d'aquesta.
Accés: https://huggingface.co/datasets/projecte-aina/wnli-ca
Teca: Corpus d’implicació textual. Conté 21.163 parells de premisses i hipòtesis, anotades segons la relació d'inferència que tenen (implicació, contradicció o neutre).
TeCla v2: Corpus de notícies en català per a tasques de classificació de textos multiclasse. Conté 113.376 articles classificats sota una estructura de classes jeràrquica que consisteix en 4 classes i 53 subclasses.
CaWikiTC: Corpus creat de manera automàtica a partir dels resums d'articles de la Viquipèdia i la categoria temàtica associada. Conté 21.002 textos classificats en 67 categories.
Accés: https://huggingface.co/datasets/projecte-aina/CaWikiTC
WikiCAT_ca: Corpus català per a tasques de classificació temàtica de textos no periodístics. Conté 13.201 articles de la Viquipedia classificats en 13 categories diferents.
Accés: https://huggingface.co/datasets/projecte-aina/WikiCAT_ca
CoQCat: Corpus anotats amb una conversa d'uns 15 torns de pregunta-resposta. Consta de 89.364 parells de preguntes-respostes procedents de converses relacionades amb 6.000 paràgrafs de sis dominis diferents.
XQUAD-ca: Traducció al català del corpus XQUAD, que consta d'un subconjunt de 240 paràgrafs i 1.190 parells de pregunta-resposta del corpus SQuAD v1.1.
Accés: https://huggingface.co/datasets/projecte-aina/xquad-ca
VilaQuAD: Corpus de parells preguntes/resposta sobre notícies. Conté 2.095 articles de notícies en català i d'1 a 5 preguntes amb la seva resposta per a cada fragment (o context).
Accés: https://huggingface.co/datasets/projecte-aina/vilaquad
ViquiQuAD: Corpus de parells preguntes/resposta sobre la Viquipèdia. Conté 3.111 contextos extrets d'un conjunt de 597 articles originals i d'1 a 5 preguntes amb la seva resposta per a cada fragment.
Accés: https://huggingface.co/datasets/projecte-aina/viquiquad
CatalanQA: Corpus de 21.426 parells preguntes/resposta sobre la Viquipèdia i notícies.
Accés: https://huggingface.co/datasets/projecte-aina/catalanqa
XitXat: Corpus de 950 converses de 10 dominis diferents entre xatbots i usuaris.
NLUCat: Corpus de 12.000 frases anotades segons el seu intent i els slots més rellevants, com a dades de suport per al desenvolupament d'assistents electrònics.
Parafraseja: Corpus de 21.984 parells de frases anotades segons si són paràfrasis l’una de l’altra, o no.
Accés:https://huggingface.co/datasets/projecte-aina/Para fraseja
PAWS-ca: Traducció al català del corpus PAWS per a la indentificació de paràfrasis. Conté 4.000 parells d'exemples traduïts per humans i 49.400 parells traduïts automàticament.
Accés: https://huggingface.co/datasets/projecte-aina/PAWS-ca
STS-ca: Corpus per a l’avaluació de la similitud textual semàntica.
NoNiRes: Anotació de les expressions de negació en 20.541 frases en català.
CaBreu: Corpus de resums abstractius, extractius i extrems de 3.000 documents.
IntoxiCAT: Corpus de 29.809 frases obtingudes de missatges de fòrums, anotades segons si són o no abusives.
Accés: https://huggingface.co/datasets/projecte-aina/InToxiCat
COPA-ca: Traducció al català del corpus COPA, corpus de referència per al raonament causal. Inclou 1.000 instàncies, cadascuna de les quals es compon d'una premissa i dues hipòtesis (o alternatives).
Accés: https://huggingface.co/datasets/projecte-aina/COPA-ca
RAG_Multilingual: Conjunt de dades sintètic de preguntes i respostes creat per ajustar models per a sistemes de generació augmentada per recuperació (RAG).
Accés: https://huggingface.co/datasets/projecte-aina/RAG_Multilingual
InstruCAT: Corpus que conté més de 200.000 instruccions per a l'entrenament de LLMs en tasques downstream generades a partir dels següents corpus: caBreu, CatalanQA, CoQCat, GuiaCat, IntoxiCat, Parafraseja, PAWS-ca, sts-ca, WikiCat, CEIL, TECA, NLUCat, en categories com paràfrasi, toxicitat, pregunta-resposta, classificació, resum i anàlisis de sentiments.
Accés: https://huggingface.co/datasets/projecte-aina/InstruCAT
Per garantir el subministrament de dades, s’han implantat diferents mètodes d'adquisició de dades que automatitzen aquest procés i garanteixen el subministrament i l'actualització de les dades.
Extractor de text de la Viquipèdia que interpreta correctament textos en una gran varietat de llengües, entre elles el català. Extracció de més de 675.000 documents amb més de 266M de paraules en català.
Operacionalització de les dades obertes del DOGC (Diari Oficial de la Generalitat de Catalunya) mitjançant una pipeline automatitzada que fa ús de l’API de transparència de Catalunya. S’han extret més de 30.000 publicacions en català amb 70M de paraules.
D’altra banda, s’ha desenvolupat un Anonimitzador de continguts generats per usuaris. Canal d'anonimització per introduir dades de fora del BSC que puguin contenir dades protegides pel GDPR.
Flickr8k-ca: Versió catalana del corpus Flickr8k per a la descripció d'imatges basades en frases. Consta de 8.000 imatges recollides de Flickr amb 5 subtítols de referència.
Multi30k_train-ca: Versió catalana del corpus train.en.multi30. Flickr30k és un conjunt de dades per a la descripció d'imatges basades en frases. Inclou 31.000 imatges recollides de Flickr amb 5 subtítols de referència.
oasst1_ca: Traducció al català del corpus OASST1. Inclou 5.486 instruccions (5213 train i 273 validation). Cada instrucció inclou un missatge, que pot ser un prompt o una resposta, i metadades, inclosos 4 identificadors diferents per al missatge, el missatge principal, la conversa i l'usuari; el rol de l'usuari, la llengua d'origen i les etiquetes d'avaluació de la qualitat.
MentorES: Corpus d’instruccions en castellà. Inclou 10.175 instruccions, distribuïdes en les següents categories: closed_qa, classification, open_qa, summarization, general_qa information_extraction, brainstorming i creative_writing.
MentorCA: Traducció al català de les 10.175 instruccions del corpus MentorES.
arc_ca: Traducció al català de les versions Easy i Challenge del corpus ARC, centrat en el raonament i coneixement bàsic sobre ciències. Inclou 2.950 instàncies a la versió Easy (570 test i 2.380 validation) i 1.469 instàncies a la versió Challenge (299 test i 1.170 validation). Cada instància conté una pregunta, entre 3 i 5 opcions possibles, i la lletra que indica la resposta correcta.
MGSM_ca: Traducció al català del corpus MGSM, dissenyat per avaluar el raonament matemàtic. Inclou 258 instàncies. Cada instància conté un problema matemàtic, una resposta pas a pas, el resultat final del problema i la solució formulada com a equacions.
OpenBookQA_ca: Traducció al català del corpus OpenBookQA, dissenyat per avaluar coneixements bàsics del món i certa capacitat de raonament. Inclou 1.000 instàncies amb una pregunta, quatre opcions possibles i la lletra que indica la resposta correcta.
PIQA_ca: Traducció al català del corpus PIQA, dissenyat per avaluar el raonament lògic sobre el món físic. Inclou 1.838 instàncies amb una frase (goal), dues solucions possibles i l'etiqueta que indica quina de les dues solucions és la correcte.
SIQA_ca: Traducció al català del corpus, centrat en el raonament lògic sobre les accions i situacions del dia a dia i les seves implicacions socials. Inclou 1.954 instàncies amb cinc camps principals: una frase afirmativa (context), una pregunta sobre el context (question) i tres respostes.
xstorycloze_ca: Traducció al català del corpus English StoryCloze dataset (v. Spring 2016), entrat en la comprensió del llenguatge i el raonament espacial i temporal propi de les narracions. Inclou 1.870 instàncies (360 train i 1510 test). Cada instància conté una història, dividida en 4 frases, 2 possibles finalitzacions i el número que indica la resposta correcta.