🔠Dades i eines per a models de text
Corpus textual massiu
CATalog: Corpus compost per 17.450.496.729 paraules (aproximadament 23 mil milions de tokens), repartides en 34.816.765 documents procedents d’una gran diversitat de fonts, amb un percentatge notable de textos curats manualment.
Accés: https://huggingface.co/datasets/projecte-aina/CATalog
Dades anotades per a fine tuning i/o avaluació de models de text
Identificació, classificació i vinculació d'entitats
CEIL: Corpus de 60.000 textos curts per a la identificació, classificació i vinculació d'entitats. Conté 9 tipus i 52 subtipus.
Anotació d’entitats amb nom i dependències
ANCORA_ca v2: Corpus d’entrenament de cadenes de processament, afegint la columna NER a la versió CONLLU de UD versió 9, per fer multitask learning dins de spaCy.
Anàlisi de sentiments
CaSSA: Corpus de 6.400 ressenyes i missatges de fòrum anotats amb expressions de polaritat.
Accés: https://huggingface.co/datasets/projecte-aina/CaSSA-catalan-structured-sentiment-analysis
GuiaCat: Corpus de 5.750 ressenyes de restaurants en català de la plataforma GuiaCat. Cada ressenya té associada una valoració per servei, menjar, qualitat-preu i ambient, i una nota mitjana.
Accés: https://huggingface.co/datasets/projecte-aina/GuiaCat
Detecció d'emocions i opinió
CaSET: Corpus de tuits anotats amb emocions i opinió. Conté 11.000 frases úniques sobre cinc temes controvertits, agrupades en 6.000 parells de frases.
Accés: https://huggingface.co/datasets/projecte-aina/CaSET-catalan-stance-emotions-twitter
CaSERa: Corpus de missatges de fòrum anotats amb emocions i opinió. Conté 15.782 frases úniques agrupades en 10.745 parells de frases.
Accés: https://huggingface.co/datasets/projecte-aina/CaSERa-catalan-stance-emotions-raco
Implicació textual
XNLI-ca: Traducció al català del corpus XNLI per a l'avaluació de sistemes de comprensió de llenguatge cross-lingüe en tasques com ara la inferència del llenguatge natural. Conté 7.500 parells de frases.
Accés: https://huggingface.co/datasets/projecte-aina/xnli-ca
WNLI-ca: Traducció al català del corpus WNLI, que inclou 855 parells d'oracions en què la primera frase conté una ambigüitat i la segona una possible interpretació d'aquesta.
Accés: https://huggingface.co/datasets/projecte-aina/wnli-ca
Teca: Corpus d’implicació textual. Conté 21.163 parells de premisses i hipòtesis, anotades segons la relació d'inferència que tenen (implicació, contradicció o neutre).
Classificació de textos
TeCla v2: Corpus de notícies en català per a tasques de classificació de textos multiclasse. Conté 113.376 articles classificats sota una estructura de classes jeràrquica que consisteix en 4 classes i 53 subclasses.
CaWikiTC: Corpus creat de manera automàtica a partir dels resums d'articles de la Viquipèdia i la categoria temàtica associada. Conté 21.002 textos classificats en 67 categories.
Accés: https://huggingface.co/datasets/projecte-aina/CaWikiTC
Classificació de documents
WikiCAT_ca: Corpus català per a tasques de classificació temàtica de textos no periodístics. Conté 13.201 articles de la Viquipedia classificats en 13 categories diferents.
Accés: https://huggingface.co/datasets/projecte-aina/WikiCAT_ca
Pregunta resposta conversacional
CoQCat: Corpus anotats amb una conversa d'uns 15 torns de pregunta-resposta. Consta de 89.364 parells de preguntes-respostes procedents de converses relacionades amb 6.000 paràgrafs de sis dominis diferents.
Pregunta resposta multilingüe
XQUAD-ca: Traducció al català del corpus XQUAD, que consta d'un subconjunt de 240 paràgrafs i 1.190 parells de pregunta-resposta del corpus SQuAD v1.1.
Accés: https://huggingface.co/datasets/projecte-aina/xquad-ca
Pregunta resposta
VilaQuAD: Corpus de parells preguntes/resposta sobre notícies. Conté 2.095 articles de notícies en català i d'1 a 5 preguntes amb la seva resposta per a cada fragment (o context).
Accés: https://huggingface.co/datasets/projecte-aina/vilaquad
ViquiQuAD: Corpus de parells preguntes/resposta sobre la Viquipèdia. Conté 3.111 contextos extrets d'un conjunt de 597 articles originals i d'1 a 5 preguntes amb la seva resposta per a cada fragment.
Accés: https://huggingface.co/datasets/projecte-aina/viquiquad
CatalanQA: Corpus de 21.426 parells preguntes/resposta sobre la Viquipèdia i notícies.
Accés: https://huggingface.co/datasets/projecte-aina/catalanqa
Identificació d’imatges
Flickr8k-ca: Versió catalana del corpus Flickr8k per a la descripció d'imatges basades en frases. Consta de 8.000 imatges recollides de Flickr amb 5 subtítols de referència.
Multi30k_train-ca: Versió catalana del corpus train.en.multi30. Flickr30k és un conjunt de dades per a la descripció d'imatges basades en frases. Inclou 31.000 imatges recollides de Flickr amb 5 subtítols de referència.
Classificació d’intents, detecció d’entitats associades i entrenament/avaluació de sistemes conversacionals
XitXat: Corpus de 950 converses de 10 dominis diferents entre xatbots i usuaris.
NLUCat: Corpus de 12.000 frases anotades segons el seu intent i els slots més rellevants, com a dades de suport per al desenvolupament d'assistents electrònics.
Paràfrasi
Parafraseja: Corpus de 21.984 parells de frases anotades segons si són paràfrasis l’una de l’altra, o no.
Accés:https://huggingface.co/datasets/projecte-aina/Para fraseja
PAWS-ca: Traducció al català del corpus PAWS per a la indentificació de paràfrasis. Conté 4.000 parells d'exemples traduïts per humans i 49.400 parells traduïts automàticament.
Accés: https://huggingface.co/datasets/projecte-aina/PAWS-ca
Similitud textual semàntica
STS-ca: Corpus per a l’avaluació de la similitud textual semàntica.
Negació
NoNiRes: Anotació de les expressions de negació en 20.541 frases en català.
Resum de textos
CaBreu: Corpus de resums abstractius, extractius i extrems de 3.000 documents.
Detecció de llenguatge abusiu
IntoxiCAT: Corpus de 29.809 frases obtingudes de missatges de fòrums, anotades segons si són o no abusives.
Accés: https://huggingface.co/datasets/projecte-aina/InToxiCat
Raonament causal
COPA-ca: Traducció al català del corpus COPA, corpus de referència per al raonament causal. Inclou 1.000 instàncies, cadascuna de les quals es compon d'una premissa i dues hipòtesis (o alternatives).
Accés: https://huggingface.co/datasets/projecte-aina/COPA-ca
Generació augmentada per recuperació (RAG)
RAG_Multilingual: Conjunt de dades sintètic de preguntes i respostes creat per ajustar models per a sistemes de generació augmentada per recuperació (RAG).
Accés: https://huggingface.co/datasets/projecte-aina/RAG_Multilingual
Dades per instruir models de text
oasst1_ca: Traducció al català del corpus OASST1. Inclou 5.486 instruccions (5213 train i 273 validation). Cada instrucció inclou un missatge, que pot ser un prompt o una resposta, i metadades, inclosos 4 identificadors diferents per al missatge, el missatge principal, la conversa i l'usuari; el rol de l'usuari, la llengua d'origen i les etiquetes d'avaluació de la qualitat.
Accés: https://huggingface.co/datasets/projecte-aina/oasst1_ca
MentorES: Corpus d’instruccions en castellà. Inclou 10.175 instruccions, distribuïdes en les següents categories: closed_qa, classification, open_qa, summarization, general_qa information_extraction, brainstorming i creative_writing.
Accés: https://huggingface.co/datasets/projecte-aina/MentorES
MentorCA: Traducció al català de les 10.175 instruccions del corpus MentorES.
Accés: https://huggingface.co/datasets/projecte-aina/MentorCA
InstruCAT: Corpus que conté més de 200.000 instruccions per a l'entrenament de LLMs en tasques downstream generades a partir dels següents corpus: caBreu, CatalanQA, CoQCat, GuiaCat, IntoxiCat, Parafraseja, PAWS-ca, sts-ca, WikiCat, CEIL, TECA, NLUCat, en categories com paràfrasi, toxicitat, pregunta-resposta, classificació, resum i anàlisis de sentiments.
Accés: https://huggingface.co/datasets/projecte-aina/InstruCAT
Dades per avaluar models de text
hhh_alignment_ca: Traducció al català del corpus hhh_alignment de preguntes i respostes. Està dissenyat per avaluar els models de llenguatge pel que fa a alineació, amb una classificació pragmàtica en les categories d'utilitat, honestedat/precisió, innocuïtat i d'altres. Cada instància conté una sol·licitud i dues possibles respostes.
Accés: https://huggingface.co/datasets/projecte-aina/hhh_alignment_ca
IFEval_ca: Traducció al català del corpus IFEval, dissenyat per avaluar models de llenguatge optimitzats per a xat o instruccions. El conjunt de dades inclou 541 “instruccions verificables”, com ara “escriure més de 400 paraules” i “esmentar la paraula clau de la IA almenys 3 vegades”, que es poden verificar mitjançant heurística. Cada instància conté una única sol·licitud d'entrada.
Accés: https://huggingface.co/datasets/projecte-aina/IFEval_ca
VeritasQA: Corpus disenyat per avaluar grans models de llenguatge sobre la veracitat en un entorn zero-shot, basat en el corpus TruthfulQA. Inclou 353 parells de preguntes-respostes inspirades en idees errònies i falsedats comuns.
Accés: https://huggingface.co/datasets/projecte-aina/veritasQA
arc_ca: Traducció al català de les versions Easy i Challenge del corpus ARC, centrat en el raonament i coneixement bàsic sobre ciències. Inclou 2.950 instàncies a la versió Easy (570 test i 2.380 validation) i 1.469 instàncies a la versió Challenge (299 test i 1.170 validation). Cada instància conté una pregunta, entre 3 i 5 opcions possibles, i la lletra que indica la resposta correcta.
MGSM_ca: Traducció al català del corpus MGSM, dissenyat per avaluar el raonament matemàtic. Inclou 258 instàncies. Cada instància conté un problema matemàtic, una resposta pas a pas, el resultat final del problema i la solució formulada com a equacions.
Accés: https://huggingface.co/datasets/projecte-aina/mgsm_ca
OpenBookQA_ca: Traducció al català del corpus OpenBookQA, dissenyat per avaluar coneixements bàsics del món i certa capacitat de raonament. Inclou 1.000 instàncies amb una pregunta, quatre opcions possibles i la lletra que indica la resposta correcta.
Accés: https://huggingface.co/datasets/projecte-aina/openbookqa_ca
PIQA_ca: Traducció al català del corpus PIQA, dissenyat per avaluar el raonament lògic sobre el món físic. Inclou 1.838 instàncies amb una frase (goal), dues solucions possibles i l'etiqueta que indica quina de les dues solucions és la correcte.
Accés: https://huggingface.co/datasets/projecte-aina/PIQA_ca
SIQA_ca: Traducció al català del corpus, centrat en el raonament lògic sobre les accions i situacions del dia a dia i les seves implicacions socials. Inclou 1.954 instàncies amb cinc camps principals: una frase afirmativa (context), una pregunta sobre el context (question) i tres respostes.
Accés: https://huggingface.co/datasets/projecte-aina/SIQA_ca
xstorycloze_ca: Traducció al català del corpus English StoryCloze dataset (v. Spring 2016), centrat en la comprensió del llenguatge i el raonament espacial i temporal propi de les narracions. Inclou 1.870 instàncies (360 train i 1510 test). Cada instància conté una història, dividida en 4 frases, 2 possibles finalitzacions i el número que indica la resposta correcta.
Accés: https://huggingface.co/datasets/projecte-aina/xstorycloze_ca
Eines per al subministrament de dades de text
Per garantir el subministrament de dades, s’han implantat diferents mètodes d'adquisició de dades que automatitzen aquest procés i garanteixen el subministrament i l'actualització de les dades.
Extractor de text de la Viquipèdia que interpreta correctament textos en una gran varietat de llengües, entre elles el català. Extracció de més de 675.000 documents amb més de 266M de paraules en català.
Operacionalització de les dades obertes del DOGC (Diari Oficial de la Generalitat de Catalunya) mitjançant una pipeline automatitzada que fa ús de l’API de transparència de Catalunya. S’han extret més de 30.000 publicacions en català amb 70M de paraules.
D’altra banda, s’ha desenvolupat un Anonimitzador de continguts generats per usuaris. Canal d'anonimització per introduir dades de fora del BSC que puguin contenir dades protegides pel GDPR.
Last updated