🔠Dades i eines per a models de text

Corpus textual massiu

CATalog: Corpus compost per 17.450.496.729 paraules (aproximadament 23 mil milions de tokens), repartides en 34.816.765 documents procedents d’una gran diversitat de fonts, amb un percentatge notable de textos curats manualment.

Accés: https://huggingface.co/datasets/projecte-aina/CATalog


Dades anotades per a fine tuning i/o avaluació de models de text

Identificació, classificació i vinculació d'entitats

Anotació d’entitats amb nom i dependències

  • ANCORA_ca v2: Corpus d’entrenament de cadenes de processament, afegint la columna NER a la versió CONLLU de UD versió 9, per fer multitask learning dins de spaCy.

    Accés: https://doi.org/10.5281/zenodo.5036650

Anàlisi de sentiments

Detecció d'emocions i opinió

Implicació textual

Classificació de textos

Classificació de documents

Pregunta resposta conversacional

  • CoQCat: Corpus anotats amb una conversa d'uns 15 torns de pregunta-resposta. Consta de 89.364 parells de preguntes-respostes procedents de converses relacionades amb 6.000 paràgrafs de sis dominis diferents.

    Accés: https://huggingface.co/datasets/projecte-aina/CoQCat

Pregunta resposta multilingüe

Pregunta resposta

Identificació d’imatges

  • Flickr8k-ca: Versió catalana del corpus Flickr8k per a la descripció d'imatges basades en frases. Consta de 8.000 imatges recollides de Flickr amb 5 subtítols de referència.

    Accés: https://zenodo.org/records/10728641

  • Multi30k_train-ca: Versió catalana del corpus train.en.multi30. Flickr30k és un conjunt de dades per a la descripció d'imatges basades en frases. Inclou 31.000 imatges recollides de Flickr amb 5 subtítols de referència.

    Accés: https://zenodo.org/records/10728674

Classificació d’intents, detecció d’entitats associades i entrenament/avaluació de sistemes conversacionals

Paràfrasi

Similitud textual semàntica

Negació

Resum de textos

Detecció de llenguatge abusiu

Raonament causal

  • COPA-ca: Traducció al català del corpus COPA, corpus de referència per al raonament causal. Inclou 1.000 instàncies, cadascuna de les quals es compon d'una premissa i dues hipòtesis (o alternatives).

    Accés: https://huggingface.co/datasets/projecte-aina/COPA-ca

Generació augmentada per recuperació (RAG)


Dades per instruir models de text


Dades per avaluar models de text

  • hhh_alignment_ca: Traducció al català del corpus hhh_alignment de preguntes i respostes. Està dissenyat per avaluar els models de llenguatge pel que fa a alineació, amb una classificació pragmàtica en les categories d'utilitat, honestedat/precisió, innocuïtat i d'altres. Cada instància conté una sol·licitud i dues possibles respostes.

    Accés: https://huggingface.co/datasets/projecte-aina/hhh_alignment_ca

  • IFEval_ca: Traducció al català del corpus IFEval, dissenyat per avaluar models de llenguatge optimitzats per a xat o instruccions. El conjunt de dades inclou 541 “instruccions verificables”, com ara “escriure més de 400 paraules” i “esmentar la paraula clau de la IA almenys 3 vegades”, que es poden verificar mitjançant heurística. Cada instància conté una única sol·licitud d'entrada.

    Accés: https://huggingface.co/datasets/projecte-aina/IFEval_ca

  • VeritasQA: Corpus disenyat per avaluar grans models de llenguatge sobre la veracitat en un entorn zero-shot, basat en el corpus TruthfulQA. Inclou 353 parells de preguntes-respostes inspirades en idees errònies i falsedats comuns.

    Accés: https://huggingface.co/datasets/projecte-aina/veritasQA

  • arc_ca: Traducció al català de les versions Easy i Challenge del corpus ARC, centrat en el raonament i coneixement bàsic sobre ciències. Inclou 2.950 instàncies a la versió Easy (570 test i 2.380 validation) i 1.469 instàncies a la versió Challenge (299 test i 1.170 validation). Cada instància conté una pregunta, entre 3 i 5 opcions possibles, i la lletra que indica la resposta correcta.

    Accés: https://huggingface.co/datasets/projecte-aina/arc_ca

  • MGSM_ca: Traducció al català del corpus MGSM, dissenyat per avaluar el raonament matemàtic. Inclou 258 instàncies. Cada instància conté un problema matemàtic, una resposta pas a pas, el resultat final del problema i la solució formulada com a equacions.

    Accés: https://huggingface.co/datasets/projecte-aina/mgsm_ca

  • OpenBookQA_ca: Traducció al català del corpus OpenBookQA, dissenyat per avaluar coneixements bàsics del món i certa capacitat de raonament. Inclou 1.000 instàncies amb una pregunta, quatre opcions possibles i la lletra que indica la resposta correcta.

    Accés: https://huggingface.co/datasets/projecte-aina/openbookqa_ca

  • PIQA_ca: Traducció al català del corpus PIQA, dissenyat per avaluar el raonament lògic sobre el món físic. Inclou 1.838 instàncies amb una frase (goal), dues solucions possibles i l'etiqueta que indica quina de les dues solucions és la correcte.

    Accés: https://huggingface.co/datasets/projecte-aina/PIQA_ca

  • SIQA_ca: Traducció al català del corpus, centrat en el raonament lògic sobre les accions i situacions del dia a dia i les seves implicacions socials. Inclou 1.954 instàncies amb cinc camps principals: una frase afirmativa (context), una pregunta sobre el context (question) i tres respostes.

    Accés: https://huggingface.co/datasets/projecte-aina/SIQA_ca

  • xstorycloze_ca: Traducció al català del corpus English StoryCloze dataset (v. Spring 2016), centrat en la comprensió del llenguatge i el raonament espacial i temporal propi de les narracions. Inclou 1.870 instàncies (360 ​​train i 1510 test). Cada instància conté una història, dividida en 4 frases, 2 possibles finalitzacions i el número que indica la resposta correcta.

    Accés: https://huggingface.co/datasets/projecte-aina/xstorycloze_ca


Eines per al subministrament de dades de text

Per garantir el subministrament de dades, s’han implantat diferents mètodes d'adquisició de dades que automatitzen aquest procés i garanteixen el subministrament i l'actualització de les dades.

  • Extractor de text de la Viquipèdia que interpreta correctament textos en una gran varietat de llengües, entre elles el català. Extracció de més de 675.000 documents amb més de 266M de paraules en català.

  • Operacionalització de les dades obertes del DOGC (Diari Oficial de la Generalitat de Catalunya) mitjançant una pipeline automatitzada que fa ús de l’API de transparència de Catalunya. S’han extret més de 30.000 publicacions en català amb 70M de paraules.

D’altra banda, s’ha desenvolupat un Anonimitzador de continguts generats per usuaris. Canal d'anonimització per introduir dades de fora del BSC que puguin contenir dades protegides pel GDPR.


Last updated