🔠Dades i eines per a models de text

Corpus textual massiu

CATalog: Corpus compost per 17.450.496.729 paraules (aproximadament 23 mil milions de tokens), repartides en 34.816.765 documents procedents d’una gran diversitat de fonts, amb un percentatge notable de textos curats manualment.

Accés: https://huggingface.co/datasets/projecte-aina/CATalogarrow-up-right


Dades anotades per a fine tuning i/o avaluació de models de text

Identificació, classificació i vinculació d'entitats

Anotació d’entitats amb nom i dependències

Anàlisi de sentiments

Detecció d'emocions i opinió

Implicació textual

Classificació de textos

Classificació de documents

Pregunta resposta conversacional

Pregunta resposta multilingüe

Pregunta resposta

Identificació d’imatges

Classificació d’intents, detecció d’entitats associades i entrenament/avaluació de sistemes conversacionals

Paràfrasi

Similitud textual semàntica

Negació

Resum de textos

Detecció de llenguatge abusiu

Raonament causal

Generació augmentada per recuperació (RAG)


Dades per instruir models de text


Dades per avaluar models de text

  • Multi-LMentry: Conjunt de dades en nou idiomes dissenyat per avaluar els LLMs en tasques de raonament i comprensió de nivell elemental; facilitar comparacions multilingües, en particular entre llengües amb abundants recursos i aquelles amb recursos limitats; i servir com a eina de diagnosi o com un conjunt de proves unitàries per examinar les habilitats fonamentals dels models. Es tracta d’una extensió multilingüe de LMentryarrow-up-right.

    Accés: https://huggingface.co/datasets/BSC-LT/multi_lmentryarrow-up-right

  • EQ-bench_ca: Versió traduïda al català i adaptada lingüísticament del conjunt de dades original EQ-Bencharrow-up-right, dissenyat per avaluar el raonament emocional en models de llenguatge mitjançant indicacions basades en diàlegs. El seu disseny respon a la necessitat d’ajustar les capacitats de detecció emocional dels models multilingües, tot reconeixent que l’expressió i la percepció de les emocions poden variar de manera significativa entre llengües.

    Accés: https://huggingface.co/datasets/BSC-LT/EQ-bench_caarrow-up-right

  • CaBBQ: Adaptació del conjunt de dades original BBQarrow-up-right a la llengua catalana i al context social d’Espanya. Aquest recurs s’utilitza per avaluar el biaix social en models de llenguatge a gran escala (LLM) en una tasca de preguntes i respostes amb opcions múltiples, centrada en deu categories socials: edat, discapacitat, gènere, identitat LGBTQIA, nacionalitat, aparença física, raça/etnicitat, religió, nivell socioeconòmic i regió espanyola.

    Accés: https://huggingface.co/datasets/BSC-LT/CaBBQarrow-up-right

  • hhh_alignment_ca: Traducció al català del corpus hhh_alignment de preguntes i respostes. Està dissenyat per avaluar els models de llenguatge pel que fa a alineació, amb una classificació pragmàtica en les categories d'utilitat, honestedat/precisió, innocuïtat i d'altres. Cada instància conté una sol·licitud i dues possibles respostes.

    Accés: https://huggingface.co/datasets/projecte-aina/hhh_alignment_caarrow-up-right

  • IFEval_ca: Traducció al català del corpus IFEval, dissenyat per avaluar models de llenguatge optimitzats per a xat o instruccions. El conjunt de dades inclou 541 “instruccions verificables”, com ara “escriure més de 400 paraules” i “esmentar la paraula clau de la IA almenys 3 vegades”, que es poden verificar mitjançant heurística. Cada instància conté una única sol·licitud d'entrada.

    Accés: https://huggingface.co/datasets/projecte-aina/IFEval_ca arrow-up-right

  • VeritasQA: Corpus disenyat per avaluar grans models de llenguatge sobre la veracitat en un entorn zero-shot, basat en el corpus TruthfulQA. Inclou 353 parells de preguntes-respostes inspirades en idees errònies i falsedats comuns.

    Accés: https://huggingface.co/datasets/projecte-aina/veritasQAarrow-up-right

  • arc_ca: Traducció al català de les versions Easy i Challenge del corpus ARCarrow-up-right, centrat en el raonament i coneixement bàsic sobre ciències. Inclou 2.950 instàncies a la versió Easy (570 test i 2.380 validation) i 1.469 instàncies a la versió Challenge (299 test i 1.170 validation). Cada instància conté una pregunta, entre 3 i 5 opcions possibles, i la lletra que indica la resposta correcta.

    Accés: https://huggingface.co/datasets/projecte-aina/arc_caarrow-up-right

  • MGSM_ca: Traducció al català del corpus MGSM, dissenyat per avaluar el raonament matemàtic. Inclou 258 instàncies. Cada instància conté un problema matemàtic, una resposta pas a pas, el resultat final del problema i la solució formulada com a equacions.

    Accés: https://huggingface.co/datasets/projecte-aina/mgsm_caarrow-up-right

  • OpenBookQA_ca: Traducció al català del corpus OpenBookQA, dissenyat per avaluar coneixements bàsics del món i certa capacitat de raonament. Inclou 1.000 instàncies amb una pregunta, quatre opcions possibles i la lletra que indica la resposta correcta.

    Accés: https://huggingface.co/datasets/projecte-aina/openbookqa_caarrow-up-right

  • PIQA_ca: Traducció al català del corpus PIQA, dissenyat per avaluar el raonament lògic sobre el món físic. Inclou 1.838 instàncies amb una frase (goal), dues solucions possibles i l'etiqueta que indica quina de les dues solucions és la correcte.

    Accés: https://huggingface.co/datasets/projecte-aina/PIQA_caarrow-up-right

  • SIQA_ca: Traducció al català del corpus, centrat en el raonament lògic sobre les accions i situacions del dia a dia i les seves implicacions socials. Inclou 1.954 instàncies amb cinc camps principals: una frase afirmativa (context), una pregunta sobre el context (question) i tres respostes.

    Accés: https://huggingface.co/datasets/projecte-aina/SIQA_caarrow-up-right

  • xstorycloze_ca: Traducció al català del corpus English StoryCloze datasetarrow-up-right (v. Spring 2016), centrat en la comprensió del llenguatge i el raonament espacial i temporal propi de les narracions. Inclou 1.870 instàncies (360 ​​train i 1510 test). Cada instància conté una història, dividida en 4 frases, 2 possibles finalitzacions i el número que indica la resposta correcta.

    Accés: https://huggingface.co/datasets/projecte-aina/xstorycloze_caarrow-up-right


Eines per al subministrament de dades de text

Per garantir el subministrament de dades, s’han implantat diferents mètodes d'adquisició de dades que automatitzen aquest procés i garanteixen el subministrament i l'actualització de les dades.

D’altra banda, s’ha desenvolupat un Anonimitzador de continguts generats per usuaris. Canal d'anonimització per introduir dades de fora del BSC que puguin contenir dades protegides pel GDPR.


Last updated