> For the complete documentation index, see [llms.txt](https://langtech-bsc.gitbook.io/aina-kit/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://langtech-bsc.gitbook.io/aina-kit/datasets/dades-i-eines-per-a-models-de-text.md).

# Dades i eines per a models de text

### Corpus textual massiu

**CATalog***:* Corpus compost per 17.450.496.729 paraules (aproximadament 23 mil milions de tokens), repartides en 34.816.765 documents procedents d’una gran diversitat de fonts, amb un percentatge notable de textos curats manualment.

Accés: <https://huggingface.co/datasets/projecte-aina/CATalog>

***

### Dades anotades per a *fine tuning* i/o avaluació de models de text

#### Function Calling

* **XitXat Tools**: Conjunt de dades format per converses simulades de centres d’atenció telefònica en català. Cada conversa està anotada amb crides estructurades a eines, cosa que el fa adequat per entrenar i avaluar models de llenguatge amb capacitats de *function calling*. Aquest conjunt de dades és una transformació, realitzada amb DeepSeek V3, del corpus original [XitXat](https://zenodo.org/records/7276036#.Y2zMn4LMITU), desenvolupat per a tasques de detecció d’intencions i format per 950 diàlegs entre usuaris i xatbots, distribuïts en 10 dominis diferents.

  Accés: <https://huggingface.co/datasets/BSC-LT/XitXatTools>
* **funcca**: Corpus en català per a l’entrenament i l’avaluació de models conversacionals capaços de fer crides a funcions (*function calling*). Conté 9.781 diàlegs multi-torn entre un agent i un client, amb crides estructurades a funcions i paràmetres representats en format JSON. Aquestes crides cobreixen 244 intencions distribuïdes en 10 dominis reals, com ara administració pública, allotjament, transport, salut, comerç electrònic, telefonia, menjar a domicili, lloguer de cotxes, banca i assegurances. Cada domini s’organitza en un fitxer JSON independent, amb converses agrupades per intenció. Cada interacció inclou la conversa completa, les especificacions de les eines, les crides a funcions extretes i la conversa amb la crida integrada.

  Accés: <https://huggingface.co/datasets/BSC-LT/funcca>

#### Agents multimodals per a l’automatització robòtica de processos

* **rpaweb:** Conjunt de dades que recull anotacions multilingües d’accions d’automatització web en anglès, castellà i català. Està pensat per entrenar models multimodals capaços de completar tasques en navegadors a partir de peticions en llenguatge natural. Inclou, per a cada petició, la seqüència d’accions necessàries, codi JSON, descripcions, captures de pantalla i HTML. Cobreix 15 intencions distribuïdes en cinc escenaris: tràmits tributaris de la Generalitat, gestions amb l’Agència Tributària espanyola, consultes bibliogràfiques a Aladí, cerca d’activitats a TimeOut i gestió de projectes a Trello.

  Accés: <https://huggingface.co/datasets/BSC-LT/rpaweb>

#### Identificació, classificació i vinculació d'entitats

* **CEIL***:* Corpus de 60.000 textos curts per a la identificació, classificació i vinculació d'entitats. Conté 9 tipus i 52 subtipus.

  Accés: <https://huggingface.co/datasets/projecte-aina/ceil>

#### Anotació d’entitats amb nom i dependències

* **ANCORA\_ca v2***:* Corpus d’entrenament de cadenes de processament, afegint la columna NER a la versió CONLLU de UD versió 9, per fer *multitask learning* dins de spaCy.

  Accés: <https://doi.org/10.5281/zenodo.5036650>

#### Anàlisi de sentiments

* **CaSSA**: Corpus de 6.400 ressenyes i missatges de fòrum anotats amb expressions de polaritat.

  Accés: <https://huggingface.co/datasets/projecte-aina/CaSSA-catalan-structured-sentiment-analysis>
* **GuiaCat***:* Corpus de 5.750 ressenyes de restaurants en català de la plataforma GuiaCat. Cada ressenya té associada una valoració per servei, menjar, qualitat-preu i ambient, i una nota mitjana.

  Accés:  <https://huggingface.co/datasets/projecte-aina/GuiaCat>

#### Detecció d'emocions i opinió

* **CaSET*****:*** Corpus de tuits anotats amb emocions i opinió. Conté 11.000 frases úniques sobre cinc temes controvertits, agrupades en 6.000 parells de frases.

  Accés:  <https://huggingface.co/datasets/projecte-aina/CaSET-catalan-stance-emotions-twitter>
* **CaSERa**: Corpus de missatges de fòrum anotats amb emocions i opinió. Conté 15.782 frases úniques agrupades en 10.745 parells de frases.

  Accés: <https://huggingface.co/datasets/projecte-aina/CaSERa-catalan-stance-emotions-raco>

#### Implicació textual

* **XNLI-ca***:* Traducció al català del corpus XNLI per a l'avaluació de sistemes de comprensió de llenguatge cross-lingüe en tasques com ara la inferència del llenguatge natural. Conté 7.500 parells de frases.

  Accés: <https://huggingface.co/datasets/projecte-aina/xnli-ca>
* **WNLI-ca**: Traducció al català del corpus WNLI, que inclou 855 parells d'oracions en què la primera frase conté una ambigüitat i la segona una possible interpretació d'aquesta.

  Accés: <https://huggingface.co/datasets/projecte-aina/wnli-ca>
* **Teca***:* Corpus d’implicació textual. Conté 21.163 parells de premisses i hipòtesis, anotades segons la relació d'inferència que tenen (implicació, contradicció o neutre).

  Accés:  <https://huggingface.co/datasets/projecte-aina/teca>

#### Classificació de textos

* **TeCla v2**: Corpus de notícies en català per a tasques de classificació de textos multiclasse. Conté 113.376 articles classificats sota una estructura de classes jeràrquica que consisteix en 4 classes i 53 subclasses.

  Accés: <https://huggingface.co/datasets/projecte-aina/tecla>
* **CaWikiTC***:* Corpus creat de manera automàtica a partir dels resums d'articles de la Viquipèdia i la categoria temàtica associada. Conté 21.002 textos classificats en 67 categories.

  Accés: <https://huggingface.co/datasets/projecte-aina/CaWikiTC>

#### Classificació de documents

* **WikiCAT\_ca***:* Corpus català per a tasques de classificació temàtica de textos no periodístics. Conté 13.201 articles de la Viquipedia classificats en 13 categories diferents.

  Accés: <https://huggingface.co/datasets/projecte-aina/WikiCAT_ca>

#### Pregunta resposta conversacional

* **CoQCat***:* Corpus anotats amb una conversa d'uns 15 torns de pregunta-resposta. Consta de 89.364 parells de preguntes-respostes procedents de converses relacionades amb 6.000 paràgrafs de sis dominis diferents.

  Accés: <https://huggingface.co/datasets/projecte-aina/CoQCat>

#### Pregunta resposta multilingüe

* **XQUAD-ca***:* Traducció al català del corpus XQUAD, que consta d'un subconjunt de 240 paràgrafs i 1.190 parells de pregunta-resposta del corpus SQuAD v1.1.

  Accés: <https://huggingface.co/datasets/projecte-aina/xquad-ca>

#### Pregunta resposta

* **VilaQuAD***:* Corpus de parells preguntes/resposta sobre notícies. Conté 2.095 articles de notícies en català i d'1 a 5 preguntes amb la seva resposta per a cada fragment (o context).

  Accés: <https://huggingface.co/datasets/projecte-aina/vilaquad>
* **ViquiQuAD***:* Corpus de parells preguntes/resposta sobre la Viquipèdia. Conté 3.111 contextos extrets d'un conjunt de 597 articles originals i d'1 a 5 preguntes amb la seva resposta per a cada fragment.

  Accés: <https://huggingface.co/datasets/projecte-aina/viquiquad>
* **CatalanQA***:* Corpus de 21.426 parells preguntes/resposta sobre la Viquipèdia i notícies.

  Accés: <https://huggingface.co/datasets/projecte-aina/catalanqa>

#### Identificació d’imatges

* **Flickr8k-ca**: Versió catalana del corpus [Flickr8k](https://www.kaggle.com/datasets/adityajn105/flickr8k/data) per a la descripció d'imatges basades en frases. Consta de 8.000 imatges recollides de Flickr amb 5 subtítols de referència.

  Accés: <https://zenodo.org/records/10728641>
* **Multi30k\_train-ca:** Versió catalana del corpus train.en.multi30. [Flickr30k](https://paperswithcode.com/dataset/flickr30k) és un conjunt de dades per a la descripció d'imatges basades en frases. Inclou 31.000 imatges recollides de Flickr amb 5 subtítols de referència.

  Accés: <https://zenodo.org/records/10728674>

#### Classificació d’*intents,* detecció d’entitats associades i entrenament/avaluació de sistemes conversacionals

* **XitXat***:* Corpus de 950 converses de 10 dominis diferents entre xatbots i usuaris.

  Accés: <https://zenodo.org/record/7276036#.Y2zMn4LMITU>
* **NLUCat***:* Corpus de 12.000 frases anotades segons el seu *intent* i els *slots* més rellevants, com a dades de suport per al desenvolupament d'assistents electrònics.

  Accés: <https://huggingface.co/datasets/projecte-aina/NLUCat>

#### Paràfrasi

* **Parafraseja***:* Corpus de 21.984 parells de frases anotades segons si són paràfrasis l’una de l’altra, o no.

  Accés: <https://huggingface.co/datasets/projecte-aina/Parafraseja>
* **PAWS-ca***:* Traducció al català del corpus PAWS per a la indentificació de paràfrasis. Conté 4.000 parells d'exemples traduïts per humans i 49.400 parells traduïts automàticament.

  Accés: <https://huggingface.co/datasets/projecte-aina/PAWS-ca>

#### Similitud textual semàntica

* **STS-ca**: Corpus per a l’avaluació de la similitud textual semàntica.

  Accés: <https://huggingface.co/datasets/projecte-aina/sts-ca>

#### Negació

* **NoNiRes***:* Anotació de les expressions de negació en 20.541 frases en català.

  Accés: <https://zenodo.org/record/7319487#.Y3S_uL7MLOs>

#### Resum de textos

* **CaBreu***:* Corpus de resums abstractius, extractius i extrems de 3.000 documents.

  Accés: <https://huggingface.co/datasets/projecte-aina/caBreu>

#### Detecció de llenguatge abusiu

* **IntoxiCAT***:* Corpus de 29.809 frases obtingudes de missatges de fòrums, anotades segons si són o no abusives.

  Accés: <https://huggingface.co/datasets/projecte-aina/InToxiCat>

#### Raonament causal

* **COPA-ca***:* Traducció al català del corpus COPA, corpus de referència per al raonament causal. Inclou 1.000 instàncies, cadascuna de les quals es compon d'una premissa i dues hipòtesis (o alternatives).

  Accés: <https://huggingface.co/datasets/projecte-aina/COPA-ca>

#### Generació augmentada per recuperació (RAG)

* **RAG\_Multilingual**: Conjunt de dades sintètic de preguntes i respostes creat per ajustar models per a sistemes de generació augmentada per recuperació (RAG).

  Accés: <https://huggingface.co/datasets/projecte-aina/RAG_Multilingual>

***

### Dades per instruir models de text

* **oasst1\_ca**: Traducció al català del corpus [OASST1](https://huggingface.co/datasets/OpenAssistant/oasst1). Inclou 5.486 instruccions (5213 *train* i 273 *validation*). Cada instrucció inclou un missatge, que pot ser un *prompt* o una resposta, i metadades, inclosos 4 identificadors diferents per al missatge, el missatge principal, la conversa i l'usuari; el rol de l'usuari, la llengua d'origen i les etiquetes d'avaluació de la qualitat.

  Accés: <https://huggingface.co/datasets/projecte-aina/oasst1_ca>
* **MentorES**: Corpus d’instruccions en castellà. Inclou 10.175 instruccions, distribuïdes en les següents categories: closed\_qa, classification, open\_qa, summarization, general\_qa  information\_extraction, brainstorming i creative\_writing.

  Accés: <https://huggingface.co/datasets/projecte-aina/MentorES>
* **MentorCA**: Traducció al català de les 10.175 instruccions del corpus MentorES.

  Accés: <https://huggingface.co/datasets/projecte-aina/MentorCA>
* **InstruCAT**: Corpus que conté més de 200.000 instruccions per a l'entrenament de LLMs en tasques *downstream* generades a partir dels següents corpu&#x73;**:** [caBreu](https://huggingface.co/datasets/projecte-aina/caBreu), [CatalanQA](https://huggingface.co/datasets/projecte-aina/catalanqa), [CoQCat](https://huggingface.co/datasets/projecte-aina/CoQCat), [GuiaCat](https://huggingface.co/datasets/projecte-aina/GuiaCat), [IntoxiCat](https://huggingface.co/datasets/projecte-aina/InToxiCat), [Parafraseja](https://www.notion.so/Aina-Kit-Datasets-aa292a2e4c09492f85fecb7f13982bf0?pvs=21), [PAWS-ca](https://huggingface.co/datasets/projecte-aina/PAWS-ca), [sts-ca](https://huggingface.co/datasets/projecte-aina/sts-ca),  [WikiCat](https://huggingface.co/datasets/projecte-aina/WikiCAT_ca), [CEIL](https://huggingface.co/datasets/projecte-aina/ceil), [TECA](https://huggingface.co/datasets/projecte-aina/teca), [NLUCat](https://huggingface.co/datasets/projecte-aina/NLUCat), en categories com paràfrasi, toxicitat, pregunta-resposta, classificació, resum i anàlisis de sentiments.

  Accés: <https://huggingface.co/datasets/projecte-aina/InstruCAT>

***

### Dades per avaluar models de text

* **Salamandra Guard dataset**: Corpus de classificació de seguretat multilingüe dissenyat per entrenar i avaluar sistemes de moderació de contingut en català i castellà. Consta de 21.335 exemples conversacionals acuradament seleccionats i anotats segons una taxonomia de seguretat jeràrquica. Aquest conjunt de dades representa un avenç significatiu en dades de seguretat amb base cultural, amb especial èmfasi en el català juntament amb el castellà i l’anglès.

  Accés: <https://huggingface.co/datasets/BSC-LT/salamandra-guard-dataset>
* **Multi-LMentry**: Conjunt de dades en nou idiomes dissenyat per avaluar els LLMs en tasques de raonament i comprensió de nivell elemental; facilitar comparacions multilingües, en particular entre llengües amb abundants recursos i aquelles amb recursos limitats; i servir com a eina de diagnosi o com un conjunt de proves unitàries per examinar les habilitats fonamentals dels models. Es tracta d’una extensió multilingüe de [LMentry](https://aclanthology.org/2023.findings-acl.666/).

  Accés: <https://huggingface.co/datasets/BSC-LT/multi_lmentry>
* **EQ-bench\_ca:** Versió traduïda al català i adaptada lingüísticament del conjunt de dades original [EQ-Bench](https://huggingface.co/datasets/pbevan11/EQ-Bench), dissenyat per avaluar el raonament emocional en models de llenguatge mitjançant indicacions basades en diàlegs. El seu disseny respon a la necessitat d’ajustar les capacitats de detecció emocional dels models multilingües, tot reconeixent que l’expressió i la percepció de les emocions poden variar de manera significativa entre llengües.

  Accés: <https://huggingface.co/datasets/BSC-LT/EQ-bench_ca>
* **CaBBQ**: Adaptació del conjunt de dades original [BBQ](https://huggingface.co/datasets/heegyu/bbq) a la llengua catalana i al context social d’Espanya. Aquest recurs s’utilitza per avaluar el biaix social en models de llenguatge a gran escala (LLM) en una tasca de preguntes i respostes amb opcions múltiples, centrada en deu categories socials: edat, discapacitat, gènere, identitat LGBTQIA, nacionalitat, aparença física, raça/etnicitat, religió, nivell socioeconòmic i regió espanyola.

  Accés: <https://huggingface.co/datasets/BSC-LT/CaBBQ>
* **hhh\_alignment\_ca**: Traducció al català del corpus hhh\_alignment de preguntes i respostes. Està dissenyat per avaluar els models de llenguatge pel que fa a alineació, amb una classificació pragmàtica en les categories d'utilitat, honestedat/precisió, innocuïtat i d'altres. Cada instància conté una sol·licitud i dues possibles respostes.

  Accés: [https://huggingface.co/datasets/projecte-aina/hhh\_alignment\_ca](<https://huggingface.co/datasets/projecte-aina/hhh_alignment_ca >)
* **IFEval\_ca:** Traducció al català del corpus IFEval, dissenyat per avaluar models de llenguatge optimitzats per a xat o instruccions. El conjunt de dades inclou 541 “instruccions verificables”, com ara “escriure més de 400 paraules” i “esmentar la paraula clau de la IA almenys 3 vegades”, que es poden verificar mitjançant heurística. Cada instància conté una única sol·licitud d'entrada.

  Accés: [https://huggingface.co/datasets/projecte-aina/IFEval\_ca ](<https://huggingface.co/datasets/projecte-aina/IFEval_ca >)
* **VeritasQA**: Corpus disenyat per avaluar grans models de llenguatge sobre la veracitat en un entorn *zero-shot,* basat en el corpus TruthfulQA. Inclou 353 parells de preguntes-respostes inspirades en idees errònies i falsedats comuns.

  Accés: <https://huggingface.co/datasets/projecte-aina/veritasQA>
* **arc\_ca**: Traducció al català de les versions Easy i Challenge del corpus [ARC](https://huggingface.co/datasets/allenai/ai2_arc), centrat en el raonament i coneixement bàsic sobre ciències. Inclou 2.950 instàncies a la versió Easy (570 *test* i 2.380 *validation*) i 1.469 instàncies a la versió Challenge (299 *test* i 1.170 *validation*). Cada instància conté una pregunta, entre 3 i 5 opcions possibles, i la lletra que indica la resposta correcta.

  Accés: <https://huggingface.co/datasets/projecte-aina/arc_ca>
* **MGSM\_ca**: Traducció al català del corpus MGSM, dissenyat per avaluar el raonament matemàtic. Inclou 258 instàncies. Cada instància conté un problema matemàtic, una resposta pas a pas, el resultat final del problema i la solució formulada com a equacions.

  Accés: <https://huggingface.co/datasets/projecte-aina/mgsm_ca>
* **OpenBookQA\_ca**: Traducció al català del corpus OpenBookQA, dissenyat per avaluar coneixements bàsics del món i certa capacitat de raonament. Inclou 1.000 instàncies amb una pregunta, quatre opcions possibles i la lletra que indica la resposta correcta.

  Accés: <https://huggingface.co/datasets/projecte-aina/openbookqa_ca>
* **PIQA\_ca**: Traducció al català del corpus PIQA, dissenyat per avaluar el raonament lògic sobre el món físic. Inclou 1.838 instàncies amb una frase (*goal*), dues solucions possibles i l'etiqueta que indica quina de les dues solucions és la correcte.

  Accés: <https://huggingface.co/datasets/projecte-aina/PIQA_ca>
* **SIQA\_ca**: Traducció al català del corpus, centrat en el raonament lògic sobre les accions i situacions del dia a dia i les seves implicacions socials. Inclou 1.954 instàncies amb cinc camps principals: una frase afirmativa (*context*), una pregunta sobre el context (*question*) i tres respostes.

  Accés: <https://huggingface.co/datasets/projecte-aina/SIQA_ca>
* **xstorycloze\_ca**: Traducció al català del corpus [English StoryCloze dataset](https://cs.rochester.edu/nlp/rocstories/) (v. Spring 2016), centrat en la comprensió del llenguatge i el raonament espacial i temporal propi de les narracions. Inclou 1.870 instàncies (360 ​​*train* i 1510 *test*). Cada instància conté una història, dividida en 4 frases, 2 possibles finalitzacions i el número que indica la resposta correcta.

  Accés: <https://huggingface.co/datasets/projecte-aina/xstorycloze_ca>

***

### Eines per al subministrament de dades de text

Per garantir el subministrament de dades, s’han implantat diferents mètodes d'adquisició de dades que automatitzen aquest procés i garanteixen el subministrament i l'actualització de les dades.

* Extractor de text de la **Viquipèdia** que interpreta correctament textos en una gran varietat de llengües, entre elles el català. Extracció de més de 675.000 documents amb més de 266M de paraules en català.
  * Accés: <https://github.com/langtech-bsc/Wikiextractor-V2/>
* Operacionalització de les dades obertes del **DOGC (Diari Oficial de la Generalitat de Catalunya)** mitjançant una pipeline automatitzada que fa ús de l’API de transparència de Catalunya. S’han extret més de 30.000 publicacions en català amb 70M de paraules.
  * Accés: <https://github.com/projecte-aina/docg-pipeline>

D’altra banda, s’ha desenvolupat un **Anonimitzador** de continguts generats per usuaris. Canal d'anonimització per introduir dades de fora del BSC que puguin contenir dades protegides pel GDPR.

* Accés: <https://github.com/langtech-bsc/AnonymizationPipeline>

***