🏆Avaluació de models en llengua catalana

CLUB

El Catalan Language Understanding Benchmark (CLUB) posa a prova la capacitat d'un sistema en llengua catalana. El CLUB consta de 8 tasques: reconeixement d'entitats nomenades (NER), etiquetatge morfosintàctic (POS), similitud textual semàntica (STS), classificació de text (TC), implicació textual (TE), resposta a preguntes (QA) i comprensió del llenguatge natural (NLU).

Podeu accedir al “Leaderboard” des de https://club.aina.bsc.es

Avaluació de models generatius

Els models generatius s’avaluen utilitzant el Language Model Evaluation Harness d'EleutherAI amb tasques en català, castellà i anglès, amb especial èmfasi en els conjunts de dades en català. Les tasques s’han escollit per cobrir diverses àrees d'avaluació per tal de proporcionar una visió global de les capacitats del model.

Les referències utilitzades per comparar els nostres resultats són models 1.3B multilingües i de codi obert en anglès: mGPT-1.3B, GPT-Neo-1.3B, Pythia-1.4B, OPT-1.3B, Falcon-rw-1.3B i Cerebras- GPT-1.3B.

La nostra implementació del Language Model Evaluation Harness d'EleutherAI es pot trobar aquí

A continuació es mostra una llista de les àrees d'avaluació i els seus respectius conjunts de dades:

  • Comprensió lectora: Belebele

  • Pregunta Resposta: XQuAD, CatalanQA, CoQCat

  • Inferència del llenguatge natural: XNLI i la seva traducció al català (XNLI-ca), TE-ca

  • Identificació de la paràfrasis: PAWS-X i la seva traducció al català (PAWS-ca), Parafraseja

  • Raonament en sentit comú: COPA i la seva traducció al català (COPA-ca)

  • Traducció: FLoRes

  • Resum: CaBreu

  • Raonament i coneixement sobre ciències: ARCChallenge i ARCEasy

  • Raonament lògic sobre el món físic: PIQA

  • Coneixements del món i certa capacitat de raonament: OpenBookQA

  • Raonament matemàtic: MGSM

  • Comprensió del llenguatge i raonament espacial i temporal propi de les narracions: XStory Cloze

  • Avaluació capacitats lingüistiques: LMentry

En un futur també s’inclourà l’avaluació humana dels models generatius.

Lluita contra la desinformació i els biaxos

Per avançar cap una IA confiable des del projecte Aina s’han generat diversos corpus.

  • Generació corpus de factualitat equivalent al TruthfulQA ‘VeritasQA’ (360 preguntes/respostes en ca/en/es/gl/eu/. no conté coneixement ‘localitzat’, sense connexió geogràfica, ‘traduible’, comprovant factualitat i amb un source de confiança)

  • Avaluacions de biaix de gènere amb el nou corpus Must-SHE

Last updated

© Projecte Aina | Language Technologies Unit at BSC