🏆Avaluació de models en llengua catalana
CLUB
El Catalan Language Understanding Benchmark (CLUB) posa a prova la capacitat d'un sistema en llengua catalana. El CLUB consta de 8 tasques: reconeixement d'entitats nomenades (NER), etiquetatge morfosintàctic (POS), similitud textual semàntica (STS), classificació de text (TC), implicació textual (TE), resposta a preguntes (QA) i comprensió del llenguatge natural (NLU).
Podeu accedir al “Leaderboard” des de https://club.aina.bsc.es
Avaluació de models generatius
Els models generatius s’avaluen utilitzant el Language Model Evaluation Harness d'EleutherAI amb tasques en català, castellà i anglès, amb especial èmfasi en els conjunts de dades en català. Les tasques s’han escollit per cobrir diverses àrees d'avaluació per tal de proporcionar una visió global de les capacitats del model.
Les referències utilitzades per comparar els nostres resultats són models 1.3B multilingües i de codi obert en anglès: mGPT-1.3B, GPT-Neo-1.3B, Pythia-1.4B, OPT-1.3B, Falcon-rw-1.3B i Cerebras- GPT-1.3B.
La nostra implementació del Language Model Evaluation Harness d'EleutherAI es pot trobar aquí
A continuació es mostra una llista de les àrees d'avaluació i els seus respectius conjunts de dades:
Comprensió lectora: Belebele
Identificació de la paràfrasis: PAWS-X i la seva traducció al català (PAWS-ca), Parafraseja
Traducció: FLoRes
Resum: CaBreu
Raonament i coneixement sobre ciències: ARCChallenge i ARCEasy
Raonament lògic sobre el món físic: PIQA
Coneixements del món i certa capacitat de raonament: OpenBookQA
Raonament matemàtic: MGSM
Comprensió del llenguatge i raonament espacial i temporal propi de les narracions: XStory Cloze
Avaluació capacitats lingüistiques: LMentry
En un futur també s’inclourà l’avaluació humana dels models generatius.
Lluita contra la desinformació i els biaxos
Per avançar cap una IA confiable des del projecte Aina s’han generat diversos corpus.
Generació corpus de factualitat equivalent al TruthfulQA ‘VeritasQA’ (360 preguntes/respostes en ca/en/es/gl/eu/. no conté coneixement ‘localitzat’, sense connexió geogràfica, ‘traduible’, comprovant factualitat i amb un source de confiança)
Avaluacions de biaix de gènere amb el nou corpus Must-SHE
Accés: Must-SHE en-ca
Last updated