🏆Avaluació de models en llengua catalana

CLUB

El Catalan Language Understanding Benchmark (CLUB) posa a prova la capacitat d'un sistema en llengua catalana. Consta de 8 tasques: reconeixement d'entitats nomenades (NER), etiquetatge morfosintàctic (POS), similitud textual semàntica (STS), classificació de text (TC), implicació textual (TE), resposta a preguntes i resposta a preguntes multilingües (QA), i comprensió del llenguatge natural (NLU).

La plataforma permet als usuaris pujar les prediccions dels seus models; el sistema executa els scripts d’avaluació en aquestes prediccions i afegeix els resultats a la taula. D’aquesta manera, es poden comparar els resultats dels diferents models de llengua en les diferents tasques.

Podeu accedir al “Leaderboard” des de https://club.aina.bsc.es

Avaluació de models generatius

Els models generatius s’avaluen utilitzant el Language Model Evaluation Harness d'EleutherAI amb tasques en català, castellà i anglès, amb especial èmfasi en els conjunts de dades en català. Les tasques s’han escollit per cobrir diverses àrees d'avaluació per tal de proporcionar una visió global de les capacitats del model.

Les referències utilitzades per comparar els nostres resultats són models 1.3B multilingües i de codi obert en anglès: mGPT-1.3B, GPT-Neo-1.3B, Pythia-1.4B, OPT-1.3B, Falcon-rw-1.3B i Cerebras- GPT-1.3B.

La nostra implementació del Language Model Evaluation Harness d'EleutherAI es pot trobar aquí.

Lluita contra la desinformació i els biaxos

Per avançar cap una IA confiable, des del projecte Aina s’han generat els següents corpus:

Last updated

© Projecte Aina | Language Technologies Unit at BSC