> For the complete documentation index, see [llms.txt](https://langtech-bsc.gitbook.io/aina-kit/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://langtech-bsc.gitbook.io/aina-kit/models/avaluacio-de-models-en-llengua-catalana.md).

# Avaluació de models en llengua catalana

### ASR Arena *Leaderboard*

L’ASR Arena és un espai únic que mostra indicadors sobre els diferents models de reconeixement de veu perquè investigadors, desenvolupadors, empreses i administracions puguin decidir el seu ús amb més informació i una perspectiva ampliada. El seu carácter col·laboratiu permet una avaluació constant i una visió més completa de l’ecosistema de reconeixement de veu en català.

Podeu accedir a l'Arena des de: <https://huggingface.co/spaces/BSC-LT/CATALAN-ASR-ARENA> <br>

### CLUB

El Catalan Language Understanding Benchmark (CLUB) posa a prova la capacitat d'un sistema en llengua catalana. Consta de 8 tasques: reconeixement d'entitats nomenades (NER), etiquetatge morfosintàctic (POS), similitud textual semàntica (STS), classificació de text (TC), implicació textual (TE), resposta a preguntes i resposta a preguntes multilingües (QA), i comprensió del llenguatge natural (NLU).

La plataforma permet als usuaris pujar les prediccions dels seus models; el sistema executa els scripts d’avaluació en aquestes prediccions i afegeix els resultats a la taula. D’aquesta manera, es poden comparar els resultats dels diferents models de llengua en les diferents tasques.

Podeu accedir al “Leaderboard” des de [https://club.aina.bsc.es](https://club.aina.bsc.es/)

### Avaluació de models generatius

Els models generatius s’avaluen utilitzant el *Language Model Evaluation Harness* d'[EleutherAI](https://www.eleuther.ai/) amb tasques en català, castellà i anglès, amb especial èmfasi en els conjunts de dades en català. Les tasques s’han escollit per cobrir diverses àrees d'avaluació per tal de proporcionar una visió global de les capacitats del model.

Les referències utilitzades per comparar els nostres resultats són models 1.3B multilingües i de codi obert en anglès: mGPT-1.3B, GPT-Neo-1.3B, Pythia-1.4B, OPT-1.3B, Falcon-rw-1.3B i Cerebras- GPT-1.3B.

La nostra implementació del *Language Model Evaluation Harness* d'EleutherAI es pot trobar [aquí](https://github.com/langtech-bsc/lm-evaluation-harness/tree/iberobench/).