# Models de text

### Models llestos per utilitzar (instruïts)

<table data-view="cards"><thead><tr><th></th><th></th><th></th><th></th><th></th><th data-type="content-ref"></th><th></th><th></th></tr></thead><tbody><tr><td><sub>Descripció / Funció</sub></td><td><img src="https://2460582207-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FtxCvMK15rcZXhGttHVGx%2Fuploads%2FO5AeKW0gFpYcIeLjwLwp%2FScreenshot%202024-09-27%20at%2008.41.20.png?alt=media&#x26;token=8a07e904-15c4-4dd7-9898-ba5cff456c85" alt="" data-size="line">LLM instruït (multilingüe)</td><td><sub>Nom model</sub></td><td>ALIA-40b-instruct-2601</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/BSC-LT/ALIA-40b-instruct-2601">https://huggingface.co/BSC-LT/ALIA-40b-instruct-2601</a></td><td><sub>Comentaris</sub></td><td>Darrera versió de la família de models ALIA. Tot i que el desenvolupament continua en curs i s’esperen futures actualitzacions, aquesta versió ja incorpora diverses millores rellevants respecte a edicions anteriors, com ara un seguiment d’instruccions més acurat, una major robustesa davant entrades sorolloses o ambigües, una alineació de seguretat reforçada i capacitats ampliades per al tractament de contextos llargs.</td></tr><tr><td><sub>Descripció / Funció</sub></td><td><img src="https://2460582207-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FtxCvMK15rcZXhGttHVGx%2Fuploads%2FO5AeKW0gFpYcIeLjwLwp%2FScreenshot%202024-09-27%20at%2008.41.20.png?alt=media&#x26;token=8a07e904-15c4-4dd7-9898-ba5cff456c85" alt="" data-size="line">LLM instruït (multilingüe)</td><td><sub>Nom model</sub></td><td>ALIA-40b-instruct-2601-GGUF</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/BSC-LT/ALIA-40b-instruct-2601-GGUF">https://huggingface.co/BSC-LT/ALIA-40b-instruct-2601-GGUF</a></td><td><sub>Comentaris</sub></td><td>Versió quantitzada GGUF del model ALIA-40b-instruct-2601</td></tr><tr><td><sub>Descripció / Funció</sub></td><td>LLM instruït (anglès, castellà, català)</td><td><sub>Nom model</sub></td><td>salamandra-7b-instruct</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/BSC-LT/salamandra-7b-instruct">https://huggingface.co/BSC-LT/salamandra-7b-instruct</a></td><td><sub>Comentaris</sub></td><td>Model salamandra-7b entrenat amb 276.000 instruccions en anglès, castellà i català, recollides de diversos corpus oberts</td></tr><tr><td><sub>Descripció / Funció</sub></td><td>LLM instruït (anglès, castellà, català)</td><td><sub>Nom model</sub></td><td>salamandra-2b-instruct</td><td><sub>Model card</sub></td><td><a href="https://huggingface.co/BSC-LT/salamandra-2b-instruct">https://huggingface.co/BSC-LT/salamandra-2b-instruct</a></td><td><sub>Comentaris</sub></td><td>Model salamandra-2b entrenat amb 276.000 instruccions en anglès, castellà i català, recollides de diversos corpus oberts.</td></tr></tbody></table>

### Models per a desenvolupadors (fundacionals i per a fine-tuning)

<table data-view="cards" data-full-width="false"><thead><tr><th>Descripció / Funció</th><th>Nom model</th><th data-type="content-ref">Model card</th><th>Comentaris</th></tr></thead><tbody><tr><td>LLM (multilingüe)</td><td>ALIA-40b</td><td><a href="https://huggingface.co/BSC-LT/ALIA-40b">https://huggingface.co/BSC-LT/ALIA-40b</a></td><td>Model generatiu multilingüe, entrenat des de zero en 35 idiomes europeus, amb 40.000 milions de paràmetres i 9,37 bilions de tokens.</td></tr><tr><td>LLM (multilingüe)</td><td>salamandra-7b</td><td><a href="https://huggingface.co/BSC-LT/salamandra-7b">https://huggingface.co/BSC-LT/salamandra-7b</a></td><td>Model generatiu multilingüe entrenat des de zero en 35 llengües europees, amb 7.000 milions de paràmetres i 12,875 bilions de tokens.</td></tr><tr><td>LLM (multilingüe)</td><td>salamandra-2b</td><td><a href="https://huggingface.co/BSC-LT/salamandra-2b">https://huggingface.co/BSC-LT/salamandra-2b</a></td><td>Model generatiu multilingüe, entrenat des de zero en 35 llengües europees, amb 2.000 milions de paràmetres i 12,875 bilions de tokens.</td></tr><tr><td><img src="https://2460582207-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FtxCvMK15rcZXhGttHVGx%2Fuploads%2FO5AeKW0gFpYcIeLjwLwp%2FScreenshot%202024-09-27%20at%2008.41.20.png?alt=media&#x26;token=8a07e904-15c4-4dd7-9898-ba5cff456c85" alt="" data-size="line">Model transformer (català–anglès)</td><td>MrBERT-ca</td><td><a href="https://huggingface.co/BSC-LT/MrBERT-ca">https://huggingface.co/BSC-LT/MrBERT-ca</a></td><td>Model bilingüe català–anglès basat en <a href="https://huggingface.co/answerdotai/ModernBERT-base/tree/main">ModernBERT</a> i derivat de <a href="https://huggingface.co/BSC-LT/MrBERT-es">MrBERT-es</a>  mitjançant una adaptació de vocabulari i ajust dels <em>embeddings</em>. Posteriorment, es continua el seu preentrenament amb 47.400 milions de tokens equilibrats entre ambdues llengües.</td></tr><tr><td>Model transformer (català)</td><td>RoBERTa-ca</td><td><a href="https://huggingface.co/BSC-LT/RoBERTa-ca">https://huggingface.co/BSC-LT/RoBERTa-ca</a></td><td>Model per al català basat en <a href="https://huggingface.co/FacebookAI/roberta-base">RoBERTa</a>, amb pesos inicialitzats des de <a href="https://huggingface.co/BSC-LT/mRoBERTa">mRoBERTa</a> i ajustaments als <em>embeddings</em> per a diferències de tokenització. Preentrenat de manera contínua amb 95 GB de dades en català d'alta qualitat.</td></tr><tr><td>Model transformer (català)</td><td>DistilRoBERTa-base-ca-v2</td><td><a href="https://huggingface.co/projecte-aina/distilroberta-base-ca-v2">https://huggingface.co/projecte-aina/distilroberta-base-ca-v2</a></td><td>Versió destil·lada del model <a href="https://huggingface.co/projecte-aina/roberta-base-ca-v2">RoBERTa-base-ca-v2</a>. Això fa que el model sigui més lleuger i ràpid que l'original, a costa d'un rendiment lleugerament inferior.</td></tr><tr><td>Model longformer (català)</td><td>longformer-base-4096-ca-v2</td><td><a href="https://huggingface.co/projecte-aina/longformer-base-4096-ca-v2">https://huggingface.co/projecte-aina/longformer-base-4096-ca-v2</a></td><td>Versió <em>longformer</em> del model <a href="https://huggingface.co/projecte-aina/roberta-base-ca-v2">RoBERTa-base-ca-v2</a> que permet processar contextos de fins a 4096 tokens.</td></tr><tr><td>Model transformer (català)</td><td>RoBERTa-base-ca-v2</td><td><a href="https://huggingface.co/projecte-aina/roberta-base-ca-v2">https://huggingface.co/projecte-aina/roberta-base-ca-v2</a></td><td>Model basat en el model <a href="https://github.com/facebookresearch/fairseq/tree/main/examples/roberta">RoBERTa base</a> i entrenat amb la segona versió del corpus textual català.</td></tr><tr><td>Model transformer (català)</td><td>RoBERTa-large-ca-v2</td><td><a href="https://huggingface.co/projecte-aina/roberta-large-ca-v2">https://huggingface.co/projecte-aina/roberta-large-ca-v2</a></td><td>Model basat en el model <a href="https://github.com/facebookresearch/fairseq/tree/main/examples/roberta">RoBERTa large</a> i entrenat amb la segona versió del corpus textual català.</td></tr><tr><td>Model sentence-transformer (català)</td><td>ST-NLI-ca</td><td><a href="https://huggingface.co/projecte-aina/ST-NLI-ca_paraphrase-multilingual-mpnet-base">https://huggingface.co/projecte-aina/ST-NLI-ca_paraphrase-multilingual-mpnet-base</a></td><td>Model <em>sentence-transformer</em> desenvolupat a partir del model multilingüe <a href="https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2">parafrase-multilingual-mpnet-base-v2</a> utilitzant dos conjunts de dades de NLI en català: <a href="https://huggingface.co/datasets/projecte-aina/teca">TE-ca</a> i <a href="https://huggingface.co/datasets/projecte-aina/xnli-ca">XNLI-ca</a>. Aquest model mapeja frases i paràgrafs a un espai vectorial de 768 dimensions i es pot utilitzar per a tasques com <em>clustering</em> o cerca semàntica.</td></tr></tbody></table>

### Adaptació de models a tasques específiques

<table data-view="cards" data-full-width="false"><thead><tr><th>Descripció / Funció</th><th>Nom model</th><th data-type="content-ref">Model card</th><th>Comentaris</th></tr></thead><tbody><tr><td>Moderació de continguts</td><td>Salamandra-7b-instruct-guard</td><td><a href="https://huggingface.co/BSC-LT/salamandra-7b-instruct-guard">https://huggingface.co/BSC-LT/salamandra-7b-instruct-guard</a></td><td>Model de classificació de seguretat dissenyat per a la moderació de contingut en català, castellà i anglès. Està construït sobre <a href="https://huggingface.co/BSC-LT/salamandra-7b-instruct">Salamandra-7b-Instruct</a>. </td></tr><tr><td>Pregunta-Resposta en un entorn RAG</td><td>Salamandra 7B aligned EADOP</td><td><a href="https://huggingface.co/projecte-aina/salamandra-7b-aligned-EADOP">https://huggingface.co/projecte-aina/salamandra-7b-aligned-EADOP</a></td><td>Prova de concepte per demostrar com l'ajustament amb dades dins i fora del domini millora un xatbot RAG específic, assegurant respostes adequades dins del seu àmbit i evitant respostes fora de context. El model s'ha adaptat al conjunt de dades <a href="https://huggingface.co/datasets/alinia/EADOP-RAG-out-of-domain">alinia/EADOP-RAG-out-of-domain </a>amb més de 2.000 missatges recollits en col·laboració amb l'<a href="https://dogc.gencat.cat/ca/sobre-el-dogc/eadop/">Entitat Autònoma del Diari Oficial i de Publicacions.</a></td></tr><tr><td>Reconeixement d’entitats (NER)</td><td>DEBERTA_CIEL</td><td><a href="https://huggingface.co/projecte-aina/DEBERTA_CIEL">https://huggingface.co/projecte-aina/DEBERTA_CIEL</a></td><td>Model de reconeixement d'entitats multilingües (castellà, català i anglès) basat en el model <a href="https://huggingface.co/microsoft/deberta-v3-base">deberta-v3-large</a> i adaptat amb el conjunt de dades <a href="https://huggingface.co/datasets/projecte-aina/ceil">CEIL</a>.</td></tr><tr><td>Reconeixement d’entitats (NER)</td><td>multiner_ceil</td><td><a href="https://huggingface.co/projecte-aina/multiner_ceil">https://huggingface.co/projecte-aina/multiner_ceil</a></td><td>Model de reconeixement d'entitats en català basat en el model <a href="https://huggingface.co/projecte-aina/roberta-base-ca-v2">RoBERTa-base-ca-v2</a> i adaptat amb el conjunt de dades <a href="https://huggingface.co/datasets/projecte-aina/ceil">CEIL</a>.</td></tr><tr><td>Reconeixement d’entitats (NER)</td><td>roberta-base-ca-v2-cased-ner</td><td><a href="https://huggingface.co/projecte-aina/roberta-base-ca-v2-cased-ner">https://huggingface.co/projecte-aina/roberta-base-ca-v2-cased-ner</a></td><td>Model de reconeixement d'entitats en català basat en el model <a href="https://huggingface.co/projecte-aina/roberta-base-ca-v2">RoBERTa-base-ca-v2</a> i adaptat amb el conjunt de dades <a href="https://huggingface.co/datasets/projecte-aina/ancora-ca-ner">AnCora-Ca-NER</a>.</td></tr><tr><td>Classificació textual</td><td>roberta-base-ca-v2-cawikitc</td><td><a href="https://huggingface.co/projecte-aina/roberta-base-ca-v2-cawikitc">https://huggingface.co/projecte-aina/roberta-base-ca-v2-cawikitc</a></td><td>Model de classificació textual <em>zero-shot</em> en català basat en el model <a href="https://huggingface.co/projecte-aina/roberta-base-ca-v2">RoBERTa-base-ca-v2</a> i adaptat amb el conjunt de dades de classificació <a href="https://huggingface.co/datasets/projecte-aina/CaWikiTC">CaWikiTC</a> reformulat com a implicació.</td></tr><tr><td>Classificació textual</td><td>roberta-base-ca-v2-cased-tc</td><td><a href="https://huggingface.co/projecte-aina/roberta-base-ca-v2-cased-tc">https://huggingface.co/projecte-aina/roberta-base-ca-v2-cased-tc</a></td><td>Model de classificació textual basat en el model <a href="https://huggingface.co/projecte-aina/roberta-base-ca-v2">RoBERTa-base-ca-v2</a> i adaptat amb el conjunt de dades <a href="https://huggingface.co/datasets/projecte-aina/tecla">TeCla</a>.</td></tr><tr><td>Classificació textual</td><td>roberta-base-ca-v2-cased-wikicat-ca</td><td><a href="https://huggingface.co/projecte-aina/roberta-base-ca-v2-cased-wikicat-ca">https://huggingface.co/projecte-aina/roberta-base-ca-v2-cased-wikicat-ca</a></td><td>Model de classificació textual (seguint la classificació de la Viquipèdia) basat en el model <a href="https://huggingface.co/projecte-aina/roberta-base-ca-v2">RoBERTa-base-ca-v2</a> i adaptat amb el conjunt de dades <a href="https://huggingface.co/datasets/projecte-aina/WikiCAT_ca">WikiCAT_ca</a>.</td></tr><tr><td>Similitud textual semàntica</td><td>roberta-base-ca-v2-cased-sts</td><td><a href="https://huggingface.co/projecte-aina/roberta-base-ca-v2-cased-sts">https://huggingface.co/projecte-aina/roberta-base-ca-v2-cased-sts</a></td><td>Model de similitud textual semàntica basat en el model <a href="https://huggingface.co/projecte-aina/roberta-base-ca-v2">RoBERTa-base-ca-v2</a> i adaptat amb el conjunt de dades <a href="https://huggingface.co/datasets/projecte-aina/sts-ca">STS-ca</a>.</td></tr><tr><td>Annotació morfosintàctica (POS)</td><td>roberta-base-ca-v2-cased-pos</td><td><a href="https://huggingface.co/projecte-aina/roberta-base-ca-v2-cased-pos">https://huggingface.co/projecte-aina/roberta-base-ca-v2-cased-pos</a></td><td>Model d'anotació morfosintàctic basat en el model <a href="https://huggingface.co/projecte-aina/roberta-base-ca-v2">RoBERTa-base-ca-v2</a> i adaptat amb el conjunt de dades Ancora-ca-pos.</td></tr><tr><td>Pregunta - resposta</td><td>roberta-base-ca-v2-cased-qa</td><td><a href="https://huggingface.co/projecte-aina/roberta-base-ca-v2-cased-qa">https://huggingface.co/projecte-aina/roberta-base-ca-v2-cased-qa</a></td><td>Model de pregunta- resposta basat en el model <a href="https://huggingface.co/projecte-aina/roberta-base-ca-v2">RoBERTa-base-ca-v2</a> i adaptat amb el conjunt de dades <a href="https://huggingface.co/datasets/projecte-aina/catalanqa">CatalanQA</a>.</td></tr><tr><td>Implicació textual</td><td>roberta-base-ca-v2-cased-te</td><td><a href="https://huggingface.co/projecte-aina/roberta-base-ca-v2-cased-te">https://huggingface.co/projecte-aina/roberta-base-ca-v2-cased-te</a></td><td>Model d'implicació textual basat en el model <a href="https://huggingface.co/projecte-aina/roberta-base-ca-v2">RoBERTa-base-ca-v2</a> i adaptat amb el conjunt de dades <a href="https://huggingface.co/datasets/projecte-aina/teca">TE-ca</a>.</td></tr><tr><td>Paràfrasi</td><td>roberta-large-ca-paraphrase</td><td><a href="https://huggingface.co/projecte-aina/roberta-large-ca-paraphrase">https://huggingface.co/projecte-aina/roberta-large-ca-paraphrase</a></td><td>Model de paràfrasi basat en el model <a href="https://huggingface.co/projecte-aina/roberta-large-ca-v2">RoBERTa-large-ca-v2</a> i adaptat amb el conjunt de dades <a href="https://huggingface.co/datasets/projecte-aina/Parafraseja">Parafraseja</a>.</td></tr><tr><td>Classificació d’intents</td><td>roberta-base-ca-v2-massive</td><td><a href="https://huggingface.co/projecte-aina/roberta-base-ca-v2-massive">https://huggingface.co/projecte-aina/roberta-base-ca-v2-massive</a></td><td>Model de classificació d'intents basat en el model <a href="https://huggingface.co/projecte-aina/roberta-base-ca-v2">RoBERTa-base-ca-v2</a> i adaptat amb les dades en català incloses al conjunt de dades <a href="https://huggingface.co/datasets/AmazonScience/massive">MASSIVE 1.1</a>.</td></tr><tr><td>Classificació d’intents</td><td>roberta-large-ca-v2-massive</td><td><a href="https://huggingface.co/projecte-aina/roberta-large-ca-v2-massive">https://huggingface.co/projecte-aina/roberta-large-ca-v2-massive</a></td><td>Model de classificació d'intents basat en el model <a href="https://huggingface.co/projecte-aina/roberta-large-ca-v2">RoBERTa-large-ca-v2</a> i adaptat amb el conjunt de dades <a href="https://huggingface.co/datasets/AmazonScience/massive">MASSIVE 1.1</a>.</td></tr></tbody></table>

### Word Embeddings

<table data-view="cards" data-full-width="false"><thead><tr><th>Descripció / Funció</th><th>Nom model</th><th data-type="content-ref">Model card</th><th>Comentaris</th></tr></thead><tbody><tr><td>Word embeddings</td><td>Catalan CBOW Word Embeddings in Floret</td><td><a href="https://zenodo.org/records/7330331">https://zenodo.org/records/7330331</a></td><td><em>Word embeddings</em> Floret per al català, entrenats amb un corpus de més de 34 GB.</td></tr></tbody></table>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://langtech-bsc.gitbook.io/aina-kit/models/models-de-text.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
