🔠Models de text

Models llestos per utilitzar (instruïts)

_{Descripció / Funció}

LLM instruït (anglès, castellà, català)

_{Nom model}

salamandra-7b-instruct

_{Model card}

https://huggingface.co/BSC-LT/salamandra-7b-instruct

_Comentaris

Model salamandra-7b entrenat amb 276.000 instruccions en anglès, castellà i català, recollides de diversos corpus oberts

_{Descripció / Funció}

LLM instruït (anglès, castellà, català)

_{Nom model}

salamandra-2b-instruct

_{Model card}

https://huggingface.co/BSC-LT/salamandra-2b-instruct

_Comentaris

Model salamandra-2b entrenat amb 276.000 instruccions en anglès, castellà i català, recollides de diversos corpus oberts.

Models per a desenvolupadors (fundacionals i per a fine-tuning)

Descripció / Funció

LLM (multilingüe)

Nom model

ALIA-40b

Model card

https://huggingface.co/BSC-LT/ALIA-40b

Comentaris

Model generatiu multilingüe, entrenat des de zero en 35 idiomes europeus, amb 40.000 milions de paràmetres i 9,37 bilions de tokens.

Descripció / Funció

LLM (multilingüe)

Nom model

salamandra-7b

Model card

https://huggingface.co/BSC-LT/salamandra-7b

Comentaris

Model generatiu multilingüe entrenat des de zero en 35 llengües europees, amb 7.000 milions de paràmetres i 12,875 bilions de tokens.

Descripció / Funció

LLM (multilingüe)

Nom model

salamandra-2b

Model card

https://huggingface.co/BSC-LT/salamandra-2b

Comentaris

Model generatiu multilingüe, entrenat des de zero en 35 llengües europees, amb 2.000 milions de paràmetres i 12,875 bilions de tokens.

Descripció / Funció

Model transformer (català)

Nom model

RoBERTa-ca

Model card

https://huggingface.co/BSC-LT/RoBERTa-ca

Comentaris

Model per al català basat en RoBERTa, amb pesos inicialitzats des de mRoBERTa i ajustaments als embeddings per a diferències de tokenització. Preentrenat de manera contínua amb 95 GB de dades en català d'alta qualitat.

Descripció / Funció

Model transformer (català)

Nom model

DistilRoBERTa-base-ca-v2

Model card

https://huggingface.co/projecte-aina/distilroberta-base-ca-v2

Comentaris

Versió destil·lada del model RoBERTa-base-ca-v2. Això fa que el model sigui més lleuger i ràpid que l'original, a costa d'un rendiment lleugerament inferior.

Descripció / Funció

Model longformer (català)

Nom model

longformer-base-4096-ca-v2

Model card

https://huggingface.co/projecte-aina/longformer-base-4096-ca-v2

Comentaris

Versió longformer del model RoBERTa-base-ca-v2 que permet processar contextos de fins a 4096 tokens.

Descripció / Funció

Model transformer (català)

Nom model

RoBERTa-base-ca-v2

Model card

https://huggingface.co/projecte-aina/roberta-base-ca-v2

Comentaris

Model basat en el model RoBERTa base i entrenat amb la segona versió del corpus textual català.

Descripció / Funció

Model transformer (català)

Nom model

RoBERTa-large-ca-v2

Model card

https://huggingface.co/projecte-aina/roberta-large-ca-v2

Comentaris

Model basat en el model RoBERTa large i entrenat amb la segona versió del corpus textual català.

Descripció / Funció

Model sentence-transformer (català)

Nom model

ST-NLI-ca

Model card

https://huggingface.co/projecte-aina/ST-NLI-ca_paraphrase-multilingual-mpnet-base

Comentaris

Model sentence-transformer desenvolupat a partir del model multilingüe parafrase-multilingual-mpnet-base-v2 utilitzant dos conjunts de dades de NLI en català: TE-ca i XNLI-ca. Aquest model mapeja frases i paràgrafs a un espai vectorial de 768 dimensions i es pot utilitzar per a tasques com clustering o cerca semàntica.

Descripció / Funció

Model de llenguatge de gran escala (LLM) de propòsit general (model fundacional)

Nom model

FLOR-6.3B

Model card

https://huggingface.co/projecte-aina/FLOR-6.3B

Comentaris

Model generatiu trilingüe (català, castellà i anglès) de 6,3 mil milions de paràmetres, basat en Bloom-7b1 i entrenat amb 140B de tokens.

Descripció / Funció

Model de llenguatge de gran escala (LLM) de propòsit general (instruït)

Nom model

FLOR-6.3B-Instructed

Model card

https://huggingface.co/projecte-aina/FLOR_63B_Instruit

Comentaris

Model FLOR-6.3B entrenat amb les instruccions en català, castellà i anglès del corpus InstruCAT.

Descripció / Funció

Generació augmentada per recuperació (RAG)

Nom model

FlorRAG

Model card

https://huggingface.co/projecte-aina/FlorRAG

Comentaris

Model FLOR-6.3B adaptat per a aplicacions RAG i entrenat amb el conjunt de dades RAG_Multilingual

Descripció / Funció

Model de llenguatge de gran escala (LLM) de propòsit general (model fundacional)

Nom model

FLOR-1.3B

Model card

https://huggingface.co/projecte-aina/FLOR-1.3B

Comentaris

Model generatiu trilingüe (català, castellà i anglès) de 1,3 mil milions de paràmetres, basat en Bloom-1b7 i entrenat amb 26B de tokens.

Descripció / Funció

Model de llenguatge de gran escala (LLM) de propòsit general (instruït)

Nom model

FLOR-1.3B-Instructed

Model card

https://huggingface.co/projecte-aina/Flor1.3Instructed

Comentaris

Model FLOR-1.3B entrenat amb les instruccions en català, castellà i anglès idel corpus InstruCAT.

Descripció / Funció

Model de llenguatge de gran escala (LLM) de propòsit general (model fundacional)

Nom model

FLOR-760M

Model card

https://huggingface.co/projecte-aina/FLOR-760M

Comentaris

Model generatiu trilingüe (català, castellà i anglès) de 760 mil paràmetres, basat en Bloom-1b1 i entrenat amb 26B de tokens.

Descripció / Funció

Model de llenguatge de gran escala (LLM) de propòsit general (model fundacional)

Nom model

aguila-7B

Model card

https://huggingface.co/projecte-aina/aguila-7b

Comentaris

Model generatiu trilingüe (català, castellà i anglès) de 7 mil milions de paràmetres, basat en el model Falcon-7B i entrenat amb 26B de tokens.

Adaptació de models a tasques específiques

Descripció / Funció

Pregunta-Resposta en un entorn RAG

Nom model

Salamandra 7B aligned EADOP

Model card

https://huggingface.co/projecte-aina/salamandra-7b-aligned-EADOP

Comentaris

Prova de concepte per demostrar com l'ajustament amb dades dins i fora del domini millora un xatbot RAG específic, assegurant respostes adequades dins del seu àmbit i evitant respostes fora de context. El model s'ha adaptat al conjunt de dades alinia/EADOP-RAG-out-of-domain amb més de 2.000 missatges recollits en col·laboració amb l'Entitat Autònoma del Diari Oficial i de Publicacions.

Descripció / Funció

Reconeixement d’entitats (NER)

Nom model

DEBERTA_CIEL

Model card

https://huggingface.co/projecte-aina/DEBERTA_CIEL

Comentaris

Model de reconeixement d'entitats multilingües (castellà, català i anglès) basat en el model deberta-v3-large i adaptat amb el conjunt de dades CEIL.

Descripció / Funció

Reconeixement d’entitats (NER)

Nom model

multiner_ceil

Model card

https://huggingface.co/projecte-aina/multiner_ceil

Comentaris

Model de reconeixement d'entitats en català basat en el model RoBERTa-base-ca-v2 i adaptat amb el conjunt de dades CEIL.

Descripció / Funció

Reconeixement d’entitats (NER)

Nom model

roberta-base-ca-v2-cased-ner

Model card

https://huggingface.co/projecte-aina/roberta-base-ca-v2-cased-ner

Comentaris

Model de reconeixement d'entitats en català basat en el model RoBERTa-base-ca-v2 i adaptat amb el conjunt de dades AnCora-Ca-NER.

Descripció / Funció

Classificació textual

Nom model

roberta-base-ca-v2-cawikitc

Model card

https://huggingface.co/projecte-aina/roberta-base-ca-v2-cawikitc

Comentaris

Model de classificació textual zero-shot en català basat en el model RoBERTa-base-ca-v2 i adaptat amb el conjunt de dades de classificació CaWikiTC reformulat com a implicació.

Descripció / Funció

Classificació textual

Nom model

roberta-base-ca-v2-cased-tc

Model card

https://huggingface.co/projecte-aina/roberta-base-ca-v2-cased-tc

Comentaris

Model de classificació textual basat en el model RoBERTa-base-ca-v2 i adaptat amb el conjunt de dades TeCla.

Descripció / Funció

Classificació textual

Nom model

roberta-base-ca-v2-cased-wikicat-ca

Model card

https://huggingface.co/projecte-aina/roberta-base-ca-v2-cased-wikicat-ca

Comentaris

Model de classificació textual (seguint la classificació de la Viquipèdia) basat en el model RoBERTa-base-ca-v2 i adaptat amb el conjunt de dades WikiCAT_ca.

Descripció / Funció

Similitud textual semàntica

Nom model

roberta-base-ca-v2-cased-sts

Model card

https://huggingface.co/projecte-aina/roberta-base-ca-v2-cased-sts

Comentaris

Model de similitud textual semàntica basat en el model RoBERTa-base-ca-v2 i adaptat amb el conjunt de dades STS-ca.

Descripció / Funció

Annotació morfosintàctica (POS)

Nom model

roberta-base-ca-v2-cased-pos

Model card

https://huggingface.co/projecte-aina/roberta-base-ca-v2-cased-pos

Comentaris

Model d'anotació morfosintàctic basat en el model RoBERTa-base-ca-v2 i adaptat amb el conjunt de dades Ancora-ca-pos.

Descripció / Funció

Pregunta - resposta

Nom model

roberta-base-ca-v2-cased-qa

Model card

https://huggingface.co/projecte-aina/roberta-base-ca-v2-cased-qa

Comentaris

Model de pregunta- resposta basat en el model RoBERTa-base-ca-v2 i adaptat amb el conjunt de dades CatalanQA.

Descripció / Funció

Implicació textual

Nom model

roberta-base-ca-v2-cased-te

Model card

https://huggingface.co/projecte-aina/roberta-base-ca-v2-cased-te

Comentaris

Model d'implicació textual basat en el model RoBERTa-base-ca-v2 i adaptat amb el conjunt de dades TE-ca.

Descripció / Funció

Paràfrasi

Nom model

roberta-large-ca-paraphrase

Model card

https://huggingface.co/projecte-aina/roberta-large-ca-paraphrase

Comentaris

Model de paràfrasi basat en el model RoBERTa-large-ca-v2 i adaptat amb el conjunt de dades Parafraseja.

Descripció / Funció

Classificació d’intents

Nom model

roberta-base-ca-v2-massive

Model card

https://huggingface.co/projecte-aina/roberta-base-ca-v2-massive

Comentaris

Model de classificació d'intents basat en el model RoBERTa-base-ca-v2 i adaptat amb les dades en català incloses al conjunt de dades MASSIVE 1.1.

Descripció / Funció

Classificació d’intents

Nom model

roberta-large-ca-v2-massive

Model card

https://huggingface.co/projecte-aina/roberta-large-ca-v2-massive

Comentaris

Model de classificació d'intents basat en el model RoBERTa-large-ca-v2 i adaptat amb el conjunt de dades MASSIVE 1.1.

Word Embeddings

Descripció / Funció

Word embeddings

Nom model

Catalan CBOW Word Embeddings in Floret

Model card

https://zenodo.org/records/7330331

Comentaris

Word embeddings Floret per al català, entrenats amb un corpus de més de 34 GB.

Last updated 12 days ago