🔠Models de text
Last updated
Last updated
Word embeddings
Catalan CBOW Word Embeddings in Floret
Word embeddings Floret per al català, entrenats amb un corpus de més de 34 GB.
salamandra-7b
Model generatiu multilingüe (35 llengües d'Europa) de 7 mil milions de paràmetres, entrenat des de zero amb 7,8 bilions de tokens.
salamandra-7b-base-fp8
Versió quantitzada en FP8 del model salamandra-7b. Els pesos del model estan quantitzats de FP16 a FP8 (pesos de 8 bits) utilitzant l'algoritme de quantització FP8 de NeuralMagic. Es pot fer inferència amb aquest model utilitzant VLLM.
salamandra-7b-base-gptq
salamandra-7b-instruct
Model salamandra-7b entrenat amb 276 mil instruccions en anglès, castellà i català recollides de diversos corpus oberts.
salamandra-7b-instruct-fp8
Versió quantitzada en FP8 del model salamandra-7b-instruct. Els pesos del model estan quantitzats de FP16 a FP8 (pesos de 8 bits) utilitzant l'algoritme de quantització FP8 de NeuralMagic. Es pot fer inferència amb aquest model utilitzant VLLM.
salamandra-7b-instruct-gptq
salamandra-2b
Model generatiu multilingüe (35 llengües d'Europa) de 2 mil milions de paràmetres, entrenat des de zero amb 7,8 bilions de tokens.
salamandra-2b-base-fp8
Versió quantitzada en FP8 del model salamandra-2b. Els pesos del model estan quantitzats de FP16 a FP8 (pesos de 8 bits) utilitzant l'algoritme de quantització FP8 de NeuralMagic. Es pot fer inferència amb aquest model utilitzant VLLM.
salamandra-2b-base-gptq
salamandra-2b-instruct
Model salamandra-2b entrenat amb 276 mil instruccions en anglès, castellà i català recollides de diversos corpus oberts.
salamandra-2b-instruct-fp8
Versió quantitzada en FP8 del model salamandra-2b-instruct. Els pesos del model estan quantitzats de FP16 a FP8 (pesos de 8 bits) utilitzant l'algoritme de quantització FP8 de NeuralMagic. Es pot fer inferència amb aquest model utilitzant VLLM.
salamandra-2b-instruct-gptq
FLOR-6.3B
Model generatiu trilingüe (català, castellà i anglès) de 6,3 mil milions de paràmetres, basat en Bloom-7b1 i entrenat amb 140B de tokens.
FLOR-6.3B-Instructed
Model FLOR-6.3B entrenat amb les instruccions en català, castellà i anglès del corpus InstruCAT.
Generació augmentada per recuperació (RAG)
FlorRAG
Model FLOR-6.3B adaptat per a aplicacions RAG i entrenat amb el conjunt de dades RAG_Multilingual
Model massiu de llenguatge (LLM) de propòsit general (sense instruir)
FLOR-1.3B
Model generatiu trilingüe (català, castellà i anglès) de 1,3 mil milions de paràmetres, basat en Bloom-1b7 i entrenat amb 26B de tokens.
Model massiu de llenguatge (LLM) de propòsit general (instruït)
FLOR-1.3B-Instructed
Model FLOR-1.3B entrenat amb les instruccions en català, castellà i anglès idel corpus InstruCAT.
Model massiu de llenguatge (LLM) de propòsit general (sense instruir)
FLOR-760M
Model generatiu trilingüe (català, castellà i anglès) de 760 mil paràmetres, basat en Bloom-1b1 i entrenat amb 26B de tokens.
Ǎguila-7B
Model generatiu trilingüe (català, castellà i anglès) de 7 mil milions de paràmetres, basat en el model Falcon-7B i entrenat amb 26B de tokens.
Model transformer
DistilRoBERTa-base-ca-v2
Versió destil·lada del model RoBERTa-base-ca-v2. Això fa que el model sigui més lleuger i ràpid que l'original, a costa d'un rendiment lleugerament inferior.
Model Longformer
longformer-base-4096 -ca-v2
Versió longformer del model RoBERTa-base-ca-v2 que permet processar contextos de fins a 4096 tokens.
Model transformer
RoBERTa-base-ca-v2
Model basat en el model RoBERTa base i entrenat amb la segona versió del corpus textual català.
Model transformer
RoBERTa-large-ca-v2
Model basat en el model RoBERTa large i entrenat amb la segona versió del corpus textual català.
Model sentence-transformer
ST-NLI-ca
Model sentence-transformer desenvolupat a partir del model multilingüe parafrase-multilingual-mpnet-base-v2 utilitzant dos conjunts de dades de NLI en català: TE-ca i XNLI-ca. Aquest model mapeja frases i paràgrafs a un espai vectorial de 768 dimensions i es pot utilitzar per a tasques com clustering o cerca semàntica.
Salamandra 7B aligned EADOP
Prova de concepte per demostrar com l'ajustament amb dades dins i fora del domini millora un xatbot RAG específic, assegurant respostes adequades dins del seu àmbit i evitant respostes fora de context. El model s'ha adaptat al conjunt de dades alinia/EADOP-RAG-out-of-domain amb més de 2.000 missatges recollits en col·laboració amb l'Entitat Autònoma del Diari Oficial i de Publicacions.
Reconeixement d’entitats (NER)
DEBERTA_CIEL
Model de reconeixement d'entitats nomenades multilingües (castellà, català i anglès) basat en el model deberta-v3-large i adaptat amb el conjunt de dades CEIL.
Reconeixement d’entitats (NER)
multiner_ceil
Model de reconeixement d'entitats nomenades en català basat en el model RoBERTa-base-ca-v2 i adaptat amb el conjunt de dades CEIL.
Reconeixement d’entitats (NER)
roberta-base-ca-v2-cased-ner
Model de reconeixement d'entitats nomenades en català basat en el model RoBERTa-base-ca-v2 i adaptat amb el conjunt de dades AnCora-Ca-NER.
Classificació textual
RoBERTa-ca-CaWikiTC
Model de classificació textual zero-shot en català basat en el model RoBERTa-base-ca-v2 i adaptat amb el conjunt de dades de classificació CaWikiTC reformulat com a implicació.
Classificació textual
roberta-base-ca-v2-cased-tc
Model de classificació textual basat en el model RoBERTa-base-ca-v2 i adaptat amb el conjunt de dades TeCla.
Classificació textual
roberta-base-ca-v2-cased-wikicat-ca
Model de classificació textual (seguint la classificació de la Viquipèdia) basat en el model RoBERTa-base-ca-v2 i adaptat amb el conjunt de dades WikiCAT_ca.
Similitud textual semàntica
roberta-base-ca-v2-cased-sts
Model de similitud textual semàntica basat en el model RoBERTa-base-ca-v2 i adaptat amb el conjunt de dades STS-ca.
Annotació morfosintàctica (POS)
roberta-base-ca-v2-cased-pos
Model d'anotació morfosintàctica basat en el model RoBERTa-base-ca-v2 i adaptat amb el conjunt de dades Ancora-ca-pos.
Pregunta - resposta
roberta-base-ca-v2-cased-qa
Model de pregunta- resposta basat en el model RoBERTa-base-ca-v2 i adaptat amb el conjunt de dades CatalanQA.
Implicació textual
roberta-base-ca-v2-cased-te
Model d'implicació textual basat en el model RoBERTa-base-ca-v2 i adaptat amb el conjunt de dades TE-ca.
Paràfrasi
roberta-large-ca-paraphrase
Model de paràfrasi basat en el model RoBERTa-large-ca-v2 i adaptat amb el conjunt de dades Parafraseja.
Classificació d’intents
roberta-base-ca-v2-massive
Model de classificació d'intents basat en el model RoBERTa-base-ca-v2 i adaptat amb les dades en català incloses al conjunt de dades MASSIVE 1.1.
Classificació d’intents
roberta-large-ca-v2-massive
Model de classificació d'intents basat en el model RoBERTa-large-ca-v2 i adaptat amb el conjunt de dades MASSIVE 1.1.
Model massiu de llenguatge (LLM) de propòsit general (sense instruir)
Model massiu de llenguatge (LLM) de propòsit general (versió quantitzada en FP8)
Model massiu de llenguatge (LLM) de propòsit general (versió quantitzada en GPTQ)
Model massiu de llenguatge (LLM) de propòsit general (instruït)
Model massiu de llenguatge (LLM) de propòsit general (instruït, versió quantitzada en FP8)
Model massiu de llenguatge (LLM) de propòsit general (instruït, versió quantitzada en GPTQ)
Model massiu de llenguatge (LLM) de propòsit general (sense instruir)
Model massiu de llenguatge (LLM) de propòsit general (versió quantitzada en FP8)
Model massiu de llenguatge (LLM) de propòsit general (versió quantitzada en GPTQ)
Model massiu de llenguatge (LLM) de propòsit general (instruït)
Model massiu de llenguatge (LLM) de propòsit general (instruït, versió quantitzada en FP8)
Model massiu de llenguatge (LLM) de propòsit general (versió quantitzada en GPTQ)
Model massiu de llenguatge (LLM) de propòsit general (sense instruir)
Model massiu de llenguatge (LLM) de propòsit general (instruït)
Model massiu de llenguatge (LLM) de propòsit general (sense instruir)
Pregunta-Resposta en un entorn RAG