Models de text
Last updated
Last updated
Word embeddings
Catalan CBOW Word Embeddings in Floret
Word embeddings Floret per al català, entrenats amb un corpus de més de 34 GB.
RoBERTa-ca
salamandra-7b
Model generatiu multilingüe (35 llengües d'Europa) de 7 mil milions de paràmetres, entrenat des de zero amb 12,9 bilions de tokens.
salamandra-7b-base-fp8
salamandra-7b-base-gptq
salamandra-7b-instruct
Model salamandra-7b entrenat amb 276 mil instruccions en anglès, castellà i català recollides de diversos corpus oberts.
salamandra-7b-instruct-fp8
salamandra-7b-instruct-gptq
salamandra-2b
Model generatiu multilingüe (35 llengües d'Europa) de 2 mil milions de paràmetres, entrenat des de zero amb 12,9 bilions de tokens.
salamandra-2b-base-fp8
salamandra-2b-base-gptq
salamandra-2b-instruct
Model salamandra-2b entrenat amb 276 mil instruccions en anglès, castellà i català recollides de diversos corpus oberts.
salamandra-2b-instruct-fp8
salamandra-2b-instruct-gptq
FLOR-6.3B
FLOR-6.3B-Instructed
Generació augmentada per recuperació (RAG)
FlorRAG
Model massiu de llenguatge (LLM) de propòsit general (sense instruir)
FLOR-1.3B
Model massiu de llenguatge (LLM) de propòsit general (instruït)
FLOR-1.3B-Instructed
Model massiu de llenguatge (LLM) de propòsit general (sense instruir)
FLOR-760M
Ǎguila-7B
Model transformer
DistilRoBERTa-base-ca-v2
Model Longformer
longformer-base-4096 -ca-v2
Model transformer
RoBERTa-base-ca-v2
Model transformer
RoBERTa-large-ca-v2
Model sentence-transformer
ST-NLI-ca
Salamandra 7B aligned EADOP
Reconeixement d’entitats (NER)
DEBERTA_CIEL
Reconeixement d’entitats (NER)
multiner_ceil
Reconeixement d’entitats (NER)
roberta-base-ca-v2-cased-ner
Classificació textual
RoBERTa-ca-CaWikiTC
Classificació textual
roberta-base-ca-v2-cased-tc
Classificació textual
roberta-base-ca-v2-cased-wikicat-ca
Similitud textual semàntica
roberta-base-ca-v2-cased-sts
Annotació morfosintàctica (POS)
roberta-base-ca-v2-cased-pos
Pregunta - resposta
roberta-base-ca-v2-cased-qa
Implicació textual
roberta-base-ca-v2-cased-te
Paràfrasi
roberta-large-ca-paraphrase
Classificació d’intents
roberta-base-ca-v2-massive
Classificació d’intents
roberta-large-ca-v2-massive
Model transformer
Model per al català basat en l'arquitectura . Utilitza una adaptació del vocabulari de , un mètode que inicialitza tots els pesos a partir de mRoBERTa mentre aplica un tractament especial a la matriu d'embeddings per gestionar les diferències entre els dos tokenitzadors. Després, el model es preentrena de manera contínua amb un corpus exclusivament en català, que conté 95 GB de dades d'alta qualitat.
Model massiu de llenguatge (LLM) de propòsit general (model base)
Model massiu de llenguatge (LLM) de propòsit general (versió quantitzada en FP8)
Versió quantitzada en FP8 del model salamandra-7b. Els pesos del model estan quantitzats de FP16 a FP8 (pesos de 8 bits) utilitzant l'algoritme de quantització FP8 de . Es pot fer inferència amb aquest model utilitzant .MpRhSHhg07aT
Model massiu de llenguatge (LLM) de propòsit general (versió quantitzada en GPTQ)
Versió quantitzada en GPTQ del model salamandra-7b per a decodificació especulativa. Els pesos del model estan quantitzats de FP16 a W4A16 (pesos de 4 bits i activacions en FP16) mitjançant l'algoritme . Es pot fer inferència amb aquest model utilitzant .
Model massiu de llenguatge (LLM) de propòsit general (instruït)
Model massiu de llenguatge (LLM) de propòsit general (instruït, versió quantitzada en FP8)
Versió quantitzada en FP8 del model salamandra-7b-instruct. Els pesos del model estan quantitzats de FP16 a FP8 (pesos de 8 bits) utilitzant l'algoritme de quantització FP8 de . Es pot fer inferència amb aquest model utilitzant .
Model massiu de llenguatge (LLM) de propòsit general (instruït, versió quantitzada en GPTQ)
Versió quantitzada en GPTQ del model salamandra-7b-instruct per a decodificació especulativa. Els pesos del model estan quantitzats de FP16 a W4A16 (pesos de 4 bits i activacions en FP16) mitjançant l'algoritme . Es pot fer inferència amb aquest model utilitzant .
Model massiu de llenguatge (LLM) de propòsit general (model base)
Model massiu de llenguatge (LLM) de propòsit general (versió quantitzada en FP8)
Versió quantitzada en FP8 del model salamandra-2b. Els pesos del model estan quantitzats de FP16 a FP8 (pesos de 8 bits) utilitzant l'algoritme de quantització FP8 de . Es pot fer inferència amb aquest model utilitzant .
Model massiu de llenguatge (LLM) de propòsit general (versió quantitzada en GPTQ)
Versió quantitzada en GPTQ del model salamandra-2b per a decodificació especulativa. Els pesos del model estan quantitzats de FP16 a W4A16 (pesos de 4 bits i activacions en FP16) mitjançant l'algoritme . Es pot fer inferència amb aquest model utilitzant .
Model massiu de llenguatge (LLM) de propòsit general (instruït)
Model massiu de llenguatge (LLM) de propòsit general (instruït, versió quantitzada en FP8)
Versió quantitzada en FP8 del model salamandra-2b-instruct. Els pesos del model estan quantitzats de FP16 a FP8 (pesos de 8 bits) utilitzant l'algoritme de quantització FP8 de . Es pot fer inferència amb aquest model utilitzant .
Model massiu de llenguatge (LLM) de propòsit general (versió quantitzada en GPTQ)
Versió quantitzada en GPTQ del model salamandra-2b-instruct per a decodificació especulativa. Els pesos del model estan quantitzats de FP16 a W4A16 (pesos de 4 bits i activacions en FP16) mitjançant l'algoritme . Es pot fer inferència amb aquest model utilitzant .
Model massiu de llenguatge (LLM) de propòsit general (sense instruir)
Model generatiu trilingüe (català, castellà i anglès) de 6,3 mil milions de paràmetres, basat en i entrenat amb 140B de tokens.
Model massiu de llenguatge (LLM) de propòsit general (instruït)
Model FLOR-6.3B entrenat amb les instruccions en català, castellà i anglès del corpus .
Model FLOR-6.3B adaptat per a aplicacions RAG i entrenat amb el conjunt de dades
Model generatiu trilingüe (català, castellà i anglès) de 1,3 mil milions de paràmetres, basat en i entrenat amb 26B de tokens.
Model FLOR-1.3B entrenat amb les instruccions en català, castellà i anglès idel corpus .
Model generatiu trilingüe (català, castellà i anglès) de 760 mil paràmetres, basat en i entrenat amb 26B de tokens.
Model massiu de llenguatge (LLM) de propòsit general (sense instruir)
Model generatiu trilingüe (català, castellà i anglès) de 7 mil milions de paràmetres, basat en el model i entrenat amb 26B de tokens.
Versió destil·lada del model . Això fa que el model sigui més lleuger i ràpid que l'original, a costa d'un rendiment lleugerament inferior.
Versió longformer del model que permet processar contextos de fins a 4096 tokens.
Model basat en el model i entrenat amb la segona versió del corpus textual català.
Model basat en el model i entrenat amb la segona versió del corpus textual català.
Model sentence-transformer desenvolupat a partir del model multilingüe utilitzant dos conjunts de dades de NLI en català: i . Aquest model mapeja frases i paràgrafs a un espai vectorial de 768 dimensions i es pot utilitzar per a tasques com clustering o cerca semàntica.
Pregunta-Resposta en un entorn RAG
Prova de concepte per demostrar com l'ajustament amb dades dins i fora del domini millora un xatbot RAG específic, assegurant respostes adequades dins del seu àmbit i evitant respostes fora de context. El model s'ha adaptat al conjunt de dades amb més de 2.000 missatges recollits en col·laboració amb l'
Model de reconeixement d'entitats nomenades multilingües (castellà, català i anglès) basat en el model i adaptat amb el conjunt de dades .
Model de reconeixement d'entitats nomenades en català basat en el model i adaptat amb el conjunt de dades .
Model de reconeixement d'entitats nomenades en català basat en el model i adaptat amb el conjunt de dades .
Model de classificació textual zero-shot en català basat en el model i adaptat amb el conjunt de dades de classificació reformulat com a implicació.
Model de classificació textual basat en el model i adaptat amb el conjunt de dades .
Model de classificació textual (seguint la classificació de la Viquipèdia) basat en el model i adaptat amb el conjunt de dades .
Model de similitud textual semàntica basat en el model i adaptat amb el conjunt de dades .
Model d'anotació morfosintàctica basat en el model i adaptat amb el conjunt de dades Ancora-ca-pos.
Model de pregunta- resposta basat en el model i adaptat amb el conjunt de dades .
Model d'implicació textual basat en el model i adaptat amb el conjunt de dades .
Model de paràfrasi basat en el model i adaptat amb el conjunt de dades .
Model de classificació d'intents basat en el model i adaptat amb les dades en català incloses al conjunt de dades .
Model de classificació d'intents basat en el model i adaptat amb el conjunt de dades .