Aina Kit
Aina Kit
  • Inici
  • 🤗Models
    • 🔠Models de text
    • 🗣️Models de parla
    • ↔️Models de traducció automàtica
    • 🏆Avaluació de models en llengua catalana
  • 📚Datasets
    • 🔠Dades i eines per a models de text
    • 🗣️Dades i eines per a models de veu
    • ↔️Dades per a la traducció automàtica
  • ▶️Testing
    • 🤗Via Hugging Face
    • ☁️Via integració amb serveis al núvol
    • 🐋Via Docker
    • 🧰Via pre-integració amb entorns de codi obert per a tecnologies del llenguatge
  • ▶️EINES D'INTEGRACIÓ
    • ☁️MTUOC
  • 🕹️Demostradors
    • 🤗A Spaces de Hugging Face
    • Page
Powered by GitBook

Social

  • Web
  • Twitter
  • Linkedin
  • Contacte

Tech

  • Blog
  • Huggingface
  • Github
  • Dockerhub

© Projecte Aina | Language Technologies Unit at BSC

On this page
  1. Testing

Via Hugging Face

Last updated 7 months ago

Diversos dels Models disponibles a través de la es poden utilitzar (a nivell de testeig i prototips) a través de les diferents plataformes que s’ofereixen a Hugging Face.

També s’ha habilitat l’opció de fer entrenaments (fine tuning) a la plataforma fent servir el vostre propi compte. En alguns models també és possible fer-hi “AutoTrain".

Podeu revisar la documentació de Hugging Face referent a aquestes funcions per resoldre els dubtes.

Desplegament de LLM (Text-Generation) a Huggingface Inference Endpoints

💡 HuggingFace inference endpoints permet el desplegament de LLM al cloud d'una manera administrada, per tant, l'enginyer no s'ha de preocupar del manteniment i disponibilitat del servei d’infraestructura (auto escalabilitat, disponibilitat, etc.).

Aquesta guia està enfocada a desplegar els models disponibles a Aina Kit a HF Inference Endpoints, també s'inclouen alguns trucs per estalviar costos.

Per tant, és possible que és ometin alguns passos de com crear l’endpoint. Podeu seguir la guia completa disponible a la documentació oficial de Huggingface:

Requisits

  • Un compte/organització de Huggingface amb una targeta crèdit associada o pagament associat amb compte d’AWS via AWS Marketplace

Passos a seguir per desplegar Flor 6.3B a Inference Endpoints:

  • Seleccioneu el model projecte-aina/FLOR-6.3B o un altre LLM.

  • Introduïu un nom per l’endpoint o deixeu-ho per defecte.

  • Seleccioneu proveïdor de cloud segons la disponibilitat (no cal tenir un compte en el proveïdor de cloud).

  • Reviseu la taula de requisits mínims/recomanats del model que heu seleccionat i escolliu el tipus d’instància.

En opcions avançades es recomanen les següents configuracions:

  • Replica autoscaling: Establir Min a 0 d’aquesta manera la inferència s'aturarà i no es facturarà el temps que l’endpoint no estigui actiu. Aquesta opció aplica quan l’endpoint no rep cap petició en 15 minuts.

  • Quantization: En cas de voler aplicar un tipus de quantització, recomanem que seleccioneu Bitsandbytes. Preferiblement, proveu de desplegar el model amb o sense cap quantització per veure quina configuració us és òptima/adient.

  • Configureu Max Input Length, Max Batch Prefill Tokens, Max Number of Tokens i Max Batch Total Tokens segons les vostres necessitats.

    Preferiblement, les altres opcions no esmentades les hauríeu de deixar per defecte.

Com s’havia esmentat anteriorment, si no requeriu un d’un servei disponible al moment podeu activar l’escalament del servei a 0, per això, seleccioneu l’opció “After 15 minutes with no activity”.

En cas de requerir un servei disponible podeu escollir l’opció “Never automatically scale to zero”.

Recordeu que també podeu definir el màxim de rèpliques d’escalament automàtic del servei (això és útil per si s’incrementa el nombre de peticions). HF inference endpoints escala i desescala el servei segons les necessitats.

Finalment pressioneu sobre "Create endpoint". Assegurar-vos que el model carrega correctament i l'API estigui aixecada correctament (podeu fer servir l'apartat de "Logs").

Dins de la pestanya "Overview" també disposareu d'un playground per enviar prompt de test i també instruccions clares per fer crides a l'endpoint via API.

Més Informació d’interès:

  • Els endpoints també es poden crear via l'API de Huggingface

  • Els endpoints es poden posar en pausa i escalar via l'API de Huggingface endpoints

Podeu configurar el vostre mètode de pagament a

→ New endpoint

Seleccioneu els tipus de protecció pel vostre endpoint, si el mètode que voleu és “Protected” podeu generar el vostre token a Profile → Settings →

Documentació de referència:

▶️
🤗
https://huggingface.co/settings/billing
Obrir el dashboard de Inference endpoints
Access tokens
https://huggingface.co/docs/hub/api
pàgina Hugging Face del projecte Aina
SageMaker d’Amazon