Hugging Face fornisce modelli preaddestrati, script di ottimizzazione fine e API di sviluppo che semplificano il processo di creazione e scoperta di LLM. Model Garden può pubblicare modelli di Embedding di testo, Testo in immagine, Generazione di testo e Testo in immagine in testo in HuggingFace.
Opzioni di deployment per i modelli Hugging Face
Puoi eseguire il deployment dei modelli Hugging Face supportati in Vertex AI o Google Kubernetes Engine (GKE). L'opzione di deployment che scegli può dipendere dal modello in uso e dal livello di controllo che vuoi avere sui tuoi workload.
Esegui il deployment in Vertex AI
Vertex AI offre una piattaforma gestita per la creazione e la scalabilità dei progetti di machine learning senza competenze MLOps interne. Puoi utilizzare Vertex AI come applicazione a valle che pubblica i modelli Hugging Face. Ti consigliamo di utilizzare Vertex AI se vuoi funzionalità MLOps end-to-end, funzionalità ML con valore aggiunto e un'esperienza serverless per uno sviluppo semplificato.
Per eseguire il deployment di un modello Hugging Face supportato in Vertex AI, vai a Model Garden.
Vai alla sezione Apri i modelli su Hugging Face e fai clic su Mostra di più.
Trova e seleziona un modello da implementare.
(Facoltativo) Per l'ambiente di deployment, seleziona Vertex AI.
(Facoltativo) Specifica i dettagli del deployment.
Fai clic su Esegui il deployment.
Per iniziare, consulta i seguenti esempi:
- Alcuni modelli hanno schede dettagliate e le impostazioni di implementazione sono verificate da Google, ad esempio google/gemma-3-27b-it, meta-llama/Llama-4-Scout-17B-16E-Instruct, Qwen/QwQ-32B, BAAI/bge-m3, intfloat/multilingual-e5-large-instruct, black-forest-labs/FLUX.1-dev e HuggingFaceFW/fineweb-edu-classifier.
- Per alcuni modelli le impostazioni di implementazione sono state verificate da Google, ma non sono presenti schede modello dettagliate, ad esempio NousResearch/Genstruct-7B.
- Per alcuni modelli le impostazioni di deployment vengono generate automaticamente.
- Per alcuni modelli sono state generate automaticamente impostazioni di deployment basate sui metadati del modello, ad esempio alcuni dei modelli di tendenza più recenti per la generazione di testo, gli incorporamenti di testo, la generazione di testo in immagini e la trasformazione di testo in immagini.
Esegui il deployment in GKE
Google Kubernetes Engine (GKE) è la Google Cloud soluzione per Kubernetes gestito che offre scalabilità, sicurezza, resilienza e costi effettivi. Ti consigliamo questa opzione se hai già investimenti in Kubernetes, la tua organizzazione dispone di competenze MLOps interne o se hai bisogno di un controllo granulare su carichi di lavoro di IA/ML complessi con requisiti unici di sicurezza, pipeline di dati e gestione delle risorse.
Per eseguire il deployment di un modello Hugging Face supportato in GKE, vai a Model Garden.
Vai alla sezione Apri i modelli su Hugging Face e fai clic su Mostra di più.
Trova e seleziona un modello da implementare.
Per Ambiente di deployment, seleziona GKE.
Segui le istruzioni di implementazione.
Per iniziare, consulta i seguenti esempi:
- Alcuni modelli hanno schede dettagliate e impostazioni di deployment verificate, ad esempio google/gemma-3-27b-it, meta-llama/Llama-4-Scout-17B-16E-Instruct e Qwen/QwQ-32B.
- Alcuni modelli hanno impostazioni di deployment verificate, ma non schede dei modelli dettagliate, ad esempio NousResearch/Genstruct-7B.
Che cosa significa "Supportato da Vertex AI"?
Aggiungiamo automaticamente a Model Garden i modelli Hugging Face più recenti e più apprezzati. Questa procedura include la generazione automatica di una configurazione di deployment per ogni modello.
Per risolvere i problemi relativi a vulnerabilità e codice dannoso, utilizziamo lo strumento di scansione di malware di Hugging Face per valutare quotidianamente la sicurezza dei file all'interno di ogni repository dei modelli di Hugging Face. Se un repository di modelli viene segnalato come contenente malware, rimuoviamo immediatamente il modello dalla pagina della galleria di Hugging Face.
Sebbene un modello designato come supportato da Vertex AI indichi che è stato sottoposto a test ed è implementabile su Vertex AI, non garantiamo l'assenza di vulnerabilità o codice dannoso. Ti consigliamo di eseguire le tue verifiche di sicurezza prima di eseguire il deployment di qualsiasi modello nell'ambiente di produzione.
Ottimizza le configurazioni di deployment per casi d'uso specifici
La configurazione di deployment predefinita fornita con l'opzione di deployment con un solo clic non può soddisfare tutti i requisiti, data la vasta gamma di casi d'uso e le varie priorità in termini di latenza, throughput, costi e accuratezza.
Pertanto, inizialmente puoi fare esperimenti con il deployment con un solo clic per stabilire una linea di base, quindi perfezionare le configurazioni di deployment utilizzando il notebook Colab (vLLM, TGI, TEI, HF pytorch inference) o l'SDK Python. Questo approccio iterativo ti consente di personalizzare il deployment in base alle tue esigenze specifiche per ottenere le migliori prestazioni possibili per la tua applicazione specifica.
Cosa fare se il modello che ti interessa non è elencato in Model Garden
Se stai cercando un modello specifico non elencato in Model Garden, significa che non è supportato da Vertex AI. Le sezioni seguenti descrivono il ragionamento e cosa puoi fare.
Perché il modello non è elencato?
Di seguito sono riportati i motivi per cui un modello potrebbe non essere presente in Model Garden:
- Non è un modello di tendenza: spesso diamo la priorità ai modelli molto apprezzati e di grande interesse per la community.
- Non è ancora compatibile: il modello potrebbe non funzionare con un contenitore di pubblicazione supportato. Ad esempio, il contenitore vLLM per i modelli
text-generation
eimage-text-to-text
. - Attività della pipeline non supportate: il modello ha un'attività
che al momento non supportiamo ancora completamente. Supportiamo le seguenti attività:
text-generation
,text2text-generation
,text-to-image
,feature-extraction
,sentence-similarity
eimage-text-to-text
.
Quali sono le opzioni a tua disposizione?
Puoi comunque utilizzare i modelli disponibili in Model Garden:
- Esegui il deployment autonomamente utilizzando il notebook Colab: abbiamo i seguenti notebook Colab: (vLLM, TGI, TEI, HF pytorch inference), che offrono la flessibilità di eseguire il deployment di modelli con configurazioni personalizzate. In questo modo avrai il controllo completo sulla procedura.
- Invia una richiesta di funzionalità: collabora con il tuo tecnico dell'assistenza e invia una richiesta di funzionalità tramite Model Garden oppure consulta l'assistenza per l'IA generativa di Vertex per ulteriore aiuto.
- Tieni d'occhio gli aggiornamenti: aggiungiamo regolarmente nuovi modelli a Model Garden. Il modello che stai cercando potrebbe diventare disponibile in futuro, quindi ricontrolla periodicamente.