Share via


Eseguire la migrazione degli endpoint di gestione LLM ottimizzati alla velocità effettiva con provisioning

Questo articolo descrive come eseguire la migrazione degli endpoint di gestione LLM esistenti all'esperienza di velocità effettiva con provisioning disponibile usando le API del modello di base.

Cosa cambia?

La velocità effettiva con provisioning offre un'esperienza più semplice per l'avvio di endpoint di gestione LLM ottimizzati. Databricks ha modificato il sistema di gestione del modello LLM in modo che:

  • Gli intervalli di scalabilità orizzontale possono essere configurati in termini nativi LLM, ad esempio token al secondo anziché concorrenza.
  • I clienti non devono più selezionare i tipi di carico di lavoro GPU stessi.

I nuovi endpoint di gestione LLM vengono creati con la velocità effettiva con provisioning per impostazione predefinita. Se si vuole continuare a selezionare il tipo di carico di lavoro GPU, questa esperienza è supportata solo tramite l'API.

Eseguire la migrazione degli endpoint di gestione LLM alla velocità effettiva con provisioning

Il modo più semplice per eseguire la migrazione dell'endpoint esistente alla velocità effettiva con provisioning consiste nell'aggiornare l'endpoint con una nuova versione del modello. Dopo aver selezionato una nuova versione del modello, l'interfaccia utente visualizza l'esperienza per la velocità effettiva con provisioning. L'interfaccia utente mostra i token al secondo in base al benchmarking di Databricks per i casi d'uso tipici.

Provisioned throughput LLM serving

Le prestazioni con questa offerta aggiornata sono strettamente migliori grazie ai miglioramenti dell'ottimizzazione e il prezzo dell'endpoint rimane invariato. Contattare l'utente per model-serving-feedback@databricks.com ottenere commenti e suggerimenti o dubbi sui prodotti.