Share via


Limiti e aree di gestione dei modelli

Questo articolo riepiloga le limitazioni e la disponibilità dell'area per la gestione dei modelli di Databricks e i tipi di endpoint supportati.

Limiti

Databricks Model Serving impone limiti predefiniti per garantire prestazioni affidabili. Se si hanno commenti e suggerimenti su questi limiti, contattare il team dell'account Databricks.

La tabella seguente riepiloga le limitazioni delle risorse e del payload per la gestione degli endpoint del modello.

Funzionalità Granularità Limite
Dimensioni del payload Per richiesta 16 MB
Query al secondo Per area di lavoro 200, ma può essere aumentato a 3000 o più raggiungendo l'account Databricks
Durata dell'esecuzione del modello Per richiesta 120 secondi
Utilizzo della memoria del modello di endpoint cpu Per endpoint 4 GB
Utilizzo della memoria del modello di endpoint GPU Per endpoint La memoria GPU è maggiore o uguale a quella assegnata, dipende dalle dimensioni del carico di lavoro GPU
Concorrenza con provisioning Per area di lavoro 200 concorrenza. Può essere aumentato raggiungendo l'account Databricks.
Latenza overhead Per richiesta Meno di 50 millisecondi
Limiti delle API del modello di base (pagamento per token) Per area di lavoro Contattare il team dell'account Databricks per aumentare i limiti seguenti.

* Il modello DBRX Instruct ha un limite di 1 query al secondo.
* Altri modelli di chat e completamento hanno un limite di frequenza predefinito di 2 query al secondo.
* I modelli di incorporamento hanno un valore predefinito di 300 input di incorporamento al secondo.
Limiti di frequenza delle API del modello di base (velocità effettiva con provisioning) Per area di lavoro Uguale al limite QPS di Gestione modelli elencato in precedenza.

Gli endpoint di gestione dei modelli sono protetti dal controllo di accesso e rispettano le regole di ingresso correlate alla rete configurate nell'area di lavoro, ad esempio elenchi di indirizzi IP consentiti e collegamento privato.

Esistono anche limitazioni aggiuntive:

  • È possibile distribuire un'area di lavoro in un'area supportata, ma essere servita da un piano di controllo in un'area diversa. Queste aree di lavoro non supportano la gestione del modello e generano un messaggio di errore che informa che l'area di lavoro non è supportata. Per altre informazioni, contattare il team dell'account di Azure Databricks.
  • La gestione dei modelli non supporta gli script init.
  • Per impostazione predefinita, Model Serving non supporta collegamento privato agli endpoint esterni, ad esempio Azure OpenAI. Il supporto per questa funzionalità viene valutato e implementato in base all'area. Per altre informazioni, contattare il team dell'account di Azure Databricks.

Limiti delle API del modello di base

Nota

Nell'ambito della fornitura delle API del modello di base, Databricks può elaborare i dati all'esterno dell'area in cui sono stati originati i dati, ma non al di fuori della posizione geografica pertinente.

Di seguito sono riportati i limiti relativi ai carichi di lavoro delle API del modello di base:

  • La velocità effettiva con provisioning supporta il profilo di conformità HIPAA e deve essere usata per i carichi di lavoro che richiedono certificazioni di conformità. I carichi di lavoro con pagamento in base al token non sono conformi al profilo di sicurezza HIPAA o alla conformità.
  • Per gli endpoint delle API del modello di base, solo gli amministratori dell'area di lavoro possono modificare le impostazioni di governance, ad esempio i limiti di frequenza. Per modificare i limiti di frequenza, seguire questa procedura:
    1. Aprire l'interfaccia utente Di servizio nell'area di lavoro per visualizzare gli endpoint di servizio.
    2. Dal menu kebab nell'endpoint delle API modello di base che si vuole modificare selezionare Visualizza dettagli.
    3. Dal menu kebab sul lato superiore destro della pagina dei dettagli degli endpoint selezionare Modifica limite di frequenza.
  • Per usare l'architettura del modello DBRX per un carico di lavoro con velocità effettiva con provisioning, l'endpoint di gestione deve trovarsi in una delle aree seguenti:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth

Disponibilità a livello di area

Nota

Se è necessario un endpoint in un'area non supportata, contattare il team dell'account Azure Databricks.

Per i carichi di lavoro con provisioning della velocità effettiva che usano modelli DBRX, vedere Limiti delle API del modello di base per la disponibilità dell'area.

Paese Ufficio Funzionalità di gestione dei modelli di base * API del modello di base (con provisioning in tutto) ** API del modello foundation (con pagamento in base al token) Modelli esterni
australiacentral Australia centrale
australiacentral2 Australia centrale 2
australiaeast Australia orientale X X X
australiasoutheast Australia sud-orientale
brazilsouth Brasile meridionale X X X
canadacentral Canada centrale X X X
canadaeast Canada orientale
centralindia India centrale X X X
centralus Stati Uniti centrali X X X X
chinaeast2 Cina orientale 2
chinaeast3 Cina orientale 3
chinanorth2 Cina settentrionale 2
chinanorth3 Cina settentrionale 3
eastasia Asia orientale
eastus Stati Uniti orientali X X X X
eastus2 Stati Uniti orientali 2 X X X X
eastus2euap Stati Uniti orientali 2 EUAP
francecentral Francia centrale
germanywestcentral Germania centro-occidentale
japaneast Giappone orientale
japanwest Giappone occidentale
koreacentral Corea centrale
northcentralus Stati Uniti centro-settentrionali X X X
northeurope Europa settentrionale X X X
norwayeast Norvegia orientale
qatarcentral Qatar centrale
southafricanorth Sudafrica settentrionale
southcentralus Stati Uniti centro-meridionali
southeastasia Asia sud-orientale X X
southindia India meridionale
swedencentral Svezia centrale
switzerlandnorth Svizzera settentrionale
switzerlandwest Svizzera occidentale
uaenorth Emirati Arabi Uniti settentrionali
uksouth Regno Unito meridionale
ukwest Regno Unito occidentale
westcentralus Stati Uniti centro-occidentali
westeurope Europa occidentale X X X
westindia India occidentale
westus Stati Uniti occidentali X X X X
westus2 West US 2 X
westus3 Stati Uniti occidentali 3
  • solo calcolo cpu

** include il supporto gpu