Limites e regiões do Serviço de Modelo
Este artigo resume as limitações e a disponibilidade da região para o Serviço de Modelo do Databricks e os tipos de ponto de extremidade compatíveis.
Limitações
O Serviço de Modelo do Databricks impõe limites padrão para garantir um desempenho confiável. Se você tiver comentários sobre esses limites, entre em contato com sua equipe de conta do Databricks.
A tabela a seguir resume as limitações de conteúdo e recursos para pontos de extremidade de serviço de modelo.
Recurso | Granularidade | Limite |
---|---|---|
Tamanho da carga | Por solicitação | 16 MB |
Consultas por segundo (QPS) | Por workspace | 200, mas pode ser aumentado para 3000 ou pela conta do Databricks |
Duração da execução do modelo | Por solicitação | 120 segundos |
Uso de memória do modelo de ponto de extremidade da CPU | Por ponto de extremidade | 4 GB |
Uso de memória do modelo de ponto de extremidade da GPU | Por ponto de extremidade | Maior ou igual à memória de GPU atribuída, depende do tamanho da carga de trabalho da GPU |
Simultaneidade provisionada | Por workspace | Simultaneidade de 200. Pode ser aumentado pela conta do Databricks. |
Latência de sobrecarga | Por solicitação | Menos de 50 milissegundos |
Limites de taxa de APIs de Modelo do Foundation (pagamento por token) | Por workspace | Entre em contato com sua equipe de conta do Databricks para aumentar os limites a seguir. * O modelo DBRX Instruct tem um limite de uma consulta por segundo. * Outros modelos de chat e conclusão têm um limite de taxa padrão de duas consultas por segundo. * Os modelos de inserção têm um padrão de 300 entradas de inserção por segundo. |
Limites de taxa de APIs de Modelo do Foundation (taxa de transferência provisionada) | Por workspace | O mesmo que o limite de QPS de Serviço de Modelo listado acima. |
Os pontos de extremidade do Serviço de Modelo são protegidos por controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no espaço de trabalho, como listas de IPs permitidos e Link Privado do Azure.
Também existem limitações adicionais:
- É possível que um workspace seja implantado em uma região com suporte, mas seja atendido por um plano de controle em uma região diferente. Esses workspaces não dão suporte ao Serviço de Modelo e retornam uma mensagem de erro informando que seu workspace não tem suporte. Entre em contato com a equipe da sua conta do Azure Databricks para obter mais informações.
- O Serviço de Modelo não dá suporte a scripts de inicialização.
- Por padrão, o Model Serving não dá suporte ao Link Privado para pontos de extremidade externos (como o Azure OpenAI). O suporte para essa funcionalidade é avaliado e implementado por região. Entre em contato com a equipe da sua conta do Azure Databricks para obter mais informações.
Limites das APIs do Foundation Model
Observação
Como parte do fornecimento das APIs do Modelo do Foundation, o Databricks pode processar seus dados fora da região em que os dados se originaram, mas não fora da localização geográfica relevante.
Veja a seguir os limites relevantes para as cargas de trabalho de APIs do Modelo do Foundation:
- A taxa de transferência provisionada dá suporte ao perfil de conformidade HIPAA e deve ser usada para cargas de trabalho que exigem certificações de conformidade. Cargas de trabalho de pagamento por tokennão são compatíveis com HIPAA ou perfil de segurança de conformidade.
- Para pontos de extremidade de APIs do Modelo do Foundation, somente os administradores do workspace podem alterar as configurações de governança, como os limites de taxa. Para alterar os limites de taxa, use as seguintes etapas:
- Abra a interface do usuário de serviço em seu workspace para ver seus pontos de extremidade de serviço.
- No menu kebab no ponto de extremidade de APIs do Modelo do Foundation que você deseja editar, selecione Exibir detalhes.
- No menu kebab no lado superior direito da página de detalhes dos pontos de extremidade, selecione Alterar o limite de taxa.
- Para usar a arquitetura de modelo DBRX para uma carga de trabalho com taxa de transferência provisionada, o ponto de extremidade de serviço deve estar em uma das seguintes regiões:
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
Disponibilidade de região
Observação
Se você precisar de um ponto de extremidade em uma região sem suporte, entre em contato com a equipe da sua conta do Azure Databricks.
Para cargas de trabalho com taxas transferência provisionadas que usam modelos DBRX, consulte Limites de APIs do Modelo Fundamental para disponibilidade de regiões.
Region | Localidade | Funcionalidade de Serviço de Modelo Principal * | APIs do Modelo do Foundation (taxa de transferência provisiondada) ** | APIs de Modelo do Foundation (pagamento por token) | Modelos externos |
---|---|---|---|---|---|
australiacentral |
Austrália Central | ||||
australiacentral2 |
Austrália Central 2 | ||||
australiaeast |
Leste da Austrália | X | X | X | |
australiasoutheast |
Sudeste da Austrália | ||||
brazilsouth |
Brazil South | X | X | X | |
canadacentral |
Canadá Central | X | X | X | |
canadaeast |
Leste do Canadá | ||||
centralindia |
Índia Central | X | X | X | |
centralus |
Centro dos EUA | X | X | X | X |
chinaeast2 |
Leste da China 2 | ||||
chinaeast3 |
Leste da China 3 | ||||
chinanorth2 |
Norte da China 2 | ||||
chinanorth3 |
Norte da China 3 | ||||
eastasia |
Leste da Ásia | ||||
eastus |
Leste dos EUA | X | X | X | X |
eastus2 |
Leste dos EUA 2 | X | X | X | X |
eastus2euap |
Leste dos EUA 2 EUAP | ||||
francecentral |
França Central | ||||
germanywestcentral |
Centro-Oeste da Alemanha | ||||
japaneast |
Leste do Japão | ||||
japanwest |
Oeste do Japão | ||||
koreacentral |
Coreia Central | ||||
northcentralus |
Centro-Norte dos EUA | X | X | X | |
northeurope |
Norte da Europa | X | X | X | |
norwayeast |
Leste da Noruega | ||||
qatarcentral |
Catar Central | ||||
southafricanorth |
Norte da África do Sul | ||||
southcentralus |
Centro-Sul dos Estados Unidos | ||||
southeastasia |
Sudeste Asiático | X | X | ||
southindia |
Sul da Índia | ||||
swedencentral |
Suécia Central | ||||
switzerlandnorth |
Norte da Suíça | ||||
switzerlandwest |
Oeste da Suíça | ||||
uaenorth |
Norte dos EAU | ||||
uksouth |
Sul do Reino Unido | ||||
ukwest |
Oeste do Reino Unido | ||||
westcentralus |
Centro-Oeste dos EUA | ||||
westeurope |
Europa Ocidental | X | X | X | |
westindia |
Oeste da Índia | ||||
westus |
Oeste dos EUA | X | X | X | X |
westus2 |
Oeste dos EUA 2 | X | |||
westus3 |
Oeste dos EUA 3 |
- computação da cpu somente
**inclui suporte à gpu
Comentários
https://aka.ms/ContentUserFeedback.
Em breve: Ao longo de 2024, eliminaremos os problemas do GitHub como o mecanismo de comentários para conteúdo e o substituiremos por um novo sistema de comentários. Para obter mais informações, consulteEnviar e exibir comentários de