Share via


Limites e regiões do Serviço de Modelo

Este artigo resume as limitações e a disponibilidade da região para o Serviço de Modelo do Databricks e os tipos de ponto de extremidade compatíveis.

Limitações

O Serviço de Modelo do Databricks impõe limites padrão para garantir um desempenho confiável. Se você tiver comentários sobre esses limites, entre em contato com sua equipe de conta do Databricks.

A tabela a seguir resume as limitações de conteúdo e recursos para pontos de extremidade de serviço de modelo.

Recurso Granularidade Limite
Tamanho da carga Por solicitação 16 MB
Consultas por segundo (QPS) Por workspace 200, mas pode ser aumentado para 3000 ou pela conta do Databricks
Duração da execução do modelo Por solicitação 120 segundos
Uso de memória do modelo de ponto de extremidade da CPU Por ponto de extremidade 4 GB
Uso de memória do modelo de ponto de extremidade da GPU Por ponto de extremidade Maior ou igual à memória de GPU atribuída, depende do tamanho da carga de trabalho da GPU
Simultaneidade provisionada Por workspace Simultaneidade de 200. Pode ser aumentado pela conta do Databricks.
Latência de sobrecarga Por solicitação Menos de 50 milissegundos
Limites de taxa de APIs de Modelo do Foundation (pagamento por token) Por workspace Entre em contato com sua equipe de conta do Databricks para aumentar os limites a seguir.

* O modelo DBRX Instruct tem um limite de uma consulta por segundo.
* Outros modelos de chat e conclusão têm um limite de taxa padrão de duas consultas por segundo.
* Os modelos de inserção têm um padrão de 300 entradas de inserção por segundo.
Limites de taxa de APIs de Modelo do Foundation (taxa de transferência provisionada) Por workspace O mesmo que o limite de QPS de Serviço de Modelo listado acima.

Os pontos de extremidade do Serviço de Modelo são protegidos por controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no espaço de trabalho, como listas de IPs permitidos e Link Privado do Azure.

Também existem limitações adicionais:

  • É possível que um workspace seja implantado em uma região com suporte, mas seja atendido por um plano de controle em uma região diferente. Esses workspaces não dão suporte ao Serviço de Modelo e retornam uma mensagem de erro informando que seu workspace não tem suporte. Entre em contato com a equipe da sua conta do Azure Databricks para obter mais informações.
  • O Serviço de Modelo não dá suporte a scripts de inicialização.
  • Por padrão, o Model Serving não dá suporte ao Link Privado para pontos de extremidade externos (como o Azure OpenAI). O suporte para essa funcionalidade é avaliado e implementado por região. Entre em contato com a equipe da sua conta do Azure Databricks para obter mais informações.

Limites das APIs do Foundation Model

Observação

Como parte do fornecimento das APIs do Modelo do Foundation, o Databricks pode processar seus dados fora da região em que os dados se originaram, mas não fora da localização geográfica relevante.

Veja a seguir os limites relevantes para as cargas de trabalho de APIs do Modelo do Foundation:

  • A taxa de transferência provisionada dá suporte ao perfil de conformidade HIPAA e deve ser usada para cargas de trabalho que exigem certificações de conformidade. Cargas de trabalho de pagamento por tokennão são compatíveis com HIPAA ou perfil de segurança de conformidade.
  • Para pontos de extremidade de APIs do Modelo do Foundation, somente os administradores do workspace podem alterar as configurações de governança, como os limites de taxa. Para alterar os limites de taxa, use as seguintes etapas:
    1. Abra a interface do usuário de serviço em seu workspace para ver seus pontos de extremidade de serviço.
    2. No menu kebab no ponto de extremidade de APIs do Modelo do Foundation que você deseja editar, selecione Exibir detalhes.
    3. No menu kebab no lado superior direito da página de detalhes dos pontos de extremidade, selecione Alterar o limite de taxa.
  • Para usar a arquitetura de modelo DBRX para uma carga de trabalho com taxa de transferência provisionada, o ponto de extremidade de serviço deve estar em uma das seguintes regiões:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth

Disponibilidade de região

Observação

Se você precisar de um ponto de extremidade em uma região sem suporte, entre em contato com a equipe da sua conta do Azure Databricks.

Para cargas de trabalho com taxas transferência provisionadas que usam modelos DBRX, consulte Limites de APIs do Modelo Fundamental para disponibilidade de regiões.

Region Localidade Funcionalidade de Serviço de Modelo Principal * APIs do Modelo do Foundation (taxa de transferência provisiondada) ** APIs de Modelo do Foundation (pagamento por token) Modelos externos
australiacentral Austrália Central
australiacentral2 Austrália Central 2
australiaeast Leste da Austrália X X X
australiasoutheast Sudeste da Austrália
brazilsouth Brazil South X X X
canadacentral Canadá Central X X X
canadaeast Leste do Canadá
centralindia Índia Central X X X
centralus Centro dos EUA X X X X
chinaeast2 Leste da China 2
chinaeast3 Leste da China 3
chinanorth2 Norte da China 2
chinanorth3 Norte da China 3
eastasia Leste da Ásia
eastus Leste dos EUA X X X X
eastus2 Leste dos EUA 2 X X X X
eastus2euap Leste dos EUA 2 EUAP
francecentral França Central
germanywestcentral Centro-Oeste da Alemanha
japaneast Leste do Japão
japanwest Oeste do Japão
koreacentral Coreia Central
northcentralus Centro-Norte dos EUA X X X
northeurope Norte da Europa X X X
norwayeast Leste da Noruega
qatarcentral Catar Central
southafricanorth Norte da África do Sul
southcentralus Centro-Sul dos Estados Unidos
southeastasia Sudeste Asiático X X
southindia Sul da Índia
swedencentral Suécia Central
switzerlandnorth Norte da Suíça
switzerlandwest Oeste da Suíça
uaenorth Norte dos EAU
uksouth Sul do Reino Unido
ukwest Oeste do Reino Unido
westcentralus Centro-Oeste dos EUA
westeurope Europa Ocidental X X X
westindia Oeste da Índia
westus Oeste dos EUA X X X X
westus2 Oeste dos EUA 2 X
westus3 Oeste dos EUA 3
  • computação da cpu somente

**inclui suporte à gpu