Share via


Serviço de modelo com a Inferência em Tempo Real sem Servidor

Importante

  • Esta documentação foi desativada e pode não estar atualizada. Não há mais suporte para os produtos, serviços ou tecnologias mencionados neste conteúdo.
  • As diretrizes deste artigo são para a versão prévia da funcionalidade do Serviço do Modelo, anteriormente denominada Inferência em Tempo Real Sem Servidor. O Databricks recomenda que você migre o modelo que fornece fluxos de trabalho para a funcionalidade disponível em geral. Confira Serviço de modelo com o Azure Databricks.

Importante

Esse recurso está em uma versão prévia.

Este artigo descreve o serviço de modelo na Inferência em Tempo Real sem Servidor do Azure Databricks, incluindo as vantagens e os limites em comparação com o serviço de modelo do MLflow herdado.

A Inferência em tempo real sem servidor expõe seus modelos de machine learning do MLflow como pontos de extremidade escalonáveis da API REST. Essa funcionalidade usa a computação sem servidor, o que significa que os pontos de extremidade e os recursos de computação associados são gerenciados e executados em sua conta do Databricks. Consulte a Página de preços de Inferência em tempo real sem servidor para obter mais detalhes.

O modelo de MLflow herdado que serve usa um cluster de nó único que é executado em sua própria conta dentro do que agora é chamado de plano de computação clássico. Esse plano de computação inclui a rede virtual e seus recursos de computação associados, como clusters para notebooks e trabalhos, warehouses de SQL clássicos e pro, além do modelo clássico servindo pontos de extremidade.

Por que usar a Inferência em tempo real sem servidor?

A Inferência em tempo real sem servidor oferece:

  • Capacidade de iniciar um ponto de extremidade com um clique: o Databricks prepara automaticamente um ambiente pronto para produção para seu modelo e oferece opções de configuração sem servidor para computação.
  • Alta disponibilidade e escalabilidade: a inferência em tempo real sem servidor destina-se ao uso de produção e pode dar suporte a até 3.000 consultas por segundo (QPS). Os pontos de extremidade da Inferência em tempo real sem servidor escalam e reduzem automaticamente, o que significa que os pontos de extremidade se ajustam automaticamente com base no volume de solicitações de pontuação.
  • Painéis: use o painel interno da inferência em tempo real sem servidor para monitorar a integridade dos pontos de extremidade do modelo usando métricas como QPS, latência e taxa de erro.
  • Integração do repositório de recursos: Quando o modelo é treinado com recursos do Databricks Feature Store, o modelo é empacotado com metadados de recurso. Se você configurar sua loja online, esses recursos serão incorporados em tempo real à medida que as solicitações de pontuação são recebidas.

Limitações

Embora esse serviço esteja em versão prévia, os seguintes limites se aplicam:

  • Além disso, há um limite de tamanho de conteúdo de 16 MB por solicitação.
  • Limite padrão de 200 QPS de solicitações de pontuação por workspace registrado. Você pode aumentar esse limite para até 3000 QPS por workspace entrando em contato com o suporte do Databricks.
  • Suporte ao melhor esforço em menos de 100 milissegundos de latência e disponibilidade.
  • O Serviço de Modelo não dá suporte a scripts de inicialização.

Os pontos de extremidade de inferência em tempo real sem servidor estão abertos à Internet para tráfego de entrada, a menos que uma lista de permissões de IP esteja habilitada no workspace, caso em que essa lista também se aplica aos pontos de extremidade.

Disponibilidade de região

A Inferência em tempo real sem servidor está disponível nas seguintes regiões do Azure:

  • eastus2
  • westus
  • eastus
  • westeurope
  • centralus
  • northcentralus
  • northeurope

Expectativas de tempo de preparo e produção

A transição de um modelo de preparo para produção leva tempo. A implantação de uma versão de modelo recém-registrada envolve a criação de uma imagem de contêiner de modelo e o provisionamento do ponto de extremidade do modelo. Esse processo pode levar cerca de 5 minutos.

O Databricks executa uma atualização de "tempo de inatividade zero" dos pontos de extremidade /staging e /production mantendo a implantação do modelo existente atualizada até que a nova fique pronta. Isso garante que não haja interrupção para pontos de extremidade de modelo que estão em uso.

Se a computação do modelo levar mais de 60 segundos, as solicitações terão um tempo limite. Se você acredita que a computação do modelo levará mais de 60 segundos, entre em contato com o contato de suporte do Databricks.

Pré-requisitos

Importante

Durante a visualização pública, você precisa entrar em contato com o contato de suporte do Databricks para habilitar a Inferência em tempo real sem servidor em seu workspace.

Antes de criar pontos de extremidade de inferência em tempo real sem servidor, você deve habilitá-los em seu workspace. Consulte Habilitar pontos de extremidade de inferência em tempo real sem servidor para o serviço de modelo.

Depois que pontos de extremidade de inferência em tempo real sem servidor tiverem sido habilitados no seu workspace, você precisará das seguintes permissões para criar pontos de extremidade para o serviço de modelo:

Recursos adicionais