Operações de aprendizado de máquina (MLOps) v2

Artigo
09/12/2023

Este artigo descreve três arquiteturas do Azure para operações de aprendizado de máquina. Todos eles têm integração contínua (CI), entrega contínua (CD) e pipelines de retreinamento de ponta a ponta. As arquiteturas são para estas aplicações de IA:

Aprendizagem automática clássica
Visão computacional (CV)
Processamento de linguagem natural (PNL)

As arquiteturas são o produto do projeto MLOps v2. Eles incorporam as melhores práticas que os arquitetos de soluções descobriram no processo de criação de várias soluções de aprendizado de máquina. O resultado são padrões implantáveis, repetíveis e fáceis de manter, conforme descrito aqui.

Todas as arquiteturas usam o serviço Azure Machine Learning.

Para obter uma implementação com modelos de implantação de exemplo para MLOps v2, consulte Azure MLOps (v2) solution accelerator on GitHub.

Potenciais casos de utilização

Aprendizado de máquina clássico: previsão, regressão e classificação de séries temporais em dados estruturados tabulares são os casos de uso mais comuns nesta categoria. São exemplos:
- Classificação binária e multirótulo
- Regressão linear, polinomial, crista, laço, quantil e bayesiana
- ARIMA, autorregressiva (AR), SARIMA, VAR, SES, LSTM
CV: A estrutura MLOps aqui apresentada concentra-se principalmente nos casos de uso de CV de segmentação e classificação de imagem.
NLP: Esta estrutura MLOps pode implementar qualquer um desses casos de uso e outros não listados:
- Reconhecimento de entidades nomeadas
- Classificação de textos
- Geração de texto
- Análise de sentimentos
- Tradução
- Perguntas e respostas
- Resumo
- Deteção de sentenças
- Deteção de idioma
- Identificação de classe gramatical

Simulações, aprendizagem por reforço profundo e outras formas de IA não são abordadas neste artigo.

Arquitetura

O padrão arquitetônico MLOps v2 é composto por quatro elementos modulares principais que representam essas fases do ciclo de vida do MLOps:

Património de dados
Administração e configuração
Desenvolvimento do modelo (loop interno)
Implantação do modelo (loop externo)

Esses elementos, as relações entre eles e as personas normalmente associadas a eles são comuns para todas as arquiteturas de cenário MLOps v2. Pode haver variações nos detalhes de cada um, dependendo do cenário.

A arquitetura base para MLOps v2 para Machine Learning é o cenário clássico de aprendizado de máquina em dados tabulares. As arquiteturas CV e NLP se baseiam e modificam essa arquitetura base.

Arquiteturas atuais

As arquiteturas atualmente cobertas pelo MLOps v2 e discutidas neste artigo são:

Arquitetura clássica de aprendizado de máquina
Arquitetura de CV de Machine Learning
Arquitetura de PNL do Machine Learning

Arquitetura clássica de aprendizado de máquina

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de trabalho para a arquitetura clássica de aprendizado de máquina

Património de dados

Este elemento ilustra o conjunto de dados da organização e potenciais fontes de dados e alvos para um projeto de ciência de dados. Os engenheiros de dados são os principais proprietários desse elemento do ciclo de vida MLOps v2. As plataformas de dados do Azure neste diagrama não são exaustivas nem prescritivas. As fontes de dados e os destinos que representam as práticas recomendadas com base no caso de uso do cliente são indicados por uma marca de seleção verde.
Administração e configuração

Este elemento é a primeira etapa na implantação do acelerador MLOps v2. Consiste em todas as tarefas relacionadas com a criação e gestão de recursos e funções associadas ao projeto. Estas podem incluir as seguintes tarefas, e talvez outras:
1. Criação de repositórios de código-fonte do projeto
2. Criação de espaços de trabalho de Machine Learning usando Bicep ou Terraform
3. Criação ou modificação de conjuntos de dados e recursos de computação que são usados para desenvolvimento e implantação de modelos
4. Definição de usuários da equipe de projeto, suas funções e controles de acesso a outros recursos
5. Criação de pipelines de CI/CD
6. Criação de monitores para coleta e notificação de métricas de modelo e infraestrutura
A persona principal associada a essa fase é a equipe de infraestrutura, mas também pode haver engenheiros de dados, engenheiros de aprendizado de máquina e cientistas de dados.
Desenvolvimento do modelo (loop interno)

O elemento de loop interno consiste em seu fluxo de trabalho iterativo de ciência de dados que atua dentro de um espaço de trabalho dedicado e seguro de Machine Learning. Um fluxo de trabalho típico é ilustrado no diagrama. Procede da ingestão de dados, análise exploratória de dados, experimentação, desenvolvimento e avaliação de modelos, até ao registo de um modelo candidato para produção. Este elemento modular, conforme implementado no acelerador MLOps v2, é agnóstico e adaptável ao processo que sua equipe de ciência de dados usa para desenvolver modelos.

As personas associadas a esta fase incluem cientistas de dados e engenheiros de aprendizagem automática.
Registos de Aprendizagem Automática

Depois que a equipe de ciência de dados desenvolver um modelo candidato à implantação na produção, o modelo poderá ser registrado no registro do espaço de trabalho do Aprendizado de Máquina. Os pipelines de CI que são acionados, automaticamente pelo registro do modelo ou pela aprovação human-in-the-loop fechada, promovem o modelo e quaisquer outras dependências do modelo para a fase de implantação do modelo.

As personas associadas a este estágio são tipicamente engenheiros de aprendizado de máquina.
Implantação do modelo (loop externo)

A fase de implantação do modelo ou loop externo consiste em preparação e teste de pré-produção, implantação de produção e monitoramento de modelo, dados e infraestrutura. Os pipelines de CD gerenciam a promoção do modelo e dos ativos relacionados por meio da produção, monitoramento e potencial retreinamento, à medida que os critérios apropriados à sua organização e caso de uso são satisfeitos.

As personas associadas a esta fase são principalmente engenheiros de machine learning.
Estadiamento e teste

A fase de preparação e teste pode variar de acordo com as práticas do cliente, mas normalmente inclui operações como retreinamento e teste do candidato a modelo em dados de produção, implantações de teste para desempenho de endpoint, verificações de qualidade de dados, testes de unidade e verificações responsáveis de IA para viés de modelo e dados. Esta fase ocorre em um ou mais espaços de trabalho dedicados e seguros de Machine Learning.
Implementação de produção

Depois que um modelo passa na fase de preparação e teste, ele pode ser promovido para produção usando uma aprovação fechada human-in-the-loop. As opções de implantação de modelo incluem um ponto de extremidade de lote gerenciado para cenários em lote ou, para cenários online, quase em tempo real, um ponto de extremidade online gerenciado ou implantação do Kubernetes usando o Azure Arc. A produção normalmente ocorre em um ou mais espaços de trabalho dedicados e seguros de Machine Learning.
Monitorização

O monitoramento na preparação, teste e produção possibilita que você colete métricas e aja sobre as alterações no desempenho do modelo, dos dados e da infraestrutura. O monitoramento de modelos e dados pode incluir a verificação de desvios de modelos e dados, o desempenho do modelo em novos dados e problemas responsáveis de IA. O monitoramento de infraestrutura pode observar a resposta lenta do ponto final, capacidade de computação inadequada ou problemas de rede.
Monitoramento de dados e modelos: eventos e ações

Com base em critérios para questões de modelo e dados preocupantes, como limiares ou cronogramas métricos, os gatilhos e notificações automatizados podem implementar ações apropriadas a serem tomadas. Isso pode ser agendado regularmente retreinamento automatizado do modelo em dados de produção mais recentes e um loopback para preparação e teste para avaliação de pré-produção. Ou pode ser devido a gatilhos em problemas de modelo ou dados que exigem um loopback para a fase de desenvolvimento do modelo, onde os cientistas de dados podem investigar e potencialmente desenvolver um novo modelo.
Monitoramento de infraestrutura: eventos e ações

Com base em critérios para questões de infraestrutura preocupantes, como atraso na resposta do endpoint ou computação insuficiente para a implantação, gatilhos e notificações automatizados podem implementar ações apropriadas a serem tomadas. Eles acionam um loopback para a fase de instalação e administração, onde a equipe de infraestrutura pode investigar e, potencialmente, reconfigurar os recursos de computação e rede.

Arquitetura de CV de Machine Learning

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de trabalho para a arquitetura CV

A arquitetura de CV de Machine Learning é baseada na arquitetura clássica de aprendizado de máquina, mas tem modificações que são específicas para cenários de CV supervisionados.

Património de dados

Este elemento ilustra o patrimônio de dados da organização e potenciais fontes de dados e alvos para um projeto de ciência de dados. Os engenheiros de dados são os principais proprietários desse elemento do ciclo de vida MLOps v2. As plataformas de dados do Azure neste diagrama não são exaustivas nem prescritivas. As imagens para cenários de CV podem provir de muitas fontes de dados diferentes. Para maior eficiência ao desenvolver e implantar modelos CV com Machine Learning, as fontes de dados recomendadas do Azure para imagens são o Armazenamento de Blobs do Azure e o Armazenamento do Azure Data Lake.
Administração e configuração

Este elemento é a primeira etapa na implantação do acelerador MLOps v2. Consiste em todas as tarefas relacionadas com a criação e gestão de recursos e funções associadas ao projeto. Para cenários de CV, a administração e configuração do ambiente MLOps v2 é basicamente a mesma que para o aprendizado de máquina clássico, mas com uma etapa adicional: criar projetos de rotulagem e anotação de imagem usando o recurso de rotulagem do Machine Learning ou outra ferramenta.
Desenvolvimento do modelo (loop interno)

O elemento de loop interno consiste em seu fluxo de trabalho iterativo de ciência de dados executado em um espaço de trabalho dedicado e seguro de Machine Learning. A principal diferença entre esse fluxo de trabalho e o cenário clássico de aprendizado de máquina é que a rotulagem e a anotação de imagens são um elemento-chave desse ciclo de desenvolvimento.
Registos de Aprendizagem Automática

Depois que a equipe de ciência de dados desenvolver um modelo candidato à implantação na produção, o modelo poderá ser registrado no registro do espaço de trabalho do Aprendizado de Máquina. Os pipelines de CI que são acionados automaticamente pelo registro do modelo ou pela aprovação human-in-the-loop fechada promovem o modelo e quaisquer outras dependências do modelo para a fase de implantação do modelo.
Implantação do modelo (loop externo)

A fase de implantação do modelo ou loop externo consiste em preparação e teste de pré-produção, implantação de produção e monitoramento de modelo, dados e infraestrutura. Os pipelines de CD gerenciam a promoção do modelo e dos ativos relacionados por meio da produção, monitoramento e potencial retreinamento conforme os critérios apropriados à sua organização e caso de uso são satisfeitos.
Estadiamento e teste

A fase de preparação e teste pode variar de acordo com as práticas do cliente, mas normalmente inclui operações como implantações de teste para desempenho de endpoint, verificações de qualidade de dados, testes de unidade e verificações responsáveis de IA para viés de modelo e dados. Para cenários de CV, o retreinamento do candidato a modelo em dados de produção pode ser omitido devido a restrições de recursos e tempo. Em vez disso, a equipe de ciência de dados pode usar dados de produção para o desenvolvimento do modelo, e o modelo candidato registrado no loop de desenvolvimento é o modelo avaliado para produção. Esta fase ocorre em um ou mais espaços de trabalho dedicados e seguros de Machine Learning.
Implementação de produção

Depois que um modelo passa na fase de preparação e teste, ele pode ser promovido para produção por meio de aprovações fechadas human-in-the-loop. As opções de implantação de modelo incluem um ponto de extremidade de lote gerenciado para cenários em lote ou, para cenários online, quase em tempo real, um ponto de extremidade online gerenciado ou implantação do Kubernetes usando o Azure Arc. A produção normalmente ocorre em um ou mais espaços de trabalho dedicados e seguros de Machine Learning.
Monitorização

O monitoramento na preparação, teste e produção possibilita que você colete métricas e atue sobre as alterações no desempenho do modelo, dos dados e da infraestrutura. O monitoramento de modelos e dados pode incluir a verificação do desempenho do modelo em novas imagens. O monitoramento de infraestrutura pode observar a resposta lenta do ponto final, capacidade de computação inadequada ou problemas de rede.
Monitoramento de dados e modelos: eventos e ações

O monitoramento de dados e modelos e as fases de evento e ação do MLOps para PNL são as principais diferenças do aprendizado de máquina clássico. O retreinamento automatizado normalmente não é feito em cenários de CV quando a degradação do desempenho do modelo em novas imagens é detetada. Neste caso, novas imagens para as quais o modelo tem um desempenho ruim devem ser revisadas e anotadas por um processo human-in-the-loop, e muitas vezes a próxima ação volta para o loop de desenvolvimento do modelo para atualizar o modelo com as novas imagens.
Monitoramento de infraestrutura: eventos e ações

Com base em critérios para questões de infraestrutura preocupantes, como atraso na resposta do endpoint ou computação insuficiente para a implantação, gatilhos e notificações automatizados podem implementar ações apropriadas a serem tomadas. Isso dispara um loopback para a fase de instalação e administração, onde a equipe de infraestrutura pode investigar e potencialmente reconfigurar recursos de ambiente, computação e rede.

Arquitetura de PNL do Machine Learning

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de trabalho para a arquitetura de PNL

A arquitetura de PNL de Aprendizado de Máquina é baseada na arquitetura clássica de aprendizado de máquina, mas tem algumas modificações que são específicas para cenários de PNL.

Património de dados

Este elemento ilustra a propriedade de dados da organização e potenciais fontes de dados e destinos para um projeto de ciência de dados. Os engenheiros de dados são os principais proprietários desse elemento do ciclo de vida MLOps v2. As plataformas de dados do Azure neste diagrama não são exaustivas nem prescritivas. As fontes de dados e os destinos que representam as práticas recomendadas com base no caso de uso do cliente são indicados por uma marca de seleção verde.
Administração e configuração

Este elemento é a primeira etapa na implantação do acelerador MLOps v2. Consiste em todas as tarefas relacionadas com a criação e gestão de recursos e funções associadas ao projeto. Para cenários de PNL, a administração e configuração do ambiente MLOps v2 é basicamente a mesma que para o aprendizado de máquina clássico, mas com uma etapa adicional: criar projetos de rotulagem e anotação de imagem usando o recurso de rotulagem do Machine Learning ou outra ferramenta.
Desenvolvimento do modelo (loop interno)

O elemento de loop interno consiste em seu fluxo de trabalho iterativo de ciência de dados executado em um espaço de trabalho dedicado e seguro de Machine Learning. O loop de desenvolvimento de modelo de PNL típico pode ser significativamente diferente do cenário clássico de aprendizado de máquina, pois anotadores para sentenças e tokenização, normalização e incorporações para dados de texto são as etapas típicas de desenvolvimento para esse cenário.
Registos de Aprendizagem Automática

Depois que a equipe de ciência de dados desenvolver um modelo candidato à implantação na produção, o modelo poderá ser registrado no registro do espaço de trabalho do Aprendizado de Máquina. Os pipelines de CI que são acionados automaticamente pelo registro do modelo ou pela aprovação human-in-the-loop fechada promovem o modelo e quaisquer outras dependências do modelo para a fase de implantação do modelo.
Implantação do modelo (loop externo)

A implantação do modelo ou fase de loop externo consiste em preparação e teste de pré-produção, implantação de produção e monitoramento do modelo, dados e infraestrutura. Os pipelines de CD gerenciam a promoção do modelo e dos ativos relacionados por meio da produção, monitoramento e potencial retreinamento, à medida que os critérios para sua organização e caso de uso são satisfeitos.
Estadiamento e teste

A fase de preparação e teste pode variar de acordo com as práticas do cliente, mas normalmente inclui operações como retreinamento e teste do candidato a modelo em dados de produção, implantações de teste para desempenho de ponto final, verificações de qualidade de dados, testes de unidade e verificações responsáveis de IA para viés de modelo e dados. Esta fase ocorre em um ou mais espaços de trabalho dedicados e seguros de Machine Learning.
Implementação de produção

Depois que um modelo passa pela fase de preparação e teste, ele pode ser promovido à produção por uma aprovação fechada human-in-the-loop. As opções de implantação de modelo incluem um ponto de extremidade de lote gerenciado para cenários em lote ou, para cenários online, quase em tempo real, um ponto de extremidade online gerenciado ou implantação do Kubernetes usando o Azure Arc. A produção normalmente ocorre em um ou mais espaços de trabalho dedicados e seguros de Machine Learning.
Monitorização

O monitoramento no preparo, teste e produção possibilita que você colete e aja sobre as alterações no desempenho do modelo, dos dados e da infraestrutura. O monitoramento de modelos e dados pode incluir a verificação de desvio de modelos e dados, o desempenho do modelo em novos dados de texto e problemas de IA responsáveis. O monitoramento de infraestrutura pode observar problemas como resposta lenta do ponto final, capacidade de computação inadequada e problemas de rede.
Monitoramento de dados e modelos: eventos e ações

Tal como acontece com a arquitetura CV, o monitoramento de dados e modelos e as fases de evento e ação do MLOps para PNL são as principais diferenças do aprendizado de máquina clássico. O retreinamento automatizado normalmente não é feito em cenários de PNL quando a degradação do desempenho do modelo em um novo texto é detetada. Neste caso, novos dados de texto para os quais o modelo tem um desempenho ruim devem ser revisados e anotados por um processo human-in-the-loop. Muitas vezes, a próxima ação é voltar ao loop de desenvolvimento do modelo para atualizar o modelo com os novos dados de texto.
Monitoramento de infraestrutura: eventos e ações

Com base em critérios para questões de infraestrutura preocupantes, como atraso na resposta do endpoint ou computação insuficiente para a implantação, gatilhos e notificações automatizados podem implementar ações apropriadas a serem tomadas. Eles acionam um loopback para a fase de instalação e administração, onde a equipe de infraestrutura pode investigar e, potencialmente, reconfigurar os recursos de computação e rede.

Componentes

Machine Learning: um serviço de nuvem para treinamento, pontuação, implantação e gerenciamento de modelos de aprendizado de máquina em escala.
Azure Pipelines: este sistema de compilação e teste é baseado no Azure DevOps e é usado para os pipelines de compilação e lançamento. O Azure Pipelines divide esses pipelines em etapas lógicas chamadas tarefas.
GitHub: Uma plataforma de hospedagem de código para controle de versão, colaboração e fluxos de trabalho de CI/CD.
Azure Arc: uma plataforma para gerenciar recursos do Azure e locais usando o Azure Resource Manager. Os recursos podem incluir máquinas virtuais, clusters Kubernetes e bancos de dados.
Kubernetes: Um sistema de código aberto para automatizar a implantação, o dimensionamento e o gerenciamento de aplicativos em contêineres.
Azure Data Lake: um sistema de arquivos compatível com Hadoop. Ele tem um namespace hierárquico integrado e a enorme escala e economia do Blob Storage.
Azure Synapse Analytics: um serviço de análise ilimitado que reúne integração de dados, armazenamento de dados corporativos e análise de big data.
Hubs de Eventos do Azure. Um serviço que ingere fluxos de dados gerados por aplicativos cliente. Em seguida, ingere e armazena dados de streaming, preservando a sequência de eventos recebidos. Os consumidores podem se conectar aos pontos de extremidade do hub para recuperar mensagens para processamento. Aqui estamos aproveitando a integração com o Data Lake Storage.

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Principais autores:

Scott Donohoo - Brasil | Arquiteto de Soluções Cloud Sênior
Moritz Steller - Brasil | Arquiteto de Soluções Cloud Sênior

Para ver perfis não públicos do LinkedIn, inicie sessão no LinkedIn.

Share via

Operações de aprendizado de máquina (MLOps) v2

Potenciais casos de utilização