Treinamento de modelo de machine learning com o AKS

Armazenamento de Blobs
Registro de Contêiner
Serviço de Kubernetes

Ideia da solução Solution Idea

Se você quiser nos ver, expanda este artigo com mais informações, detalhes de implementação, diretrizes de preços ou exemplos de código, fale conosco com os comentários do GitHub!If you'd like to see us expand this article with more information, implementation details, pricing guidance, or code examples, let us know with GitHub Feedback!

O treinamento de modelos que usam conjuntos de grandes volumes é uma tarefa complexa e intensiva de recursos.Training of models using large datasets is a complex and resource intensive task. Use ferramentas familiares, como TensorFlow e Kubeflow, para simplificar o treinamento de modelos de Machine Learning.Use familiar tools such as TensorFlow and Kubeflow to simplify training of Machine Learning models. Seus modelos de ML serão executados em clusters AKS apoiados por VMs habilitadas para GPU.Your ML models will run in AKS clusters backed by GPU enabled VMs.

ArquiteturaArchitecture

Diagrama de arquitetura Baixe um SVG dessa arquitetura.Architecture diagram Download an SVG of this architecture.

Fluxo de DadosData Flow

  1. Empacotar o modelo ML em um contêiner e publicar no ACRPackage ML model into a container and publish to ACR
  2. O armazenamento de BLOBs do Azure hospeda conjuntos de dados de treinamento e modelo treinadoAzure Blob storage hosts training data sets and trained model
  3. Use o Kubeflow para implantar o trabalho de treinamento no AKS, o trabalho de treinamento distribuído para o AKS inclui servidores de parâmetros e nós de trabalhoUse Kubeflow to deploy training job to AKS, distributed training job to AKS includes Parameter servers and Worker nodes
  4. Sirva o modelo de produção usando o Kubeflow, promovendo um ambiente consistente em teste, controle e produçãoServe production model using Kubeflow, promoting a consistent environment across test, control and production
  5. AKS dá suporte à VM habilitada para GPUAKS supports GPU enabled VM
  6. O desenvolvedor pode criar recursos consultando o modelo em execução no cluster AKSDeveloper can build features querying the model running in AKS cluster

ComponentesComponents

Próximas etapasNext steps