Entrenamientos de modelos de Machine Learning con AKS

Blob Storage
Container Registry
Kubernetes Service

Idea de solución Solution Idea

Si desea que ampliemos este artículo con más información, detalles de la implementación, guía de precios o ejemplos de código, háganoslo saber en GitHub Feedback (Comentarios de GitHub).If you'd like to see us expand this article with more information, implementation details, pricing guidance, or code examples, let us know with GitHub Feedback!

El entrenamiento de modelos con grandes conjuntos de datos es una tarea compleja y que consume muchos recursos.Training of models using large datasets is a complex and resource intensive task. Use herramientas conocidas, como TensorFlow y Kubeflow, para simplificar el entrenamiento de los modelos de Machine Learning.Use familiar tools such as TensorFlow and Kubeflow to simplify training of Machine Learning models. Los modelos de Machine Learning se ejecutarán en clústeres de AKS respaldados por máquinas virtuales habilitadas para GPU.Your ML models will run in AKS clusters backed by GPU enabled VMs.

ArchitectureArchitecture

Diagrama de la arquitectura Descargue un SVG de esta arquitectura.Architecture diagram Download an SVG of this architecture.

Data FlowData Flow

  1. Empaquete el modelo de Machine Learning en un contenedor y publíquelo posteriormente en ACR.Package ML model into a container and publish to ACR
  2. Azure Blob Storage hospeda conjuntos de datos de aprendizaje y un modelo entrenado.Azure Blob storage hosts training data sets and trained model
  3. Use Kubeflow para implementar el trabajo de entrenamiento en AKS, el trabajo de entrenamiento distribuido en AKS incluye servidores de parámetros y nodos de trabajo.Use Kubeflow to deploy training job to AKS, distributed training job to AKS includes Parameter servers and Worker nodes
  4. Atienda el modelo de producción mediante Kubeflow, lo que promueve un entorno consistente en las pruebas, el control y la producción.Serve production model using Kubeflow, promoting a consistent environment across test, control and production
  5. AKS admite máquinas virtuales habilitadas para GPU.AKS supports GPU enabled VM
  6. El desarrollador puede crear características que consulten el modelo que se ejecuta en un clúster de AKS.Developer can build features querying the model running in AKS cluster