O que é Databricks Machine Learning?

Databricks Machine Learning (Preview) é uma plataforma integrada de aprendizagem automática de ponta a ponta que incorpora serviços geridos para rastreio de experiências, formação de modelos, desenvolvimento e gestão de recursos e serviço de funcionalidades e modelos. O diagrama mostra como as capacidades dos Databricks mapeiam os passos do processo de desenvolvimento e implementação do modelo.

O que é Databricks Machine Learning?

Com databricks machine learning, você pode:

Para aplicações de machine learning, a Databricks fornece databricks Runtime for Machine Learning, uma variação do Databricks Runtime que inclui muitas bibliotecas de aprendizagem de máquinas populares.

Características de aprendizagem automática de dados

Loja de recursos

A Feature Store permite-lhe catalogar funcionalidades ML e disponibilizá-las para treino e serviço, aumentando a reutilização. Com uma pesquisa de funcionalidades baseada em linhagem de dados que alavanca fontes de dados automaticamente registadas, pode disponibilizar funcionalidades para treino e serviço com implementação de modelo simplificado que não requer alterações na aplicação do cliente.

Experimentações

As experiências mLflow permitem visualizar, pesquisar e comparar runs, bem como descarregar artefactos e metadados para análise em outras ferramentas. A página Experimentos dá-lhe acesso rápido às experiências da MLflow em toda a sua organização. Você pode rastrear o desenvolvimento de modelos de aprendizagem automática, registando estas experiências a partir de cadernos e empregos da Azure Databricks.

Modelos

A Azure Databricks fornece uma versão hospedada do Registo de Modelos MLflow para ajudá-lo a gerir o ciclo de vida completo dos Modelos MLflow. O Model Registry fornece linhagem de modelo cronológico (que mLflow experimentou e executou o modelo num dado momento), versão de modelo, transições de palco (por exemplo, da encenação à produção ou arquivada) e notificações de e-mail de eventos de modelos. Também pode criar e visualizar descrições de modelos e deixar comentários.

AutoML

O AutoML permite-lhe gerar automaticamente modelos de aprendizagem automática a partir de dados e acelerar o caminho para a produção. Prepara o conjunto de dados para a formação de modelos e, em seguida, executa e regista um conjunto de ensaios, criando, afinando e avaliando vários modelos. Apresenta os resultados e fornece um portátil Python com o código fonte para cada ensaio para que possa rever, reproduzir e modificar o código. O AutoML também calcula as estatísticas sumárias do seu conjunto de dados e guarda estas informações num caderno que pode rever mais tarde.

Runtime do Databricks para Machine Learning

Databricks Runtime for Machine Learning (Databricks Runtime ML) automatiza a criação de um cluster otimizado para a aprendizagem automática. Os clusters de ML runtime de dados incluem as bibliotecas de aprendizagem automática mais populares, tais como TensorFlow, PyTorch, Keras e XGBoost, e também incluem bibliotecas necessárias para formação distribuída como Horovod. A utilização de Databricks Runtime ML acelera a criação do cluster e garante que as versões da biblioteca instaladas são compatíveis.

Passos seguintes