Preparar dados e ambiente para ML e DL

Esta seção descreve como preparar seus dados e seu ambiente do Azure Databricks para aprendizado de máquina e aprendizado profundo.

Preparar dados

Os artigos desta seção abordam aspetos de carregamento e pré-processamento de dados específicos para aplicativos de ML e DL.

Preparar o ambiente

O Databricks Runtime for Machine Learning (Databricks Runtime ML) é um ambiente pronto para uso otimizado para aprendizado de máquina e ciência de dados. O Databricks Runtime ML inclui várias bibliotecas externas, incluindo o TensorFlow, o PyTorch, o Horovod, o Scikit-learn e o XGBoost, e fornece extensões para melhorar o desempenho, incluindo aceleração de GPU no XGBoost, aprendizagem profunda distribuída com o HorovodRunner e ponto de verificação de modelos com uma montagem FUSE do Sistema de Ficheiros do Databricks (DBFS).

Para usar o Databricks Runtime ML, selecione a versão ML do tempo de execução ao criar o cluster.

Nota

Para acessar dados no Unity Catalog para fluxos de trabalho de aprendizado de máquina, o modo de acesso para o cluster deve ser de usuário único (atribuído). Os clusters compartilhados não são compatíveis com o Databricks Runtime for Machine Learning.

Instalar bibliotecas

Você pode instalar bibliotecas adicionais para criar um ambiente personalizado para seu bloco de anotações ou cluster.

  • Para disponibilizar uma biblioteca para todos os blocos de anotações em execução em um cluster, crie uma biblioteca de cluster. Você também pode usar um script init para instalar bibliotecas em clusters durante a criação.
  • Para instalar uma biblioteca que está disponível apenas para uma sessão específica do bloco de anotações, use bibliotecas Python com escopo de bloco de anotações.

Usar clusters de GPU

Você pode criar clusters de GPU para acelerar tarefas de aprendizado profundo. Para obter informações sobre como criar clusters de GPU do Azure Databricks, consulte Computação habilitada para GPU. O Databricks Runtime ML inclui controladores de hardware de GPU e bibliotecas da NVIDIA, como a CUDA.