Preparação distribuída

Artigo
03/01/2024

Sempre que possível, o Azure Databricks recomenda que prepare as redes neurais numa única máquina; o código distribuído para a preparação e a inferência é mais complexo do que o código de máquina individual e mais lento devido à sobrecarga de comunicação. No entanto, se o modelo ou os dados forem demasiado grandes e não couberem na memória de uma só máquina, deve ponderar utilizar a preparação distribuída e a inferência. Para essas cargas de trabalho, o Databricks Runtime ML inclui os pacotes TorchDistributor, Horovod e spark-tensorflow-distribution.

O Azure Databricks também oferece treinamento distribuído para modelos Spark ML com o pyspark.ml.connect módulo, consulte Train Spark ML models on Databricks Connect with pyspark.ml.connect.

Nota

O Databricks não recomenda a execução de treinamento distribuído de vários nós usando VMs da série NC devido ao baixo desempenho da rede entre nós. Em vez disso, use um nó multi-GPU ou use um tamanho de VM de GPU diferente, como a série NCasT4_v3, que suporta rede acelerada.

Distribuidor DeepSpeed

O distribuidor DeepSpeed é construído sobre o TorchDistributor e é uma solução recomendada para clientes com modelos que exigem maior poder de computação, mas são limitados por restrições de memória. O DeepSpeed é uma biblioteca de código aberto desenvolvida pela Microsoft e oferece uso otimizado de memória, sobrecarga de comunicação reduzida e paralelismo de pipeline avançado. Saiba mais sobre o treinamento distribuído com o distribuidor DeepSpeed

TorchDistribuidor

TorchDistributor é um módulo de código aberto no PySpark que ajuda os usuários a fazer treinamento distribuído com o PyTorch em seus clusters Spark, então ele permite que você inicie trabalhos de treinamento do PyTorch como trabalhos do Spark. Sob o capô, ele inicializa o ambiente e os canais de comunicação entre os trabalhadores e utiliza o comando torch.distributed.run CLI para executar treinamento distribuído entre os nós de trabalho. Saiba mais sobre o treinamento distribuído com TorchDistributor.

spark-tensorflow-distributor

O spark-tensorflow-distributor é um pacote nativo open-source no TensorFlow para a preparação distribuída com TensorFlow em clusters do Spark. Saiba mais sobre o treinamento distribuído com o TensorFlow 2.

Raio

O Ray é uma estrutura de código aberto especializada em processamento de computação paralela para dimensionar fluxos de trabalho de ML e aplicativos de IA. Consulte Usar o Ray no Azure Databricks.

Horovod

Horovod é um framework de preparação distribuído para TensorFlow, Keras e PyTorch. O Azure Databricks suporta a preparação de aprendizagem profunda distribuída com o HorovodRunner e o pacote horovod.spark. Para aplicativos de pipeline do Spark ML usando Keras ou PyTorch, você pode usar a API do horovod.sparkestimador.

Requisitos

Databricks Runtime ML.

Utilizar o Horovod

Os seguintes artigos fornecem informações gerais sobre aprendizagem profunda distribuída com o Horovod e blocos de notas de exemplo que mostram como utilizar o HorovodRunner e o pacote horovod.spark.

Instale uma versão diferente do Horovod

Para atualizar ou fazer downgrade do Horovod a partir da versão pré-instalada em seu cluster de ML, você deve recompilar o Horovod seguindo estas etapas:

Desinstale a versão atual do Horovod.

%pip uninstall -y horovod

Se estiver usando um cluster acelerado por GPU, instale as bibliotecas de desenvolvimento CUDA necessárias para compilar o Horovod. Para garantir a compatibilidade, deixe as versões do pacote inalteradas.

%sh
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-ubuntu1804.pin
mv cuda-ubuntu1804.pin /etc/apt/preferences.d/cuda-repository-pin-600
apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/7fa2af80.pub
add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/ /"

wget https://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu1804/x86_64/nvidia-machine-learning-repo-ubuntu1804_1.0.0-1_amd64.deb
dpkg -i ./nvidia-machine-learning-repo-ubuntu1804_1.0.0-1_amd64.deb

apt-get update
apt-get install --allow-downgrades --no-install-recommends -y \
cuda-nvml-dev-11-0=11.0.167-1 \
cuda-nvcc-11-0=11.0.221-1 \
cuda-cudart-dev-11-0=11.0.221-1 \
cuda-libraries-dev-11-0=11.0.3-1 \
libnccl-dev=2.11.4-1+cuda11.5\
libcusparse-dev-11-0=11.1.1.245-1

Faça o download da versão desejada do código-fonte do Orovod e compile com as bandeiras apropriadas. Se você não precisar de nenhuma das extensões (como HOROVOD_WITH_PYTORCH), poderá remover esses sinalizadores.

CPU

%sh
HOROVOD_VERSION=v0.21.3 # Change as necessary
git clone --recursive https://github.com/horovod/horovod.git --branch ${HOROVOD_VERSION}
cd horovod
rm -rf build/ dist/
HOROVOD_WITH_MPI=1 HOROVOD_WITH_TENSORFLOW=1 HOROVOD_WITH_PYTORCH=1 \
# For Databricks Runtime 8.4 ML and below, replace with /databricks/conda/envs/databricks-ml/bin/python
sudo /databricks/python3/bin/python setup.py bdist_wheel
readlink -f dist/horovod-*.whl

GPU

%sh
HOROVOD_VERSION=v0.21.3 # Change as necessary
git clone --recursive https://github.com/horovod/horovod.git --branch ${HOROVOD_VERSION}
cd horovod
rm -rf build/ dist/
HOROVOD_GPU_ALLREDUCE=NCCL HOROVOD_CUDA_HOME=/usr/local/cuda HOROVOD_WITH_MPI=1 HOROVOD_WITH_TENSORFLOW=1 HOROVOD_WITH_PYTORCH=1 \
# For Databricks Runtime 8.4 ML and below, replace with /databricks/conda/envs/databricks-ml-gpu/bin/python
sudo /databricks/python3/bin/python setup.py bdist_wheel
readlink -f dist/horovod-*.whl

Use %pip para reinstalar o Horovod especificando o caminho da roda Python da saída do comando anterior. 0.21.3 é mostrado neste exemplo.

%pip install --no-cache-dir /databricks/driver/horovod/dist/horovod-0.21.3-cp38-cp38-linux_x86_64.whl

Resolver problemas de instalação do Horovod

Problema: Importação horovod.{torch|tensorflow} aumenta ImportError: Extension horovod.{torch|tensorflow} has not been built

Solução: O Horovod vem pré-instalado no Databricks Runtime ML, portanto, esse erro normalmente ocorre se a atualização de um ambiente der errado. O erro indica que o Horovod foi instalado antes de uma biblioteca necessária (PyTorch ou TensorFlow). Como o Horovod é compilado durante a instalação, horovod.{torch|tensorflow} não será compilado se esses pacotes não estiverem presentes durante a instalação do Horovod. Para corrigir o problema, siga estes passos:

Verifique se está num cluster do Databricks Runtime ML.
Certifique-se de que o pacote do PyTorch ou TensorFlow já está instalado.
Desinstale o Horovod (%pip uninstall -y horovod).
Instale o cmake (%pip install cmake).
Reinstale o horovod.