O que é a Máquina Virtual de Ciência de Dados do Azure para Linux e Windows?

A DSVM (Máquina Virtual de Ciência de Dados) é uma imagem de VM personalizada plataforma de nuvem do Azure especificamente criada para ciência de dados. Ela tem muitas ferramentas populares de ciência de dados pré-instaladas e pré-configuradas para iniciar rapidamente a criação de aplicativos inteligentes para análise avançada.

O DSVM está disponível em:

  • Windows Server 2019
  • Windows Server 2022
  • Ubuntu 20.04 LTS

Além disso, estamos animados para oferecer a DSVM do Azure para PyTorch, que é uma imagem do Ubuntu 20.04 do Azure Marketplace otimizada para cargas de trabalho de aprendizado profundo grandes e distribuídas. Ela vem pré-instalada e validada com a versão mais recente do PyTorch para reduzir os custos de instalação e acelerar o tempo de retorno. Ela vem empacotada com várias funcionalidades de otimização (ONNX Runtime, DeepSpeed, MSCCL, ORTMoE, Fairscale, Nvidia Apex) e uma pilha atualizada com as versões compatíveis mais recentes do Ubuntu, Python, PyTorch, CUDA.

Comparação com o Azure Machine Learning

A DSVM é uma imagem de VM personalizada para ciência de dados, enquanto o Azure Machine Learning é uma plataforma completa que abrange:

  • Computação totalmente gerenciada
    • Instâncias de computação
    • Clusters de computação para tarefas de ML distribuídas
    • Clusters de inferência para pontuação em tempo real
  • Armazenamentos de dados (por exemplo, Blob, ADLS Gen2, BD SQL)
  • Acompanhamento de experimentos
  • Gerenciamento de modelos
  • Notebooks
  • Ambientes (gerenciam dependências do Conda e do R)
  • Rotulagem
  • Pipelines (automatizam fluxos de trabalho de ciência de dados de ponta a ponta)

Comparação com as instâncias de computação do Azure Machine Learning

As instâncias de Computação do Azure Machine Learning são uma imagem de VM totalmente configurada e gerenciada, enquanto a DSVM é uma VM não gerenciada.

Principais diferenças entre elas:

Recurso Ciência de dados
VM
Azure Machine Learning
Instância de computação
Totalmente gerenciado Não Sim
Suporte ao idioma Python, R, Julia, SQL, C#,
Java, Node.js, F#
Python e R
Sistema operacional Ubuntu
Windows
Ubuntu
Opção de GPU pré-configurada Sim Sim
Opção de escala vertical Sim Sim
Acesso ao SSH Sim Sim
Acesso ao RDP Sim Não
Interno
Notebooks hospedados
Não
(exige configuração adicional)
Sim
SSO interno Nenhum
(exige configuração adicional)
Sim
Colaboração interna Não Yes
Ferramentas pré-instaladas Jupyter(lab), VS Code,
Visual Studio, PyCharm, Juno,
Power BI Desktop, SSMS,
Microsoft Office 365, Apache Drill
Jupyter (laboratório)

Casos de uso de exemplo

Aqui estão alguns casos de uso comuns para clientes da DSVM.

Avaliação e experimento de curto prazo

Use a DSVM para avaliar ou aprender a usar novas ferramentas de ciência de dados, especialmente vendo algumas de nossas amostras e nossos passos a passos publicados.

Aprendizado profundo com GPUs

Na DSVM, seus modelos de treinamento podem usar algoritmos de aprendizado profundo em hardware baseado em GPUs (unidades de processamento gráfico). Aproveitando os recursos de dimensionamento de VM da plataforma Azure, a DSVM ajuda a usar o hardware baseado em GPU na nuvem de acordo com suas necessidades. É possível mudar para uma VM baseada em GPU durante o treinamento de modelos grandes ou quando houver necessidade de cálculos em alta velocidade mantendo o mesmo disco do SO. Escolha um dos SKUs de máquina virtual habilitada para GPUs da série N com a DSVM. Observe que não há suporte para SKUs de máquina virtual habilitada para GPU em contas gratuitas do Azure.

As edições do Windows da DSVM vêm pré-instaladas com drivers de GPU, estruturas e versões de GPU de estruturas de aprendizado profundo. Nas edições do Linux, o aprendizado profundo em GPUs está habilitado nas DSVMs do Ubuntu.

Você também pode implantar as edições para Ubuntu ou Windows da DSVM em uma máquina virtual do Azure não baseada em GPUs. Nesse caso, todas as estruturas de aprendizado profundo fazem o fallback para o modo de CPU.

Saiba mais sobre o aprendizado profundo e as estruturas de IA disponíveis.

Educação e treinamento de ciência de dados

Os treinadores corporativos e educadores que dão aulas de ciência de dados geralmente fornecem uma imagem de máquina virtual. A imagem garante que os alunos tenham uma configuração consistente e que as amostras funcionem de maneira previsível.

A DSVM cria um ambiente sob demanda com uma configuração consistente que facilita o suporte e os desafios de incompatibilidade. Nos casos em que esses ambientes precisam ser criados com frequência, especialmente para aulas rápidas de treinamento, os alunos são consideravelmente beneficiados.

O que está incluso na DSVM?

Confira uma lista completa de ferramentas em DSVMs do Windows e do Linux aqui.

Próximas etapas

Saiba mais com estes artigos: