Ciência de dados com um Máquina Virtual de Ciência de Dados do WindowsData science with a Windows Data Science Virtual Machine

O Windows Máquina Virtual de Ciência de Dados (DSVM) é um poderoso ambiente de desenvolvimento de ciência de dados, no qual você pode executar tarefas de exploração e modelagem de dados.The Windows Data Science Virtual Machine (DSVM) is a powerful data science development environment where you can perform data exploration and modeling tasks. O ambiente já vem criado e agrupado com várias ferramentas de análise de dados populares que facilitam a introdução à análise de implantações locais, na nuvem ou híbridas.The environment comes already built and bundled with several popular data analytics tools that make it easy to get started with your analysis for on-premises, cloud, or hybrid deployments.

O DSVM trabalha junto com os serviços do Azure.The DSVM works closely with Azure services. Ele pode ler e processar dados que já estão armazenados no Azure, no Azure Synapse (anteriormente conhecido como SQL DW), Azure Data Lake, armazenamento do Azure ou Azure Cosmos DB.It can read and process data that's already stored on Azure, in Azure Synapse (formerly SQL DW),Azure Data Lake, Azure Storage, or Azure Cosmos DB. Ele também pode aproveitar outras ferramentas de análise, como Azure Machine Learning.It can also take advantage of other analytics tools, such as Azure Machine Learning.

Neste artigo, você aprenderá a usar seu DSVM para executar tarefas de ciência de dados e interagir com outros serviços do Azure.In this article, you'll learn how to use your DSVM to perform data science tasks and interact with other Azure services. Veja algumas tarefas que você pode realizar na DSVM:Here are some of the things you can do on the DSVM:

  • Use um Jupyter Notebook para experimentar seus dados em um navegador usando o Python 2, o Python 3 e o Microsoft R. (o Microsoft R é uma versão do R pronta para a empresa, projetada para o desempenho.)Use a Jupyter Notebook to experiment with your data in a browser by using Python 2, Python 3, and Microsoft R. (Microsoft R is an enterprise-ready version of R designed for performance.)

  • Explore dados e desenvolva modelos localmente no DSVM usando Microsoft Machine Learning Server e Python.Explore data and develop models locally on the DSVM by using Microsoft Machine Learning Server and Python.

  • Administre seus recursos do Azure usando o portal do Azure ou o PowerShell.Administer your Azure resources by using the Azure portal or PowerShell.

  • Estenda seu espaço de armazenamento e compartilhe conjuntos de arquivos/código em grande escala em toda a sua equipe criando um compartilhamento de arquivo do Azure como uma unidade montável em seu DSVM.Extend your storage space and share large-scale datasets/code across your whole team by creating an Azure Files share as a mountable drive on your DSVM.

  • Compartilhe código com sua equipe usando o GitHub.Share code with your team by using GitHub. Acesse seu repositório usando os clientes git pré-instalados: git bash e git GUI.Access your repository by using the pre-installed Git clients: Git Bash and Git GUI.

  • Acesse dados do Azure e serviços de análise como armazenamento de BLOBs do Azure, Azure Cosmos DB, Azure Synapse (anteriormente conhecido como SQL DW) e banco de dados SQL do Azure.Access Azure data and analytics services like Azure Blob storage, Azure Cosmos DB, Azure Synapse (formerly SQL DW), and Azure SQL Database.

  • Crie relatórios e um painel usando a instância de Power BI Desktop pré-instalada no DSVM e implante-os na nuvem.Build reports and a dashboard by using the Power BI Desktop instance that's pre-installed on the DSVM, and deploy them in the cloud.

  • Instale ferramentas adicionais em sua máquina virtual.Install additional tools on your virtual machine.

Observação

Encargos adicionais de uso se aplicam a muitos dos serviços de armazenamento e análise de dados listados neste artigo.Additional usage charges apply for many of the data storage and analytics services listed in this article. Para obter detalhes, consulte a página de preços do Azure .For details, see the Azure pricing page.

Pré-requisitosPrerequisites

Observação

Este artigo foi atualizado para usar o módulo Az PowerShell do Azure.This article has been updated to use the Azure Az PowerShell module. O módulo Az PowerShell é o módulo do PowerShell recomendado para interagir com o Azure.The Az PowerShell module is the recommended PowerShell module for interacting with Azure. Para começar a usar o módulo do Az PowerShell, confira Instalar o Azure PowerShell.To get started with the Az PowerShell module, see Install Azure PowerShell. Para saber como migrar para o módulo Az PowerShell, confira Migrar o Azure PowerShell do AzureRM para o Az.To learn how to migrate to the Az PowerShell module, see Migrate Azure PowerShell from AzureRM to Az.

Usar o Jupyter NotebooksUse Jupyter Notebooks

O Jupyter Notebook fornece um IDE baseado em navegador para exploração e modelagem de dados.The Jupyter Notebook provides a browser-based IDE for data exploration and modeling. Você pode usar o Python 2, Python 3 ou R (tanto de software livre quanto de Microsoft R Server) em uma Jupyter Notebook.You can use Python 2, Python 3, or R (both open source and Microsoft R Server) in a Jupyter Notebook.

Para iniciar o Jupyter Notebook, selecione o ícone de Jupyter Notebook no menu Iniciar ou na área de trabalho.To start the Jupyter Notebook, select the Jupyter Notebook icon on the Start menu or on the desktop. No prompt de comando do DSVM, você também pode executar o comando jupyter notebook do diretório em que você tem blocos de anotações existentes ou onde deseja criar novos blocos de anotações.In the DSVM command prompt, you can also run the command jupyter notebook from the directory where you have existing notebooks or where you want to create new notebooks.

Depois de iniciar o Jupyter, navegue até o /notebooks diretório de blocos de anotações de exemplo que são previamente empacotados no DSVM.After you start Jupyter, navigate to the /notebooks directory for example notebooks that are pre-packaged into the DSVM. Agora você pode:Now you can:

  • Selecione o bloco de anotações para ver o código.Select the notebook to see the code.
  • Execute cada célula selecionando Shift + Enter.Run each cell by selecting Shift+Enter.
  • Execute o bloco de anotações inteiro selecionando a execução da célula > .Run the entire notebook by selecting Cell > Run.
  • Crie um novo bloco de anotações selecionando o ícone de Jupyter (canto superior esquerdo), selecionando o botão novo à direita e escolhendo o idioma do notebook (também conhecido como kernels).Create a new notebook by selecting the Jupyter icon (upper-left corner), selecting the New button on the right, and then choosing the notebook language (also known as kernels).

Observação

Atualmente, há suporte para os kernels Python 2,7, Python 3,6, R, Julia e PySpark em Jupyter.Currently, Python 2.7, Python 3.6, R, Julia, and PySpark kernels in Jupyter are supported. O kernel do R dá suporte à programação no R de software livre e no Microsoft R.The R kernel supports programming in both open-source R and Microsoft R.

Quando você estiver no bloco de anotações, poderá explorar seus dados, criar o modelo e testar o modelo usando as bibliotecas de sua escolha.When you're in the notebook, you can explore your data, build the model, and test the model by using your choice of libraries.

Explorar dados e desenvolver modelos com Microsoft Machine Learning ServerExplore data and develop models with Microsoft Machine Learning Server

Você pode usar linguagens como R e Python para fazer a análise de dados diretamente na DSVM.You can use languages like R and Python to do your data analytics right on the DSVM.

Para o R, você pode usar um IDE como RStudio que pode ser encontrado no menu iniciar ou na área de trabalho.For R, you can use an IDE like RStudio that can be found on the start menu or on the desktop. Ou você pode usar Ferramentas do R para Visual Studio.Or you can use R Tools for Visual Studio. A Microsoft forneceu bibliotecas adicionais sobre o CRAN R de software livre para habilitar a análise escalonável e a capacidade de analisar dados maiores do que o tamanho da memória permitido na análise em partes paralela.Microsoft has provided additional libraries on top of the open-source CRAN R to enable scalable analytics and the ability to analyze data larger than the memory size allowed in parallel chunked analysis.

Para Python, você pode usar um IDE como o Visual Studio Community Edition, que tem a extensão PTVS (Ferramentas Python para Visual Studio) pré-instalada.For Python, you can use an IDE like Visual Studio Community Edition, which has the Python Tools for Visual Studio (PTVS) extension pre-installed. Por padrão, somente o Python 3,6, o ambiente de Conda raiz, é configurado em PTVS.By default, only Python 3.6, the root Conda environment, is configured on PTVS. Para habilitar o Anaconda Python 2,7, execute as seguintes etapas:To enable Anaconda Python 2.7, take the following steps:

  1. Crie ambientes personalizados para cada versão acessando ferramentas > python > ambientes Python e, em seguida, selecionando + personalizado no Visual Studio Community Edition.Create custom environments for each version by going to Tools > Python Tools > Python Environments, and then selecting + Custom in Visual Studio Community Edition.
  2. Forneça uma descrição e defina o caminho do prefixo do ambiente como c:\anaconda\envs\python2 para anaconda Python 2,7.Give a description and set the environment prefix path as c:\anaconda\envs\python2 for Anaconda Python 2.7.
  3. Selecione detecção automática > aplicar para salvar o ambiente.Select Auto Detect > Apply to save the environment.

Consulte a documentação do PTVS para obter mais detalhes sobre como criar ambientes do Python.See the PTVS documentation for more details on how to create Python environments.

Agora você está pronto para criar um novo projeto Python.Now you're set up to create a new Python project. Vá para arquivo > novo > projeto > Python e selecione o tipo de aplicativo Python que você está criando.Go to File > New > Project > Python and select the type of Python application you're building. Você pode definir o ambiente do Python para o projeto atual para a versão desejada (Python 2,7 ou 3,6) clicando com o botão direito do mouse em ambientes do Python e selecionando Adicionar/remover ambientes Python.You can set the Python environment for the current project to the desired version (Python 2.7 or 3.6) by right-clicking Python environments and then selecting Add/Remove Python Environments. Você pode encontrar mais informações sobre como trabalhar com o PTVS na documentação do produto.You can find more information about working with PTVS in the product documentation.

Gerenciar recursos do AzureManage Azure resources

O DSVM não permite apenas que você crie sua solução de análise localmente na máquina virtual.The DSVM doesn't just allow you to build your analytics solution locally on the virtual machine. Ele também permite que você acesse serviços na plataforma de nuvem do Azure.It also allows you to access services on the Azure cloud platform. O Azure fornece várias computação, armazenamento, análise de dados e outros serviços que você pode administrar e acessar de seu DSVM.Azure provides several compute, storage, data analytics, and other services that you can administer and access from your DSVM.

Para administrar seus recursos de nuvem e sua assinatura do Azure, você tem duas opções:To administer your Azure subscription and cloud resources, you have two options:

Estender o armazenamento usando sistemas de arquivos compartilhadosExtend storage by using shared file systems

Os cientistas de dados podem compartilhar grandes conjuntos de dados, códigos ou outros recursos dentro da equipe.Data scientists can share large datasets, code, or other resources within the team. O DSVM tem cerca de 45 GB de espaço disponível.The DSVM has about 45 GB of space available. Para estender o armazenamento, você pode usar os arquivos do Azure e montá-lo em uma ou mais instâncias do DSVM ou acessá-lo por meio de uma API REST.To extend your storage, you can use Azure Files and either mount it on one or more DSVM instances or access it via a REST API. Você também pode usar o portal do Azure ou usar Azure PowerShell para adicionar discos de dados dedicados extras.You can also use the Azure portal or use Azure PowerShell to add extra dedicated data disks.

Observação

O espaço máximo no compartilhamento de arquivos do Azure é de 5 TB.The maximum space on the Azure Files share is 5 TB. O limite de tamanho para cada arquivo é 1 TB.The size limit for each file is 1 TB.

Você pode usar esse script em Azure PowerShell para criar um compartilhamento de arquivos do Azure:You can use this script in Azure PowerShell to create an Azure Files share:

# Authenticate to Azure.
Connect-AzAccount
# Select your subscription
Get-AzSubscription –SubscriptionName "<your subscription name>" | Select-AzSubscription
# Create a new resource group.
New-AzResourceGroup -Name <dsvmdatarg>
# Create a new storage account. You can reuse existing storage account if you want.
New-AzStorageAccount -Name <mydatadisk> -ResourceGroupName <dsvmdatarg> -Location "<Azure Data Center Name For eg. South Central US>" -Type "Standard_LRS"
# Set your current working storage account
Set-AzCurrentStorageAccount –ResourceGroupName "<dsvmdatarg>" –StorageAccountName <mydatadisk>

# Create an Azure Files share
$s = New-AzStorageShare <<teamsharename>>
# Create a directory under the file share. You can give it any name
New-AzStorageDirectory -Share $s -Path <directory name>
# List the share to confirm that everything worked
Get-AzStorageFile -Share $s

Agora que você criou um compartilhamento de arquivos do Azure, você pode montá-lo em qualquer máquina virtual no Azure.Now that you have created an Azure Files share, you can mount it in any virtual machine in Azure. Recomendamos que você coloque a VM no mesmo datacenter do Azure que a conta de armazenamento para evitar a latência e encargos de transferência de dados.We recommend that you put the VM in the same Azure datacenter as the storage account, to avoid latency and data transfer charges. Aqui estão os comandos Azure PowerShell para montar a unidade no DSVM:Here are the Azure PowerShell commands to mount the drive on the DSVM:

# Get the storage key of the storage account that has the Azure Files share from the Azure portal. Store it securely on the VM to avoid being prompted in the next command.
cmdkey /add:<<mydatadisk>>.file.core.windows.net /user:<<mydatadisk>> /pass:<storage key>

# Mount the Azure Files share as drive Z on the VM. You can choose another drive letter if you want.
net use z:  \\<mydatadisk>.file.core.windows.net\<<teamsharename>>

Agora, você pode acessar essa unidade como faria com qualquer unidade normal na VM.Now you can access this drive as you would any normal drive on the VM.

Compartilhar código no GitHubShare code in GitHub

O GitHub é um repositório de código no qual você pode encontrar exemplos de código e fontes para várias ferramentas usando tecnologias compartilhadas pela comunidade de desenvolvedores.GitHub is a code repository where you can find code samples and sources for various tools by using technologies shared by the developer community. Ele usa Git como a tecnologia para rastrear e armazenar versões dos arquivos de código.It uses Git as the technology to track and store versions of the code files. O GitHub também é uma plataforma na qual você pode criar seu próprio repositório para armazenar o código compartilhado e a documentação da sua equipe, implementar o controle de versão e controlar quem tem acesso para exibir e contribuir com código.GitHub is also a platform where you can create your own repository to store your team's shared code and documentation, implement version control, and control who has access to view and contribute code.

Visite as páginas de ajuda do GitHub para obter mais informações sobre como usar o Git.Visit the GitHub help pages for more information on using Git. Você pode usar o GitHub como uma das maneiras de colaborar com sua equipe, usar o código desenvolvido pela Comunidade e contribuir com código de volta para a Comunidade.You can use GitHub as one of the ways to collaborate with your team, use code developed by the community, and contribute code back to the community.

O DSVM vem carregado com as ferramentas de cliente na linha de comando e na GUI para acessar o repositório GitHub.The DSVM comes loaded with client tools on the command line and on the GUI to access the GitHub repository. A ferramenta de linha de comando que funciona com o git e o GitHub é chamada git bash.The command-line tool that works with Git and GitHub is called Git Bash. O Visual Studio está instalado no DSVM e tem as extensões git.Visual Studio is installed on the DSVM and has the Git extensions. Você pode encontrar ícones para essas ferramentas no menu Iniciar e na área de trabalho.You can find icons for these tools on the Start menu and on the desktop.

Para baixar o código de um repositório GitHub, você usa o comando git clone.To download code from a GitHub repository, you use the git clone command. Por exemplo, para baixar o repositório de ciência de dados publicado pela Microsoft no diretório atual, você pode executar o seguinte comando no git bash:For example, to download the data science repository published by Microsoft into the current directory, you can run the following command in Git Bash:

git clone https://github.com/Azure/DataScienceVM.git

No Visual Studio, você pode fazer a mesma operação de clonagem.In Visual Studio, you can do the same clone operation. A captura de tela a seguir mostra como acessar as ferramentas git e GitHub no Visual Studio:The following screenshot shows how to access Git and GitHub tools in Visual Studio:

Captura de tela do Visual Studio com a conexão do GitHub exibida

Você pode encontrar mais informações sobre como usar o Git para trabalhar com o repositório GitHub de recursos disponíveis em github.com.You can find more information on using Git to work with your GitHub repository from resources available on github.com. O roteiro é uma referência útil.The cheat sheet is a useful reference.

Acessar dados e serviços de análise do AzureAccess Azure data and analytics services

Armazenamento de Blobs do AzureAzure Blob storage

O armazenamento de BLOBs do Azure é um serviço de armazenamento em nuvem confiável e econômico para dados grandes e pequenos.Azure Blob storage is a reliable, economical cloud storage service for data big and small. Esta seção descreve como você pode mover dados para o armazenamento de BLOBs e acessar dados armazenados em um blob do Azure.This section describes how you can move data to Blob storage and access data stored in an Azure blob.

Pré-requisitosPrerequisites

  • Crie sua conta de armazenamento de BLOBs do Azure do portal do Azure.Create your Azure Blob storage account from the Azure portal.

    Captura de tela do processo de criação da conta de armazenamento no portal do Azure

  • Confirme se a ferramenta de linha de comando AzCopy está pré-instalada: C:\Program Files (x86)\Microsoft SDKs\Azure\AzCopy\azcopy.exe .Confirm that the command-line AzCopy tool is pre-installed: C:\Program Files (x86)\Microsoft SDKs\Azure\AzCopy\azcopy.exe. O diretório que contém azcopy.exe já está em sua variável de ambiente PATH, portanto, você pode evitar digitar o caminho de comando completo ao executar essa ferramenta.The directory that contains azcopy.exe is already on your PATH environment variable, so you can avoid typing the full command path when running this tool. Para obter mais informações sobre a ferramenta AzCopy, consulte a documentação do AzCopy.For more information on the AzCopy tool, see the AzCopy documentation.

  • Inicie o Gerenciador de Armazenamento do Azure.Start the Azure Storage Explorer tool. Você pode baixá-lo na página da web Gerenciador de armazenamento.You can download it from the Storage Explorer webpage.

    Captura de tela de Gerenciador de Armazenamento do Azure acessar uma conta de armazenamento

Mover dados de uma VM para um blob do Azure: AzCopyMove data from a VM to an Azure blob: AzCopy

Para mover dados entre seus arquivos locais e o armazenamento de BLOBs, você pode usar AzCopy na linha de comando ou no PowerShell:To move data between your local files and Blob storage, you can use AzCopy on the command line or in PowerShell:

AzCopy /Source:C:\myfolder /Dest:https://<mystorageaccount>.blob.core.windows.net/<mycontainer> /DestKey:<storage account key> /Pattern:abc.txt

Substitua C:\MyFolder pelo caminho em que o arquivo está armazenado, mystorageaccount com o nome da conta de armazenamento de BLOBs, MyContainer com o nome do contêiner e a chave da conta de armazenamento com sua chave de acesso de armazenamento de BLOBs.Replace C:\myfolder with the path where your file is stored, mystorageaccount with your Blob storage account name, mycontainer with the container name, and storage account key with your Blob storage access key. Você pode encontrar suas credenciais de conta de armazenamento no portal do Azure.You can find your storage account credentials in the Azure portal.

Execute o comando AzCopy no PowerShell ou em um prompt de comando.Run the AzCopy command in PowerShell or from a command prompt. Veja alguns exemplos de uso do comando AzCopy:Here is some example usage of the AzCopy command:

# Copy *.sql from a local machine to an Azure blob
"C:\Program Files (x86)\Microsoft SDKs\Azure\AzCopy\azcopy" /Source:"c:\Aaqs\Data Science Scripts" /Dest:https://[ENTER STORAGE ACCOUNT].blob.core.windows.net/[ENTER CONTAINER] /DestKey:[ENTER STORAGE KEY] /S /Pattern:*.sql

# Copy back all files from an Azure blob container to a local machine

"C:\Program Files (x86)\Microsoft SDKs\Azure\AzCopy\azcopy" /Dest:"c:\Aaqs\Data Science Scripts\temp" /Source:https://[ENTER STORAGE ACCOUNT].blob.core.windows.net/[ENTER CONTAINER] /SourceKey:[ENTER STORAGE KEY] /S

Depois de executar o comando AzCopy para copiar para um blob do Azure, seu arquivo será exibido em Gerenciador de Armazenamento do Azure.After you run the AzCopy command to copy to an Azure blob, your file will appear in Azure Storage Explorer.

Captura de tela da conta de armazenamento, exibindo o arquivo CSV carregado

Mover dados de uma VM para um blob do Azure: Gerenciador de Armazenamento do AzureMove data from a VM to an Azure blob: Azure Storage Explorer

Você também pode carregar dados do arquivo local em sua VM usando Gerenciador de Armazenamento do Azure:You can also upload data from the local file in your VM by using Azure Storage Explorer:

  • Para carregar dados em um contêiner, selecione o contêiner de destino e selecione o botão carregar .  Captura de tela do botão carregar no Gerenciador de Armazenamento do AzureTo upload data to a container, select the target container and select the Upload button.Screenshot of the upload button in Azure Storage Explorer
  • Selecione as reticências (...) à direita da caixa arquivos , selecione um ou vários arquivos para carregar do sistema de arquivos e selecione carregar para começar a carregar os arquivos.  Captura de tela da caixa de diálogo carregar arquivosSelect the ellipsis (...) to the right of the Files box, select one or multiple files to upload from the file system, and select Upload to begin uploading the files.Screenshot of the Upload files dialog box

Ler dados de um blob do Azure: ODBC do PythonRead data from an Azure blob: Python ODBC

Você pode usar a biblioteca BlobService para ler dados diretamente de um blob em um Jupyter Notebook ou em um programa Python.You can use the BlobService library to read data directly from a blob in a Jupyter Notebook or in a Python program.

Primeiro, importe os pacotes necessários:First, import the required packages:

import pandas as pd
from pandas import Series, DataFrame
import numpy as np
import matplotlib.pyplot as plt
from time import time
import pyodbc
import os
from azure.storage.blob import BlobService
import tables
import time
import zipfile
import random

Em seguida, conecte suas credenciais de conta de armazenamento de BLOBs e leia os dados do blob:Then, plug in your Blob storage account credentials and read data from the blob:

CONTAINERNAME = 'xxx'
STORAGEACCOUNTNAME = 'xxxx'
STORAGEACCOUNTKEY = 'xxxxxxxxxxxxxxxx'
BLOBNAME = 'nyctaxidataset/nyctaxitrip/trip_data_1.csv'
localfilename = 'trip_data_1.csv'
LOCALDIRECTORY = os.getcwd()
LOCALFILE =  os.path.join(LOCALDIRECTORY, localfilename)

#download from blob
t1 = time.time()
blob_service = BlobService(account_name=STORAGEACCOUNTNAME,account_key=STORAGEACCOUNTKEY)
blob_service.get_blob_to_path(CONTAINERNAME,BLOBNAME,LOCALFILE)
t2 = time.time()
print(("It takes %s seconds to download "+BLOBNAME) % (t2 - t1))

#unzip downloaded files if needed
#with zipfile.ZipFile(ZIPPEDLOCALFILE, "r") as z:
#    z.extractall(LOCALDIRECTORY)

df1 = pd.read_csv(LOCALFILE, header=0)
df1.columns = ['medallion','hack_license','vendor_id','rate_code','store_and_fwd_flag','pickup_datetime','dropoff_datetime','passenger_count','trip_time_in_secs','trip_distance','pickup_longitude','pickup_latitude','dropoff_longitude','dropoff_latitude']
print 'the size of the data is: %d rows and  %d columns' % df1.shape

Os dados são lidos como um quadro de dados:The data is read as a data frame:

Captura de tela das primeiras 10 linhas de dados

Azure Synapse Analytics e bancos de dadosAzure Synapse Analytics and databases

O Azure Synapse Analytics é um data warehouse elástico como um serviço com uma experiência de SQL Server de classe empresarial.Azure Synapse Analytics is an elastic data warehouse as a service with an enterprise-class SQL Server experience.

Você pode provisionar o Azure Synapse Analytics seguindo as instruções neste artigo.You can provision Azure Synapse Analytics by following the instructions in this article. Depois de provisionar o Azure Synapse Analytics, você pode usar este passo a passos para fazer upload, exploração e modelagem de dados usando dados dentro do Azure Synapse Analytics.After you provision Azure Synapse Analytics, you can use this walkthrough to do data upload, exploration, and modeling by using data within Azure Synapse Analytics.

Azure Cosmos DBAzure Cosmos DB

O Azure Cosmos DB é um banco de dados NoSQL na nuvem.Azure Cosmos DB is a NoSQL database in the cloud. Você pode usá-lo para trabalhar com documentos como JSON e para armazenar e consultar os documentos.You can use it to work with documents like JSON, and to store and query the documents.

Use as seguintes etapas de pré-requisito para acessar Azure Cosmos DB do DSVM:Use the following prerequisite steps to access Azure Cosmos DB from the DSVM:

  1. O SDK do Python Azure Cosmos DB já está instalado no DSVM.The Azure Cosmos DB Python SDK is already installed on the DSVM. Para atualizá-lo, execute pip install pydocumentdb --upgrade a partir de um prompt de comando.To update it, run pip install pydocumentdb --upgrade from a command prompt.

  2. Crie uma conta de Azure Cosmos DB e um banco de dados do portal do Azure.Create an Azure Cosmos DB account and database from the Azure portal.

  3. Baixe a ferramenta de migração de dados Azure Cosmos DB do centro de download da Microsoft e extraia para um diretório de sua escolha.Download the Azure Cosmos DB Data Migration Tool from the Microsoft Download Center and extract to a directory of your choice.

  4. Importe dados JSON (dados de vulcão) armazenados em um blob público em Azure Cosmos DB com os seguintes parâmetros de comando para a ferramenta de migração.Import JSON data (volcano data) stored in a public blob into Azure Cosmos DB with the following command parameters to the migration tool. (Use dtui.exe no diretório em que você instalou a ferramenta de migração de dados do Azure Cosmos DB.) Insira a origem e o local de destino com estes parâmetros:(Use dtui.exe from the directory where you installed the Azure Cosmos DB Data Migration Tool.) Enter the source and target location with these parameters:

    /s:JsonFile /s.Files:https://data.humdata.org/dataset/a60ac839-920d-435a-bf7d-25855602699d/resource/7234d067-2d74-449a-9c61-22ae6d98d928/download/volcano.json /t:DocumentDBBulk /t.ConnectionString:AccountEndpoint=https://[DocDBAccountName].documents.azure.com:443/;AccountKey=[[KEY];Database=volcano /t.Collection:volcano1

Depois de importar os dados, você pode ir para Jupyter e abrir o notebook intitulado documentdbsample,.After you import the data, you can go to Jupyter and open the notebook titled DocumentDBSample. Ele contém código Python para acessar Azure Cosmos DB e fazer algumas consultas básicas.It contains Python code to access Azure Cosmos DB and do some basic querying. Você pode saber mais sobre Azure Cosmos DB visitando a página de documentaçãodo serviço.You can learn more about Azure Cosmos DB by visiting the service's documentation page.

Usar Power BI relatórios e painéisUse Power BI reports and dashboards

Você pode visualizar o arquivo JSON vulcão do exemplo de Azure Cosmos DB anterior no Power BI Desktop para obter informações visuais sobre os dados.You can visualize the Volcano JSON file from the preceding Azure Cosmos DB example in Power BI Desktop to gain visual insights into the data. As etapas detalhadas estão disponíveis no artigo sobre o Power BI.Detailed steps are available in the Power BI article. Aqui estão as etapas de alto nível:Here are the high-level steps:

  1. Abra o Power BI Desktop e selecione Obter dados.Open Power BI Desktop and select Get Data. Especifique a URL como: https://cahandson.blob.core.windows.net/samples/volcano.json .Specify the URL as: https://cahandson.blob.core.windows.net/samples/volcano.json.
  2. Você deve ver os registros JSON importados como uma lista.You should see the JSON records imported as a list. Converta a lista em uma tabela para que Power BI possa trabalhar com ela.Convert the list to a table so Power BI can work with it.
  3. Expanda as colunas selecionando o ícone expandir (seta).Expand the columns by selecting the expand (arrow) icon.
  4. Observe que o local é um campo de registro .Notice that the location is a Record field. Expanda o registro e selecione apenas as coordenadas.Expand the record and select only the coordinates. Coordenar é uma coluna de lista.Coordinate is a list column.
  5. Adicione uma nova coluna para converter a coluna de coordenadas da lista em uma coluna LatLong separada por vírgulas.Add a new column to convert the list coordinate column into a comma-separated LatLong column. Concatene os dois elementos no campo lista de coordenadas usando a fórmula Text.From([coordinates]{1})&","&Text.From([coordinates]{0}) .Concatenate the two elements in the coordinate list field by using the formula Text.From([coordinates]{1})&","&Text.From([coordinates]{0}).
  6. Converta a coluna de elevação em decimal e selecione os botões fechar e aplicar .Convert the Elevation column to decimal and select the Close and Apply buttons.

Em vez de etapas anteriores, você pode colar o código a seguir.Instead of preceding steps, you can paste the following code. Ele gera scripts das etapas usadas no Editor Avançado em Power BI para gravar as transformações de dados em uma linguagem de consulta.It scripts out the steps used in the Advanced Editor in Power BI to write the data transformations in a query language.

let
    Source = Json.Document(Web.Contents("https://cahandson.blob.core.windows.net/samples/volcano.json")),
    #"Converted to Table" = Table.FromList(Source, Splitter.SplitByNothing(), null, null, ExtraValues.Error),
    #"Expanded Column1" = Table.ExpandRecordColumn(#"Converted to Table", "Column1", {"Volcano Name", "Country", "Region", "Location", "Elevation", "Type", "Status", "Last Known Eruption", "id"}, {"Volcano Name", "Country", "Region", "Location", "Elevation", "Type", "Status", "Last Known Eruption", "id"}),
    #"Expanded Location" = Table.ExpandRecordColumn(#"Expanded Column1", "Location", {"coordinates"}, {"coordinates"}),
    #"Added Custom" = Table.AddColumn(#"Expanded Location", "LatLong", each Text.From([coordinates]{1})&","&Text.From([coordinates]{0})),
    #"Changed Type" = Table.TransformColumnTypes(#"Added Custom",{{"Elevation", type number}})
in
    #"Changed Type"

Agora você tem os dados no modelo de dados do Power BI.You now have the data in your Power BI data model. Sua instância de Power BI Desktop deve aparecer da seguinte maneira:Your Power BI Desktop instance should appear as follows:

Power BI Desktop

Você pode começar a criar relatórios e visualizações usando o modelo de dados.You can start building reports and visualizations by using the data model. Você pode seguir as etapas neste Power bi artigo para criar um relatório.You can follow the steps in this Power BI article to build a report.

Dimensionar o DSVM dinamicamenteScale the DSVM dynamically

Você pode escalar e reduzir verticalmente o DSVM para atender às necessidades do seu projeto.You can scale up and down the DSVM to meet your project's needs. Se você não precisar usar a VM na noite ou nos finais de semana, poderá desligar a VM do portal do Azure.If you don't need to use the VM in the evening or on weekends, you can shut down the VM from the Azure portal.

Observação

Você incorrerá em encargos de computação se usar apenas o botão de desligamento para o sistema operacional na VM.You incur compute charges if you use just the shutdown button for the operating system on the VM. Em vez disso, você deve desalocar seu DSVM usando o portal do Azure ou Cloud Shell.Instead You should deallocate your DSVM using the Azure portal or Cloud Shell.

Talvez seja necessário lidar com uma análise em larga escala e precisa de mais capacidade de CPU, memória ou disco.You might need to handle some large-scale analysis and need more CPU, memory, or disk capacity. Nesse caso, você pode encontrar uma opção de tamanhos de VM em termos de núcleos de CPU, instâncias baseadas em GPU para aprendizado profundo, capacidade de memória e tipos de disco (incluindo unidades de estado sólido) que atendam às suas necessidades de computação e orçamento.If so, you can find a choice of VM sizes in terms of CPU cores, GPU-based instances for deep learning, memory capacity, and disk types (including solid-state drives) that meet your compute and budgetary needs. A lista completa de VMs, juntamente com seus preços de computação por hora, está disponível na página de preços de máquinas virtuais do Azure .The full list of VMs, along with their hourly compute pricing, is available on the Azure Virtual Machines pricing page.

Adicionar mais ferramentasAdd more tools

As ferramentas predefinidas no DSVM podem atender a muitas necessidades comuns de análise de dados.Tools prebuilt into the DSVM can address many common data-analytics needs. Isso poupa tempo porque você não precisa instalar e configurar seus ambientes um a um.This saves you time because you don't have to install and configure your environments one by one. Ele também economiza dinheiro, pois você paga apenas pelos recursos que usa.It also saves you money, because you pay for only resources that you use.

Você pode usar outros serviços de análise e dados do Azure com o perfil criado neste artigo para aprimorar seu ambiente de análise.You can use other Azure data and analytics services profiled in this article to enhance your analytics environment. Em alguns casos, talvez você precise de ferramentas adicionais, incluindo algumas ferramentas de parceiros de propriedade.In some cases, you might need additional tools, including some proprietary partner tools. Você tem acesso administrativo total na máquina virtual para instalar novas ferramentas de que precisa.You have full administrative access on the virtual machine to install new tools that you need. Também é possível instalar pacotes adicionais no Python e no R que não foram pré-instalados.You can also install additional packages in Python and R that are not pre-installed. Para Python, você pode usar o conda ou o pip .For Python, you can use either conda or pip. Para o r, você pode usar o install.packages() no console do r ou usar o IDE e selecionar pacotes > instalar pacotes.For R, you can use install.packages() in the R console, or use the IDE and select Packages > Install Packages.

AprendizadoDeep learning

Além dos exemplos baseados em estrutura, você pode obter um conjunto de orientações abrangentes que foram validadas no DSVM.In addition to the framework-based samples, you can get a set of comprehensive walkthroughs that have been validated on the DSVM. Essas orientações ajudam a recomeçar seu desenvolvimento de aplicativos de aprendizado profundo em domínios como reconhecimento de imagem e texto/linguagem.These walkthroughs help you jump-start your development of deep-learning applications in domains like image and text/language understanding.

  • Executando redes neurais em diferentes estruturas: este passo a passos mostra como migrar o código de uma estrutura para outra.Running neural networks across different frameworks: This walkthrough shows how to migrate code from one framework to another. Ele também demonstra como comparar modelos e desempenho de tempo de execução entre estruturas.It also demonstrates how to compare models and runtime performance across frameworks.

  • Um guia de instruções para criar uma solução de ponta a ponta para detectar produtos em imagens: a detecção de imagem é uma técnica que pode localizar e classificar objetos em imagens.A how-to guide to build an end-to-end solution to detect products within images: Image detection is a technique that can locate and classify objects within images. Essa tecnologia tem o potencial de trazer enormes recompensas em muitos domínios de negócios da vida real.This technology has the potential to bring huge rewards in many real-life business domains. Por exemplo, os varejistas podem usar essa técnica para determinar qual produto um cliente retirou da prateleira.For example, retailers can use this technique to determine which product a customer has picked up from the shelf. Por sua vez, essas informações ajudam as lojas a gerenciar o estoque do produtos.This information in turn helps stores manage product inventory.

  • Aprendizado profundo de áudio: Este tutorial mostra como treinar um modelo de aprendizado profundo para detecção de eventos de áudio no conjunto de informações de sons urbanas.Deep learning for audio: This tutorial shows how to train a deep-learning model for audio event detection on the urban sounds dataset. Ele também fornece uma visão geral de como trabalhar com dados de áudio.It also provides an overview of how to work with audio data.

  • Classificação de documentos de texto: Este tutorial demonstra como criar e treinar duas arquiteturas de rede neural: rede de atenção hierárquica e LSTM (memória de longa duração curta).Classification of text documents: This walkthrough demonstrates how to build and train two neural network architectures: Hierarchical Attention Network and Long Short Term Memory (LSTM) network. Essas redes neurais usam a API Keras para aprendizagem profunda para classificar documentos de texto.These neural networks use the Keras API for deep learning to classify text documents.

ResumoSummary

Este artigo descreveu algumas das coisas que você pode fazer no Microsoft Máquina Virtual de Ciência de Dados.This article described some of the things you can do on the Microsoft Data Science Virtual Machine. Há muito mais coisas que você pode fazer para tornar o DSVM um ambiente de análise eficaz.There are many more things you can do to make the DSVM an effective analytics environment.