Share via


Migrar um conjunto de dados do Estúdio (clássico) para o Azure Machine Learning

Importante

O suporte para o Azure Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. Recomendamos que você faça a transição para o Azure Machine Learning até essa data.

Desde 1º de dezembro de 2021, não é possível criar recursos (workspace e plano do serviço Web) do Azure Machine Learning Studio (clássico). Até 31 de agosto de 2024, você poderá continuar usando os experimentos e os serviços Web existentes do Machine Learning Studio (clássico). Para saber mais, veja:

A documentação do Machine Learning Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Neste artigo, você aprenderá a migrar um conjunto de dados do Estúdio (clássico) para o Azure Machine Learning. Veja mais informações sobre a migração do Estúdio (clássico) no artigo de visão geral da migração.

Você tem três opções para migrar um conjunto de dados para o Azure Machine Learning. Leia cada seção para determinar a melhor opção para sua situação.

Onde estão os dados? Opção de migração
No Estúdio (clássico) Opção 1: baixar o conjunto de dados do Estúdio (clássico) e carregá-lo no Azure Machine Learning.
Armazenamento em nuvem Opção 2: registrar um conjunto de dados de uma fonte na nuvem.

Opção 3: usar o módulo Importar Dados para obter dados de uma fonte na nuvem.

Observação

O Azure Machine Learning também dá suporte para fluxos de trabalho com foco em código para criar e gerenciar conjuntos de dados.

Pré-requisitos

Baixar o conjunto de dados do Estúdio (clássico)

A maneira mais simples de migrar um conjunto de dados do Estúdio (clássico) para o Azure Machine Learning é baixá-lo e registrá-lo no Azure Machine Learning. Assim, uma cópia do conjunto de dados é criada e carregada no armazenamento de dados do Azure Machine Learning.

Você pode baixar diretamente os tipos de conjuntos de dados do Estúdio (clássico) a seguir.

  • Texto sem formatação (.txt)
  • Valores separados por vírgulas (CSV) com cabeçalho (.csv) ou sem (.nh.csv)
  • Valores separados por tabulação (TSV) com cabeçalho (.tsv) ou sem (.nh.tsv)
  • Arquivo do Excel
  • Arquivo zip (.zip)

Para baixar conjuntos de dados diretamente:

  1. Vá para seu workspace do Estúdio (clássico) (https://studio.azureml.net).

  2. Na barra de navegação à esquerda, selecione a guia Conjuntos de dados.

  3. Selecione os conjuntos de dados que você quer baixar.

  4. Na barra de ação inferior, selecione Baixar.

    AScreenshot showing how to download a dataset in Studio (classic).

Para os tipos de dados a seguir, você deve usar o módulo Converter para CSV para baixar os conjuntos de dados.

  • Dados de SVMLight (.svmlight)
  • Dados de ARFF (Attribute Relation File Format) (.arff)
  • Arquivo de workspace ou objeto R (.RData)
  • Tipo de conjunto de dados (.data). O tipo de conjunto de dados é o tipo de dados interno do Estúdio (clássico) para a saída do módulo.

Para converter o conjunto de dados em um CSV e baixar os resultados:

  1. Vá para seu workspace do Estúdio (clássico) (https://studio.azureml.net).

  2. Criar um novo teste.

  3. Arraste e solte o conjunto de dados que você deseja baixar na tela.

  4. Adicione um módulo Converter em CSV.

  5. Conecte a porta de entrada de Converter em CSV à porta de saída do conjunto de dados.

  6. Execute o experimento.

  7. Clique com o botão direito do mouse no módulo Converter em CSV.

  8. Selecione Conjuntos de dados de resultados>Baixar.

    Screenshot showing how to setup a convert to CSV pipeline.

Carregar o conjunto de dados no Azure Machine Learning

Depois de baixar o arquivo de dados, você pode registrá-lo como um ativo de dados no Azure Machine Learning:

  1. Navegue até o estúdio do Azure Machine Learning

  2. Em Ativos no menu de navegação à esquerda, selecione Dados. Na guia Ativos de dados, selecione Criar Screenshot highlights Create in the Data assets tab.

  3. Dê um nome ao ativo de dados e uma descrição opcional. Em seguida, selecione a opção Tabular em Tipo, na seção Tipos de conjunto de dados da lista suspensa.

    Observação

    Você também pode carregar arquivos ZIP como ativos de dados. Para carregar um arquivo ZIP, selecione Arquivo para Tipo, na seção Tipos de conjunto de dados da lista suspensa. Screenshot shows data asset source choices.

  4. Para a fonte de dados, selecione a opção "De arquivos locais" para carregar seu conjunto de dados.

  5. Para seleção de arquivo, escolha primeiro onde deseja que seus dados sejam armazenados no Azure. Você selecionará um armazenamento de dados do Azure Machine Learning. Para obter mais informações sobre armazenamentos de dados, confira Conectar aos serviços de armazenamento. Em seguida, carregue o conjunto de dados que você baixou anteriormente.

  6. Siga as etapas para definir as configurações de análise de dados e o esquema do ativo de dados.

  7. Depois de chegar à etapa de Revisão, clique em Criar na última página

Importar dados de fontes na nuvem

Se os dados já estão em um serviço de armazenamento em nuvem e você quer mantê-los na localização nativa. Você pode usar uma das seguintes opções:

Método de ingestão Descrição
Registrar um conjunto de dados do Azure Machine Learning Ingerir dados de fontes de dados locais e online (blob, ADLS Gen1, ADLS Gen2, compartilhamento de arquivo, banco de dados SQL).

Cria uma referência à fonte de dados, que é avaliada lentamente no runtime. Use essa opção se você acessa o conjunto de dados repetidamente e deseja habilitar recursos avançados, como controle de versão e monitoramento de dados.
Importar o módulo de dados Ingerir dados de fontes de dados online (blob, ADLS Gen1, ADLS Gen2, compartilhamento de arquivo, banco de dados SQL).

O conjunto de dados só é importado para a execução de pipeline atual do designer.

Observação

Os usuários do Estúdio (clássico) devem observar que as seguintes fontes na nuvem não têm suporte nativo no Azure Machine Learning:

  • Consulta de Hive
  • tabela do Azure
  • Azure Cosmos DB
  • Banco de Dados SQL local

Recomendamos que os usuários migrem os dados para um serviço de armazenamento com suporte usando o Azure Data Factory.

Registrar um conjunto de dados do Azure Machine Learning

Use as seguintes etapas para registrar um conjunto de dados de um serviço de nuvem no Azure Machine Learning:

  1. Crie um armazenamento de dados, que vincula o serviço de armazenamento em nuvem ao seu workspace do Azure Machine Learning.

  2. Registrar um conjunto de dados. Se você está migrando um conjunto de dados do Estúdio (clássico), selecione a configuração Tabular.

Depois de registrar o conjunto de dados no Azure Machine Learning, você pode usá-lo no designer:

  1. Crie um rascunho de pipeline do designer.
  2. Na paleta de módulos à esquerda, expanda a seção Conjunto de dados.
  3. Arraste o conjunto de dados para a tela.

Usar o módulo Importar Dados

Use as seguintes etapas para importar dados diretamente para o pipeline do designer:

  1. Crie um armazenamento de dados, que vincula o serviço de armazenamento em nuvem ao seu workspace do Azure Machine Learning.

Depois de criar o armazenamento de dados, você pode usar o módulo Importar Dados do designer para ingerir dados dele:

  1. Crie um rascunho de pipeline do designer.
  2. Na paleta de módulos à esquerda, encontre o módulo Importar Dados e arraste-o para a tela.
  3. Selecione o módulo Importar Dados e use as configurações no painel direito para configurar a fonte de dados.

Próximas etapas

Neste artigo, você aprendeu a migrar um conjunto de dados do Estúdio (clássico) para o Azure Machine Learning. A próxima etapa é recompilar um pipeline de treinamento do Estúdio (clássico).

Confira os outros artigos da série de migração do Estúdio (clássico):

  1. Visão geral da migração.
  2. Migrar conjuntos de dados.
  3. Recompilar um pipeline de treinamento do Estúdio (clássico).
  4. Recompilar um serviço Web do Studio (clássico).
  5. Integrar um serviço Web do Azure Machine Learning a aplicativos cliente.
  6. Migrar módulos Executar Script R.