Importar o módulo de dados

Este artigo descreve um módulo no designer do Azure Machine Learning.

Use este módulo para carregar dados em um pipeline de aprendizado de máquina de serviços de dados em nuvem existentes.

Observação

Toda a funcionalidade fornecida por esse módulo pode ser feita pelo armazenamento de dados e conjuntos de dados na página de aterrissagem do workspace. É recomendável que você use o armazenamento de dados e o conjunto de dados, que incluem recursos adicionais, como o monitoramento de dados. Para obter mais informações, confira o artigo Como acessar dados e Como registrar conjuntos de dados. Depois de registrar um conjunto de dados, você pode encontrá-lo na categoria Conjuntos de Dados -> Meus Conjuntos de Dados na interface do designer. Este módulo é reservado para usuários do Studio (clássico) para uma experiência familiar.

O módulo Importar Dados dá suporte à leitura de dados das seguintes fontes:

  • URL via HTTP
  • Armazenamentos em nuvem do Azure por meio de armazenamentos de dados
    • Contêiner de Blobs do Azure
    • Compartilhamento de Arquivo do Azure
    • Azure Data Lake
    • Azure Data Lake Gen2
    • Banco de Dados SQL do Azure
    • PostgreSQL do Azure

Antes de usar o armazenamento em nuvem, você precisa primeiro registrar um armazenamento de dados no workspace do Azure Machine Learning. Para obter mais informações, confira Como acessar dados.

Depois de definir os dados desejados e conectar-se à fonte, Importar Dados infere o tipo de dados de cada coluna com base nos valores que ela contém e carrega os dados em seu pipeline do designer. A saída de Importar Dados é um conjunto de dados que pode ser usado com qualquer pipeline de designer.

Se os dados de origem forem alterados, você poderá atualizar o conjunto de dados e adicionar novos dados executando Importar Dados novamente.

Aviso

Se o workspace estiver em uma rede virtual, você precisará configurar seus armazenamentos de dados para usar os recursos de visualização de dados do designer. Para obter mais informações sobre como usar armazenamentos de dados e conjuntos de dados em uma rede virtual, confira Usar o Estúdio do Azure Machine Learning em uma rede virtual do Azure.

Como configurar Importar Dados

  1. Adicione o módulo Importar Dados ao pipeline. Você pode encontrar esse módulo na categoria Entrada e Saída de Dados do designer.

  2. Selecione o módulo para abrir o painel direito.

  3. Selecione Fonte de dados e escolha o tipo da fonte de dados. Pode ser HTTP ou armazenamento de dados.

    Se você escolher armazenamento de dados, poderá selecionar os armazenamentos de dados existentes que já estão registrados em seu workspace do Azure Machine Learning ou criar um armazenamento de dados. Em seguida, defina o caminho dos dados a serem importados no armazenamento de dados. Você pode navegar facilmente pelo caminho clicando em Procurar Caminho Captura de tela que mostra o link Procurar caminho, que abre a caixa de diálogo Seleção de caminho.

    Observação

    O módulo Importar Dados destina-se somente a dados tabulares. Se você quiser importar vários arquivos de dados de tabela de uma vez, isso exigirá as seguintes condições para que não ocorram erros:

    1. Para incluir todos os arquivos de dados na pasta, você precisa inserir folder_name/** para Caminho.
    2. Todos os arquivos de dados precisam ser codificados em Unicode-8.
    3. Todos os arquivos de dados precisam ter os mesmos números de coluna e nomes de coluna.
    4. O resultado da importação de vários arquivos de dados é a concatenação de todas as linhas de vários arquivos na ordem.
  4. Selecione o esquema de visualização para filtrar as colunas que você deseja incluir. Você também pode definir configurações avançadas como Delimitador nas Opções de análise.

    import-data-preview

  5. A caixa de seleção Regenerar saída decide se o módulo deve ou não ser executado para regenerar a saída em tempo de execução.

    Ela fica desmarcada por padrão, o que significa que, se o módulo tiver sido executado com os mesmos parâmetros anteriormente, o sistema reutilizará a saída da última execução para reduzir o tempo de execução.

    Se ela for selecionada, o sistema executará o módulo novamente para regenerar a saída. Portanto, selecione essa opção quando os dados subjacentes no armazenamento forem atualizados; isso poderá ajudar na obtenção dos dados mais recentes.

  6. Envie o pipeline.

    Quando os dados de importação carregam os dados no designer, ele infere o tipo de dados de cada coluna com base nos valores que ele contém, numéricos ou categóricos.

    Se houver um cabeçalho, ele será usado para nomear as colunas do conjunto de dados de saída.

    Se não houver nenhum cabeçalho de coluna existente nos dados, novos nomes de coluna serão gerados usando o formato col1, col2,… , coln*.

Resultados

Quando a importação for concluída, clique com o botão direito do mouse no conjunto de dados de saída e selecione Visualizar para ver se os dados foram importados com êxito.

Se você quiser salvar os dados para reutilização, em vez de importar um novo conjunto de dados cada vez que o pipeline for executado, selecione o ícone Registrar conjunto de dados na guia Saídas + logs no painel direito do módulo. Escolha um nome para o conjunto de dados. O conjunto de dados salvo preserva os dados como estavam no momento em que foram salvos. O conjunto de dados não é atualizado quando o pipeline é executado novamente, mesmo que o conjunto de dados no pipeline seja alterado. Isso pode ser útil para tirar instantâneos de dados.

Depois de importar os dados, talvez sejam necessários alguns preparativos adicionais para modelagem e análise:

  • Use Editar Metadados para alterar nomes de coluna, para manipular uma coluna como um tipo de dados diferente ou para indicar que algumas colunas são rótulos ou recursos.

  • Use Selecionar Colunas no Conjunto de Dados para selecionar um subconjunto de colunas a serem transformadas ou usadas na modelagem. As colunas transformadas ou removidas podem ser facilmente reassociadas ao conjunto de dados original usando o módulo Adicionar Colunas.

  • Use Particionar e Realizar Amostragem para dividir o conjunto de dados, executar amostragem ou obter as n primeiras linhas.

Limitações

Devido à limitação de acesso do armazenamento de dados, se o pipeline de inferência contiver o módulo Importar Dados, ele será removido automaticamente quando for implantado no ponto de extremidade em tempo real.

Próximas etapas

Confira o conjunto de módulos disponíveis no Azure Machine Learning.