Importar dados para o estruturador do Azure Machine Learning

Neste artigo, vai aprender a importar os seus próprios dados no estruturador para criar soluções personalizadas. Existem duas formas de importar dados para o estruturador:

  • Conjuntos de dados do Azure Machine Learning – registe conjuntos de dados no Azure Machine Learning para ativar funcionalidades avançadas que o ajudam a gerir os seus dados.
  • Componente Importar Dados – utilize o componente Importar Dados para aceder diretamente a dados de origens de dados online.

Importante

Se não vir elementos gráficos mencionados neste documento, como botões no estúdio ou estruturador, poderá não ter o nível certo de permissões para a área de trabalho. Contacte o administrador da subscrição do Azure para verificar se lhe foi concedido o nível de acesso correto. Para obter mais informações, veja Gerir utilizadores e funções.

Utilizar conjuntos de dados do Azure Machine Learning

Recomendamos que utilize conjuntos de dados para importar dados para o estruturador. Ao registar um conjunto de dados, pode tirar o máximo partido das funcionalidades de dados avançadas, como controlo de versões e monitorização de dados.

Registar um conjunto de dados

Pode registar conjuntos de dados existentes programaticamente com o SDK ou visualmente no estúdio do Azure Machine Learning.

Também pode registar a saída de qualquer componente de estruturador como um conjunto de dados.

  1. Selecione o componente que produz os dados que pretende registar.

  2. No painel de propriedades, selecione Saídas + registos>Registar conjunto de dados.

    Captura de ecrã a mostrar como navegar para a opção Registar Conjunto de Dados

Se os dados de saída do componente estiverem num formato tabular, tem de optar por registar a saída como um conjunto de dados de ficheiros ou um conjunto de dados tabular.

  • O conjunto de dados de ficheiros regista a pasta de saída do componente como um conjunto de dados de ficheiros. A pasta de saída contém um ficheiro de dados e metaficheiro que o estruturador utiliza internamente. Selecione esta opção se quiser continuar a utilizar o conjunto de dados registado no estruturador.

  • O conjunto de dados tabular regista apenas o ficheiro de dados de saída do componente como um conjunto de dados tabular. Este formato é facilmente consumido por outras ferramentas, por exemplo, no Machine Learning Automatizado ou no SDK Python. Selecione esta opção se planear utilizar o conjunto de dados registado fora do estruturador.

Utilizar um conjunto de dados

Os conjuntos de dados registados podem ser encontrados na paleta de componentes, em Conjuntos de dados. Para utilizar um conjunto de dados, arraste-o e largue-o na tela do pipeline. Em seguida, ligue a porta de saída do conjunto de dados a outros componentes na tela.

Se registar um conjunto de dados de ficheiros, o tipo de porta de saída do conjunto de dados é AnyDirectory. Se registar um conjunto de dados Tabular, o tipo de porta de saída do conjunto de dados, se DataFrameDirectory. Tenha em atenção que, se ligar a porta de saída do conjunto de dados a outros componentes no estruturador, o tipo de porta de conjuntos de dados e componentes tem de estar alinhado.

Captura de ecrã a mostrar a localização dos conjuntos de dados guardados na paleta do estruturador

Nota

O estruturador suporta o controlo de versões de conjuntos de dados. Especifique a versão do conjunto de dados no painel de propriedades do componente do conjunto de dados.

Limitações

  • Atualmente, só pode visualizar o conjunto de dados tabular no estruturador. Se registar um conjunto de dados de ficheiros fora do estruturador, não poderá visualizá-lo na tela do estruturador.
  • Atualmente, o estruturador só suporta saídas de pré-visualização armazenadas no armazenamento de blobs do Azure. Pode verificar e alterar o arquivo de dados de saída no separador Definições de saída , no separador Parâmetros , no painel direito do componente.
  • Se os dados estiverem armazenados na rede virtual (VNet) e quiser pré-visualizar, terá de ativar a identidade gerida da área de trabalho do arquivo de dados.
    1. Aceda ao arquivo de dados relacionado e clique em Atualizar Credenciais de Atualização de Autenticação
    2. Selecione Sim para ativar a identidade gerida da área de trabalho. Ativar a Identidade Gerida da Área de Trabalho

Importar dados com o componente Importar Dados

Embora recomendemos que utilize conjuntos de dados para importar dados, também pode utilizar o componente Importar Dados . O componente Importar Dados ignora o registo do conjunto de dados no Azure Machine Learning e importa dados diretamente a partir de um arquivo de dados ou URL HTTP.

Para obter informações detalhadas sobre como utilizar o componente Importar Dados, veja a página De referência Importar Dados.

Nota

Se o conjunto de dados tiver demasiadas colunas, poderá encontrar o seguinte erro: "A validação falhou devido à limitação de tamanho". Para evitar esta situação, registe o conjunto de dados na interface conjuntos de dados.

Origens suportadas

Esta secção lista as origens de dados suportadas pelo estruturador. Os dados entram no estruturador a partir de um arquivo de dados ou de um conjunto de dados tabular.

Origens de arquivos de dados

Para obter uma lista de origens de arquivos de dados suportadas, veja Aceder a dados nos serviços de armazenamento do Azure.

Origens de conjuntos de dados tabulares

O estruturador suporta conjuntos de dados tabulares criados a partir das seguintes origens:

  • Ficheiros delimitados
  • Ficheiros JSON
  • Ficheiros Parquet
  • Consultas SQL

Tipos de dados

O estruturador reconhece internamente os seguintes tipos de dados:

  • String
  • Número inteiro
  • Decimal
  • Booleano
  • Date

O estruturador utiliza um tipo de dados interno para transmitir dados entre componentes. Pode converter explicitamente os seus dados em formato de tabela de dados com o componente Converter em Conjunto de Dados . Qualquer componente que aceite formatos diferentes do formato interno irá converter os dados automaticamente antes de os transmitir para o componente seguinte.

Restrições de dados

Os módulos no estruturador estão limitados pelo tamanho do destino de computação. Para conjuntos de dados maiores, deve utilizar um recurso de computação do Azure Machine Learning maior. Para obter mais informações sobre a computação do Azure Machine Learning, veja O que são os destinos de computação no Azure Machine Learning?

Aceder a dados numa rede virtual

Se a área de trabalho estiver numa rede virtual, tem de executar passos de configuração adicionais para visualizar os dados no estruturador. Para obter mais informações sobre como utilizar arquivos de dados e conjuntos de dados numa rede virtual, veja Utilizar estúdio do Azure Machine Learning numa rede virtual do Azure.

Passos seguintes

Aprenda as noções básicas do estruturador com este Tutorial: Prever o preço do automóvel com o estruturador.