Importar de provedores de feed de dados

Este artigo descreve como usar o módulo importar dados no Azure Machine Learning Studio (clássico) para importar dados fornecidos no formato OData para um experimento do Machine Learning.

Observação

Aplica-se a: Machine Learning Studio (clássico)

Esse conteúdo pertence apenas ao estúdio (clássico). Módulos de arrastar e soltar semelhantes foram adicionados ao designer de Azure Machine Learning. Saiba mais neste artigo comparando as duas versões.

Criar um ponto de extremidade OData para um conjunto de dados é uma maneira de disponibilizar um modelo de dados para consumo via URL. Você também pode especificar a quais operações OData o ponto de extremidade dará suporte. Para obter mais informações sobre como criar Odata pontos de extremidade, consulte OData v4 (ASP.net).

Como importar dados de um feed

É altamente recomendável que você crie o perfil de seus dados antes de importar, para certificar-se de que o esquema está conforme o esperado. O processo de importação examina um número de linhas de cabeçalho para determinar o esquema, mas as linhas posteriores podem conter colunas extras ou dados que causam erros.

Usar o assistente de importação de dados

O módulo apresenta um novo assistente para ajudá-lo a escolher uma opção de armazenamento. Use o assistente para selecionar entre as contas e assinaturas existentes e configure rapidamente todas as opções.

  1. Adicione o módulo importar dados ao seu experimento. Você pode encontrar o módulo no Studio (clássico), na categoria entrada e saída de dados .

  2. Clique em Iniciar assistente de importação de dados e siga os prompts.

  3. Quando a configuração estiver concluída, para realmente copiar os dados em seu experimento, clique com o botão direito do mouse no módulo e selecione executar selecionado.

Se você precisar editar uma conexão de dados existente, o assistente carregará todos os detalhes de configuração anteriores para que você não precise iniciar novamente do zero.

Definir manualmente as propriedades no módulo importar dados

Você também pode configurar manualmente a origem da importação.

  1. Adicione o módulo importar dados ao seu experimento. Você pode encontrar esse módulo no Studio (clássico), na categoria entrada e saída de dados .

  2. Para fonte de dados, selecione provedor de feed de dados.

  3. Para tipo de conteúdo de dados, selecione o tipo de feed. Atualmente, somente os pontos de extremidade OData têm suporte.

  4. Para URL de origem, Cole a URL de um site que fornece dados no formato necessário.

    Por exemplo, a instrução a seguir obtém a lista de produtos do banco de dados de exemplo Northwind:

    https://services.odata.org/northwind/northwind.svc/Products

    Para obter mais informações, consulte sintaxe do OData.

  5. Selecione a opção usar resultados em cache se você não precisar carregar os dados novamente após a primeira vez. Essa é uma boa opção se os dados não devem ser alterados entre as execuções do experimento.

    Se não houver nenhuma outra alteração nos parâmetros do módulo, o experimento carregará os dados na primeira vez em que o módulo for executado e depois usará uma versão armazenada em cache do DataSet.

    Se você precisar atualizar os dados regularmente, desmarque essa opção.

  6. Execute o experimento.

Resultados

Ao concluir, clique no conjunto de dados de saída e selecione Visualizar para ver se os dados foram importados com êxito.

Quando os dados de importação carregam os dados do feed para o Studio (clássico), ele infere o tipo de dados de cada coluna com base nos valores que ele contém, numéricos ou categóricos.

  • Se houver um cabeçalho, ele será usado para nomear as colunas do conjunto de dados de saída.

  • Se não houver nenhum cabeçalho de coluna existente nos dados, novos nomes de coluna serão gerados usando o formato col1, col2,… ,coln .

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Sintaxe do OData

A consulta deve retornar uma tabela simples. Não há suporte para o nivelamento de registros OData aninhados.

Algumas colunas incluídas em feeds OData podem ter tipos de dados que não têm suporte no Studio (clássico), como decimais. Você pode ingerir os dados como cadeias de caracteres e convertê-los mais tarde usando os módulos Executar script R ou Editor de metadados .

Para obter mais informações sobre sintaxe e URLs do OData, consulte convenções OData.org-URI

Perguntas comuns

Posso filtrar os dados conforme eles estão sendo lidos da origem?

O módulo importar dados geralmente não dá suporte à filtragem, pois os dados estão sendo lidos. No entanto, você pode especificar uma condição de filtro como parte da URL do recurso de feed.

Para filtrar dados do feed, use as instruções suportadas pelo protocolo OData. Por exemplo, essa URL usa a $filter expressão para obter somente os pedidos relacionados ao funcionário com a ID igual a 1.

https://services.odata.org/Northwind/Northwind.svc/Orders?$filter=Employee/EmployeeID eq 1

Para obter mais exemplos de sintaxe de filtro, consulte usando expressões de filtro em URIs OData.

Como alternativa, você pode obter todos os dados e filtrá-los depois de carregá-los em Azure Machine Learning Studio (clássico):

  • Use um script R personalizado para obter apenas os dados desejados.

  • Use o módulo dividir dados com uma expressão relativa ou uma expressão regular para isolar os dados desejados e, em seguida, salve-o como um DataSet.

Observação

Se você achar que você carregou dados mais do que o necessário, você pode substituir o conjunto de dados em cache lendo um novo conjunto de dados e salvando-o com o mesmo nome que os dados mais antigos e maiores.

Obtenho o erro, as credenciais são necessárias para conectar-se à fonte OData. Atualize e forneça credenciais para continuar. Como posso fornecer credenciais? * *

O módulo importar dados oferece suporte apenas a pontos de extremidade OData com acesso anônimo. Se o serviço OData exigir credenciais, você não poderá usar a opção OData para obter os dados.

No entanto, se o serviço estiver no mesmo domínio, a autenticação pode ocasionalmente acontecer automaticamente sem nenhuma entrada do usuário.

Como alternativa, você pode usar o PowerQuery ou o PowerPivot para ler dados de feed e obter os dados do Excel.

Como posso evitar a recarga dos mesmos dados desnecessariamente?

Se os dados de origem forem alterados, você poderá atualizar o conjunto de dados e adicionar novos dado executando novamente os dados de importação. No entanto, se você não quiser ler novamente a origem toda vez que executar o experimento, selecione a opção usar resultados em cache para verdadeiro. Quando essa opção for definida como TRUE, o módulo verificará se o experimento foi executado anteriormente usando a mesma origem e as mesmas opções de entrada, e se uma execução anterior for encontrada, os dados no cache serão usados, em vez de recarregar os dados da origem.

Por que recebo uma mensagem de erro "o tipo decimal não tem suporte"?

decimalNão há suporte para o tipo de dados em Azure Machine Learning. O motivo é que os dados de importação não podem executar automaticamente qualquer conversões que resultem em uma perda de precisão.

Para obter mais informações sobre os tipos de dados com suporte, consulte tipos de dados de módulo.

Como alternativa, você pode ler os dados como um tipo de dados de cadeia de caracteres e, em seguida, usar Editar metadados para converter os decimais para os dados com suporte antes de ler os dados.

Por que alguns caracteres no feed não são exibidos corretamente?

Azure Machine Learning dá suporte à codificação UTF-8. Se sua fonte usar outro tipo de codificação, os caracteres podem não ser importados corretamente.

Como alternativa, você pode salvar os dados em um arquivo CSV no armazenamento de tabelas do Azure ou no armazenamento de BLOBs do Azure. Em seguida, use a opção CSV com codificação para especificar parâmetros para delimitadores personalizados, a página de código e assim por diante.

Parâmetros do módulo

Name Intervalo Type Padrão Descrição
Fonte de dados Lista Fonte de dados ou coletor Armazenamento do Blobs do Azure A fonte de dados pode ser HTTP, FTP, HTTPS anônimo ou FTPS, um arquivo no armazenamento de BLOBs do Azure, uma tabela do Azure, um banco de dados SQL do Azure, um banco de dados SQL Server local, uma tabela Hive ou um ponto de extremidade OData.
Tipo de conteúdo de dados Lista (subconjunto) Conteúdo da URL OData Tipo de formato de dado
URL de origem any String URL para Power Query fonte de dados
Usar resultados em cache TRUE/FALSE Boolean FALSE descrição

Saídas

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados Conjunto de dados com dados baixados

Exceções

Exceção Descrição
Erro 0003 Ocorrerá uma exceção se uma ou mais das entradas forem nulas ou estiverem vazias.
Erro 0029 Ocorrerá uma exceção quando um URI inválido for passado.
Erro 0030 ocorrerá uma exceção quando não for possível baixar um arquivo.
Erro 0002 Ocorrerá uma exceção se um ou mais parâmetros não puderem ser analisados ou convertidos do tipo especificado para o tipo exigido pelo método de destino.

Para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.

Para obter uma lista de exceções de API, consulte Machine Learning códigos de erro da API REST.

Consulte também

Importar dados
Exportar dados
Importar da URL da Web via HTTP
Importar da consulta do hive
Importar do banco de dados SQL do Azure
Importar da tabela do Azure
Importar do armazenamento de BLOBs do Azure
Importar de um Banco de dados do SQL Server local