Importação de Fornecedores de Feed de Dados

Este artigo descreve como usar o módulo de Dados de Importação no Azure Machine Learning Studio (clássico), para importar dados fornecidos no formato OData numa experiência de machine learning.

Nota

Aplica-se a: Machine Learning Studio (clássico)

Este conteúdo diz respeito apenas ao Studio (clássico). Módulos semelhantes de arrasto e queda foram adicionados ao designer de Aprendizagem automática Azure. Saiba mais neste artigo comparando as duas versões.

Criar um ponto final OData para um conjunto de dados é uma forma de disponibilizar um modelo de dados para consumo via URL. Também pode especificar quais as operações OData que o ponto final irá suportar. Para obter mais informações sobre a criação Odata de pontos finais, consulte OData v4 (ASP.NET).

Como importar dados a partir de um alimento

Recomendamos vivamente que perfile os seus dados antes de importar, para garantir que o esquema é o esperado. O processo de importação digitaliza alguns números de linhas de cabeça para determinar o esquema, mas linhas posteriores podem conter colunas extras, ou dados que causam erros.

Utilize o assistente de importação de dados

O módulo apresenta um novo assistente para o ajudar a escolher uma opção de armazenamento. Utilize o assistente para selecionar entre as subscrições e contas existentes e configurar rapidamente todas as opções.

  1. Adicione o módulo de Dados de Importação à sua experiência. Pode encontrar o módulo em Estúdio (clássico), na categoria Entrada e Saída de Dados.

  2. Clique em Lançar O Assistente de Dados de Importação e siga as indicações.

  3. Quando a configuração estiver concluída, para copiar os dados na sua experiência, clique com o botão direito no módulo e selecione Executar Selecionado.

Se necessitar de editar uma ligação de dados existente, o assistente carrega todos os detalhes de configuração anteriores para que não tenha de recomeçar do zero.

Definir manualmente propriedades no módulo de dados de importação

Também pode configurar manualmente a fonte de importação.

  1. Adicione o módulo de Dados de Importação à sua experiência. Pode encontrar este módulo em Studio (clássico), na categoria Entrada e Saída de Dados.

  2. Para obter informações, selecione Data Feed Provider.

  3. Para o tipo de conteúdo de dados, selecione o tipo de feed. Atualmente apenas os pontos finais OData são suportados.

  4. Para URL de origem, cole o URL de um site que fornece dados no formato necessário.

    Por exemplo, a seguinte declaração obtém a lista de produtos da base de dados da amostra northwind:

    https://services.odata.org/northwind/northwind.svc/Products

    Para obter mais informações, consulte a sintaxe OData.

  5. Selecione a opção de resultados em cache Utilizar se não precisar de reessarcar os dados após a primeira vez. Esta é uma boa opção se não se espera que os dados mudem entre as execuções da experiência.

    Se não houver outras alterações nos parâmetros do módulo, a experiência carrega os dados na primeira vez que o módulo é executado, e depois utiliza uma versão em cache do conjunto de dados.

    Se precisar de atualizar regularmente os dados, desmarca esta opção.

  6. Execute a experimentação.

Resultados

Quando estiver concluído, clique no conjunto de dados de saída e selecione Visualize para ver se os dados foram importados com sucesso.

Quando os Dados de Importação carregam os dados de alimentação em Studio (clássico), infere o tipo de dados de cada coluna com base nos valores que contém, numéricos ou categóricos.

  • Se estiver presente um cabeçalho, o cabeçalho é utilizado para nomear as colunas do conjunto de dados de saída.

  • Se não existirem cabeçalhos de coluna existentes nos dados, novos nomes de colunas são gerados utilizando o formato col1, col2,… ,coln .

Notas técnicas

Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.

Sintaxe OData

A consulta deve devolver uma mesa plana. Os registos OData aninhados não são suportados.

Algumas colunas incluídas nos feeds OData podem ter tipos de dados que não são suportados no Studio (clássico), como decimais. Pode ingerir os dados como cordas e convertê-los mais tarde utilizando os módulos Execut R Script ou Metadados Editor.

Para obter mais informações sobre sintaxe OData e URLs, consulte Odata.org - convenções uri

Perguntas comuns

Posso filtrar os dados como está a ser lido pela fonte?

O módulo de Dados de Importação geralmente não suporta a filtragem à medida que os dados estão a ser lidos. No entanto, pode especificar uma condição de filtro como parte do URL do recurso de alimentação.

Para filtrar os dados do feed, utilize declarações suportadas pelo protocolo OData. Por exemplo, este URL usa a $filter expressão para obter apenas as encomendas relacionadas com o empregado com ID igual a 1.

https://services.odata.org/Northwind/Northwind.svc/Orders?$filter=Employee/EmployeeID eq 1

Para obter mais exemplos de sintaxe de filtro, consulte utilizando expressões de filtro em OData URIs.

Em alternativa, pode obter todos os dados e filtre-os depois de os colocar no Azure Machine Learning Studio (clássico):

  • Use um script R personalizado para obter apenas os dados que deseja.

  • Utilize o módulo Dados Divididos com uma expressão relativa ou uma expressão regular para isolar os dados que pretende e, em seguida, guarde-os como conjunto de dados.

Nota

Se descobrir que carregou mais dados do que o necessário, pode substituir o conjunto de dados em cache lendo um novo conjunto de dados e guardá-lo com o mesmo nome que os dados mais antigos e maiores.

Eu percebo o erro, as credenciais são necessárias para ligar à fonte OData. Por favor, refresque e forneça credenciais para continuar. Como posso fornecer credenciais?**

O módulo Dados de Importação suporta apenas pontos finais OData com acesso anónimo. Se o serviço OData necessitar de credenciais, não é possível utilizar a opção OData para obter os dados.

No entanto, se o serviço estiver no mesmo domínio, a autenticação pode por vezes acontecer automaticamente sem qualquer entrada do utilizador.

Como solução alternativa, pode utilizar o PowerQuery ou o PowerPivot para ler dados de feed e, em seguida, obter os dados do Excel.

Como posso evitar reessarcar os mesmos dados desnecessariamente?

Se os dados de origem alterarem, pode atualizar o conjunto de dados e adicionar novos dados re-executando dados de importação. No entanto, se não quiser relê-lo a partir da fonte cada vez que executar a experiência, selecione a opção de resultados em cache utilizar para TRUE. Quando esta opção for definida para TRUE, o módulo verificará se a experiência foi executada anteriormente utilizando a mesma fonte e as mesmas opções de entrada, e se for encontrada uma execução anterior, os dados na cache são utilizados, em vez de rereserva os dados da fonte.

Por que recebo uma mensagem de erro "Type Decimal não é suportado"?

O decimal tipo de dados não é suportado no Azure Machine Learning. A razão é que os Dados de Importação não podem efetuar automaticamente quaisquer conversões que resultem numa perda de precisão.

Para obter mais informações sobre tipos de dados suportados, consulte os Tipos de Dados do Módulo.

Como uma solução alternativa, pode ler os dados como um tipo de dados de cadeia e, em seguida, usar Editar Metadados para converter os decimais em dados suportados antes de ler os dados.

Porque é que alguns caracteres no feed não são exibidos corretamente?

A Azure Machine Learning suporta a codificação UTF-8. Se a sua fonte utilizar outro tipo de codificação, os caracteres podem não ser importados corretamente.

Como solução alternativa, pode guardar os dados para um ficheiro CSV no armazenamento da mesa Azure ou no armazenamento de blob Azure. Em seguida, utilize a opção CSV com codificação para especificar parâmetros para delimiters personalizados, a página de código, e assim por diante.

Parâmetros do módulo

Nome Intervalo Tipo Predefinição Descrição
Origem de dados Lista Fonte de dados ou pia Armazenamento de Blobs do Azure A fonte de dados pode ser HTTP, FTP, HTTPS anónimo ou FTPS, um ficheiro no armazenamento Azure BLOB, uma tabela Azure, uma Base de Dados Azure SQL, uma base de dados sql server no local, uma tabela Hive ou um ponto final OData.
Tipo de conteúdo de dados Lista (subconjunto) Conteúdo de url OData Tipo de formato de dados
URL de origem qualquer String URL para fonte de dados de consulta de energia
Use resultados em cache VERDADEIRO/FALSO Booleano FALSE descrição

Saídas

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados Dataset com dados descarregados

Exceções

Exceção Descrição
Erro 0003 Uma exceção ocorre se uma ou mais entradas forem nulas ou vazias.
Erro 0029 Uma exceção ocorre quando um URI inválido é passado.
Erro 0030 uma exceção ocorre quando não é possível descarregar um ficheiro.
Erro 0002 Uma exceção ocorre se um ou mais parâmetros não puderem ser analisados ou convertidos do tipo especificado para o tipo exigido pelo método-alvo.

Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte códigos de erro de aprendizagem automática.

Para obter uma lista de exceções da API, consulte códigos de erro da API de aprendizagem automática.

Ver também

Dados de Importação
Dados de Exportação
Importação de URL web via HTTP
Importação da Consulta de Colmeia
Importação da Base de Dados Azure SQL
Importação da Tabela Azure
Importação do Armazenamento Azure Blob
Importação da Base de Dados de Servidor SQL nas Instalações