Importar a partir do URL da Web através de HTTP

Este artigo descreve como usar o módulo de Dados de Importação no Azure Machine Learning Studio (clássico), para ler dados de uma página web pública para uso em uma experiência de aprendizagem automática.

Nota

Aplica-se a: Machine Learning Studio (clássico)

Este conteúdo diz respeito apenas ao Studio (clássico). Módulos semelhantes de arrasto e queda foram adicionados ao designer de Aprendizagem automática Azure. Saiba mais neste artigo comparando as duas versões.

As seguintes restrições aplicam-se aos dados publicados numa página web:

  • Os dados devem estar num dos formatos suportados: CSV, TSV, ARFF ou SvmLight. Outros dados causarão erros.
  • Não é necessária nenhuma autenticação ou suportada. Os dados devem estar disponíveis ao público.

Como importar dados através de HTTP

Existem duas formas de obter dados: utilizar o assistente para configurar a fonte de dados ou configurá-lo manualmente.

Utilize o assistente de importação de dados

  1. Adicione o módulo de Dados de Importação à sua experiência. Pode encontrar o módulo em Estúdio (clássico), na categoria Entrada e Saída de Dados.

  2. Clique em Lançar O Assistente de Dados de Importação e selecione o URL web através de HTTP.

  3. Cole no URL e selecione um formato de dados.

  4. Quando a configuração estiver concluída, clique com o botão direito no módulo e selecione Executar Selecionado.

Para editar uma ligação de dados existente, reinicie o assistente. O assistente carrega todos os detalhes de configuração anteriores para que não tenha que começar de novo do zero

Definir manualmente propriedades no módulo de dados de importação

Os seguintes passos descrevem como configurar manualmente a fonte de importação.

  1. Adicione o módulo de Dados de Importação à sua experiência. Pode encontrar o módulo em Estúdio (clássico), na categoria Entrada e Saída de Dados.

  2. Para obter informações, selecione WEB URL via HTTP.

  3. Para URL, escreva ou cole o URL completo da página que contém os dados que pretende carregar.

    O URL deve incluir o URL do site e o caminho completo, com nome de ficheiro e extensão, para a página que contém os dados a carregar.

    Por exemplo, a página seguinte contém o conjunto de dados da Íris do repositório de aprendizagem automática da Universidade da Califórnia, Irvine:

    https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

  4. Para o formato Data, selecione um dos formatos de dados suportados da lista.

    Recomendamos que verifique sempre previamente os dados para determinar o formato. A página UC Irvine utiliza o formato CSV. Outros formatos de dados suportados são TSV, ARFF e SvmLight.

  5. Se os dados estiverem no formato CSV ou TSV, utilize o Ficheiro tem a opção de linha de cabeçalho para indicar se os dados de origem incluem ou não uma linha de cabeçalho. A linha do cabeçalho é usada para atribuir nomes de colunas.

  6. Selecione as opções de resultados em cache Use se não espera que os dados mudem muito, ou se quiser evitar recarregar os dados cada vez que executar a experiência.

    Quando esta opção é selecionada, a experiência carrega os dados na primeira vez que o módulo é executado, e depois utiliza uma versão em cache do conjunto de dados.

    Se pretender repor o conjunto de dados em cada iteração do conjunto de dados da experiência, desmarca a opção de resultados em cache Utilização. Os resultados também são rees carregados se houver alterações aos parâmetros dos Dadosde Importação .

  7. Execute a experimentação.

Resultados

Quando estiver concluído, clique no conjunto de dados de saída e selecione Visualize para ver se os dados foram importados com sucesso.

Exemplos

Veja estes exemplos na Galeria Azure AI de experiências de machine learning que obtêm dados de sites públicos:

Notas técnicas

Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.

Perguntas comuns

Posso filtrar os dados como está a ser lido a partir da fonte

Não. Esta opção não é suportada com esta fonte de dados.

Depois de ler os dados no Azure Machine Learning Studio (clássico), pode dividir o conjunto de dados, usar amostragem e assim por diante para obter apenas as linhas que deseja:

  • Escreva um código R simples no Script Executo R para obter uma parte dos dados por linhas ou colunas.

  • Utilize o módulo Dados Divididos com uma expressão relativa ou uma expressão regular para isolar os dados que pretende.

  • Se carregou mais dados do que o necessário, substitua o conjunto de dados em cache lendo um novo conjunto de dados e guardando-os com o mesmo nome.

Como posso evitar reessarcar os mesmos dados desnecessariamente

Se os dados de origem alterarem, pode atualizar o conjunto de dados e adicionar novos dados re-executando dados de importação.

Se não quiser relê-lo a partir da fonte cada vez que executar a experiência, selecione a opção de resultados em cache utilizar para TRUE. Quando esta opção é definida como TRUE, o módulo verifica se a experiência já foi executada anteriormente utilizando a mesma fonte e as mesmas opções de entrada. Se for encontrada uma execução anterior, os dados na cache são utilizados, em vez de resmutar os dados da fonte.

Por que uma linha extra foi adicionada no final do meu conjunto de dados

Se o módulo De Dados de Importação encontrar uma linha de dados que é seguida por uma linha vazia ou um carácter de linha nova, uma linha extra é adicionada no final da tabela. Esta nova linha contém valores em falta.

A razão para interpretar uma nova linha como uma nova linha é que os Dados de Importação não podem determinar a diferença entre uma linha vazia real e uma linha vazia que é criada pelo utilizador pressionando ENTER no final de um ficheiro.

Como alguns algoritmos de aprendizagem automática suportam dados em falta e assim tratariam esta linha como um caso (que por sua vez poderia afetar os resultados), deve usar Dados Desaparecidos Limpos para verificar se há valores em falta (particularmente linhas completamente vazias) e removê-los conforme necessário.

Antes de verificar se há linhas vazias, também pode querer dividir o conjunto de dados utilizando Dados Divididos. Isto separa as linhas com valores parciais em falta, que representam valores em falta reais nos dados de origem. Utilize a opção 'Selecionar as linhas N' para ler a primeira parte do conjunto de dados num recipiente separado da última linha.

Por que alguns personagens no meu arquivo de origem não são exibidos corretamente

A Azure Machine Learning suporta a codificação UTF-8. Se o seu ficheiro de origem utilizar outro tipo de codificação, os caracteres podem não ser importados corretamente.

Parâmetros do módulo

Nome Intervalo Tipo Predefinição Descrição
Origem de dados Lista Fonte de dados ou pia Armazenamento de Blobs do Azure A fonte de dados pode ser HTTP, FTP, HTTPS anónimo ou FTPS, um ficheiro no armazenamento Azure BLOB, uma tabela Azure, uma Base de Dados Azure SQL, uma base de dados sql server no local, uma tabela Hive ou um ponto final OData.
URL qualquer String nenhum URL para HTTP
Formato de dados CSV

TSV

ARFF

SvmLight
Formato de Dados CSV Tipo de ficheiro de fonte HTTP
CSV ou TSV tem linha de cabeçalho VERDADEIRO/FALSO Booleano false Indica se o ficheiro CSV ou TSV tem uma linha de cabeçalho
Use resultados em cache VERDADEIRO/FALSO Booleano FALSE O módulo só executa se não existir cache válido. Caso contrário, são utilizados dados em cache da execução anterior.

Saídas

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados Dataset com dados descarregados

Exceções

Exceção Descrição
Erro 0027 Uma exceção ocorre quando dois objetos têm que ter o mesmo tamanho, mas não são.
Erro 0003 Uma exceção ocorre se uma ou mais entradas forem nulas ou vazias.
Erro 0029 Uma exceção ocorre quando um URI inválido é passado.
Erro 0030 uma exceção ocorre quando não é possível descarregar um ficheiro.
Erro 0002 Uma exceção ocorre se um ou mais parâmetros não puderem ser analisados ou convertidos do tipo especificado para o tipo exigido pelo método-alvo.
Erro 0048 Uma exceção ocorre quando não é possível abrir um ficheiro.
Erro 0046 Uma exceção ocorre quando não é possível criar um diretório em caminho especificado.
Erro 0049 Uma exceção ocorre quando não é possível analisar um ficheiro.

Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte códigos de erro de aprendizagem automática.

Para obter uma lista de exceções da API, consulte códigos de erro da API de aprendizagem automática.

Ver também

Dados de Importação
Dados de Exportação
Importação da Consulta de Colmeia
Importação da Base de Dados Azure SQL
Importação da Tabela Azure
Importação do Armazenamento Azure Blob
Importação de Fornecedores de Feed de Dados
Importação da Base de Dados de Servidor SQL nas Instalações