Criar conjuntos de dados do Azure Machine Learning a partir de conjuntos de dados abertos do Azure

Atenção

Este artigo faz referência ao CentOS, uma distribuição Linux que está se aproximando do status de Fim da Vida Útil (EOL). Por favor, considere o seu uso e planejamento de acordo. Para obter mais informações, consulte as diretrizes de Fim da Vida Útil do CentOS.

Neste artigo, você aprenderá a trazer dados de enriquecimento selecionados para seus experimentos de aprendizado de máquina locais ou remotos com conjuntos de dados do Azure Machine Learning e conjuntos de dados abertos do Azure.

Ao criar um conjunto de dados do Azure Machine Learning, você cria uma referência ao local da fonte de dados, juntamente com uma cópia de seus metadados. Como os conjuntos de dados são avaliados preguiçosamente e os dados permanecem em seu local existente, você

  • Incur sem custo de armazenamento extra.
  • Não corra o risco de alterar involuntariamente suas fontes de dados originais.
  • Melhore as velocidades de desempenho do fluxo de trabalho de ML.

Para entender onde os conjuntos de dados se encaixam no fluxo de trabalho geral de acesso a dados do Azure Machine Learning, consulte o artigo Acesso seguro aos dados .

Os Conjuntos de Dados Abertos do Azure são conjuntos de dados públicos com curadoria que você pode usar para adicionar recursos específicos do cenário para enriquecer suas soluções preditivas e melhorar sua precisão. Consulte o catálogo Open Datasets para obter dados de domínio público que podem ajudá-lo a treinar modelos de aprendizado de máquina, como:

Os conjuntos de dados abertos estão na nuvem no Microsoft Azure e estão incluídos no SDK Python do Azure Machine Learning e no estúdio do Azure Machine Learning.

Pré-requisitos

Para este artigo, você precisa:

Nota

Algumas classes de conjunto de dados têm dependências no pacote azureml-dataprep, que só é compatível com Python de 64 bits. Para usuários Linux, essas classes são suportadas apenas nas seguintes distribuições: Red Hat Enterprise Linux (7, 8), Ubuntu (14.04, 16.04, 18.04), Fedora (27, 28), Debian (8, 9) e CentOS (7).

Criar conjuntos de dados com o SDK

Para criar conjuntos de dados do Azure Machine Learning por meio de classes de Conjuntos de Dados Abertos do Azure no SDK do Python, verifique se você instalou o pacote com pip install azureml-opendatasetso . Cada conjunto de dados discreto é representado por sua própria classe no SDK, e determinadas classes estão disponíveis como um Azure Machine Learning TabularDataset, FileDatasetou ambos. Consulte a documentação de referência para obter uma lista completa de opendatasets classes.

Você pode recuperar certas opendatasets classes como um TabularDataset ou FileDataset, o que permite manipular e/ou baixar os arquivos diretamente. Outras classes podem obter um conjunto de dados somente usando as get_tabular_dataset() funções ou get_file_dataset() da Datasetclasse no SDK do Python.

O código a seguir mostra que a classe MNIST opendatasets pode retornar um TabularDataset ou FileDataset.

from azureml.core import Dataset
from azureml.opendatasets import MNIST

# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()

Neste exemplo, a classe Diabetes opendatasets só está disponível como um TabularDataset, daí o uso de get_tabular_dataset().


from azureml.opendatasets import Diabetes
from azureml.core import Dataset

# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()

Registrar conjuntos de dados

Registre um conjunto de dados do Azure Machine Learning em seu espaço de trabalho, para que você possa compartilhá-los com outras pessoas e reutilizá-los em experimentos em seu espaço de trabalho. Quando você registra um conjunto de dados do Azure Machine Learning criado a partir de conjuntos de dados abertos, nenhum dado é baixado imediatamente, mas os dados serão acessados posteriormente quando solicitados (durante o treinamento, por exemplo) de um local de armazenamento central.

Para registrar seus conjuntos de dados em um espaço de trabalho, use o register() método.

titanic_ds = titanic_ds.register(workspace=workspace,
                                 name='titanic_ds',
                                 description='titanic training data')

Crie conjuntos de dados com o estúdio

Também pode criar conjuntos de dados do Azure Machine Learning a partir de Conjuntos de Dados Abertos do Azure com o estúdio do Azure Machine Learning, uma interface Web consolidada que inclui ferramentas de aprendizagem automática para executar cenários de ciência de dados para profissionais de ciência de dados de todos os níveis de competências.

Nota

Os conjuntos de dados criados por meio do estúdio do Azure Machine Learning são registrados automaticamente no espaço de trabalho.

  1. No espaço de trabalho, selecione a guia Conjuntos de Dados em Ativos. No menu suspenso Criar conjunto de dados, selecione De Conjuntos de Dados Abertos.

    Abrir conjunto de dados com a interface do usuário

  2. Selecione um conjunto de dados selecionando seu bloco. (Você tem a opção de filtrar usando a barra de pesquisa.) Selecione Avançar.

    Escolher conjunto de dados

  3. Escolha um nome para registrar o conjunto de dados e, opcionalmente, filtre os dados usando os filtros disponíveis. Nesse caso, para o conjunto de dados de feriados , você filtra o período de tempo para um ano e o código do país apenas para os EUA. Consulte o Catálogo de Conjuntos de Dados Abertos do Azure para obter detalhes de dados, como descrições de campos e intervalos de datas. Selecione Criar.

    Definir parâmetros de conjunto de dados e criar conjunto de dados

    O conjunto de dados agora está disponível em seu espaço de trabalho em Conjuntos de dados. Você pode usá-lo da mesma forma que outros conjuntos de dados criados.

Acessar conjuntos de dados para seus experimentos

Use seus conjuntos de dados em seus experimentos de aprendizado de máquina para treinar modelos de ML. Saiba mais sobre como treinar com conjuntos de dados.

Blocos de notas de exemplo

Para obter exemplos e demonstrações da funcionalidade Open Datasets, consulte estes blocos de notas de exemplo.

Próximos passos