Criar conjunto de dados AML por meio do Azure Open Datasets

Cuidado

Este artigo faz referência ao CentOS, uma distribuição do Linux que está se aproximando do status de EOL (fim da vida útil). Considere seu uso e planejamento adequadamente. Para obter mais informações, veja as Diretrizes sobre fim da vida útil do CentOS.

Neste artigo, você aprenderá a trazer os dados de enriquecimento estruturados para seus experimentos de aprendizado de máquina local ou remoto comAzure Machine Learningconjunto de dados eConjunto de Dados em Aberto no Azure.

Ao criar umconjunto de dados do AML,você cria uma referência para o local da fonte de dados junto de uma cópia de seus metadados. Como os conjuntos de dados são avaliados lentamente, e os dados permanecem em seu local existente, você

  • não incorrerá nenhum custo de armazenamento extra.
  • Não arrisque mudar sem querer suas fontes de dados originais.
  • Aprimore as velocidades de desempenho do fluxo de trabalho do ML.

Para entender a função dos conjuntos de dados no fluxo de trabalho geral de acesso a dados do Azure Machine Learning, consulte o artigoAcessar dados de maneira segura.

O Azure Open Datasets são conjunto de dados públicos coletados que você pode usar para adicionar recursos específicos ao cenário para enriquecer suas soluções preditivas e melhorar sua precisão. Confira oCatálogo do Azure Open Datasetsdos dados de domínio público que podem ajudá-lo no treinamento de modelos de aprendizado de máquina,como:

Os Conjuntos de dados abertos estão na nuvem no Microsoft Azure e estão incluídos noSDK do AML Python e oEstúdio do Azure Machine Learning.

Pré-requisitos

Para este artigo, você precisa de:

Observação

Algumas MFC do conjunto de dados têm dependências no pacote azureml-dataprep==1.1.20, que é compatível apenas com Python de 64 bits. Para usuários do Linux, essas classes são suportadas somente nas seguintes distribuições: Red Hat Enterprise Linux (7, 8), Ubuntu (14.04, 16.04, 18.04), Fedora (27, 28), Debian (8, 9) e CentOS (7).

Criar conjuntos de dados com o SDK

Para criar o conjunto de dados do AML por meio da MFC do Conjunto de Dados em Aberto no Azure no SDK do Python, verifique se você instalou o pacote com opip install azureml-opendatasets. Cada conjunto de dados discreto é representado pela sua própria MFC no SDK e determinadas MFC estão disponíveis como um AMLTabularDataset,FileDatasetou ambos. Consulte adocumentação de referênciapara obter uma lista completa deopendatasetsMFCs.

Você pode recuperar determinadasopendatasetsMFCs como umTabularDatasetouFileDataseto que permite manipular e/ou baixar os arquivos diretamente. Outras MFCs podem obter um conjunto de dadosapenasusando asget_tabular_dataset()ou get_file_dataset() funções daDatasetMFC no SDK do Python.

O código a seguir mostra que aopendatasetsMFC MNIST pode retornar umTabularDatasetouFileDataset.

from azureml.core import Dataset
from azureml.opendatasets import MNIST

# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()

Neste exemplo, a MFC Diabetesopendatasetsestá disponível apenas como umTabularDataset, consequentemente,o uso deget_tabular_dataset().


from azureml.opendatasets import Diabetes
from azureml.core import Dataset

# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()

Registrar os conjuntos de dados

Registre um conjunto de dados do AML do seu espaço de trabalho, para que você possa compartilhá-lo com outros e reutilizá-los entre os experimentos em seu espaço de trabalho. Quando você registra um conjunto de dados do AML criado a partir do Azure Open Datasets, nenhum dado é baixado imediatamente, mas os dados serão acessados posteriormente quando solicitado (durante o treinamento, por exemplo) de um local de armazenamento central.

Para registrar seu conjunto de dados a partir de um espaço de trabalho, use oregister()método.

titanic_ds = titanic_ds.register(workspace=workspace,
                                 name='titanic_ds',
                                 description='titanic training data')

Criar conjunto de dados com o estúdio

Você também pode criar conjunto de dados do AML a partir de Azure Open Datasets com oEstúdio do Azure Machine Learninguma interface da Web consolidada inclui as ferramentas de aprendizado de máquina para executar cenários de ciência de dados destinado a praticantes de ciência de dados de todos os níveis de habilidades.

Observação

Os conjuntos de dados criados por meio do Estúdio do Azure Machine Learning são automaticamente registrados no espaço de trabalho.

  1. Em seu espaço de trabalho, selecione a guiaConjuntos de dados emAtivos. No menu suspensoCriar conjunto de dados,selecione Conjunto de Dados em Aberto no Azure.

    Azure Open Dataset com a interface do usuário

  2. Selecione um conjunto de dados selecionando sua peça. (Você tem a opção de filtrar usando a barra de pesquisa.) Selecione Próximo.

    Escolher o conjunto de dados

  3. Escolha um nome sob o qual registrar o conjunto de dados e, opcionalmente, filtre os dados usando os filtros disponíveis. Nesse caso, para o conjunto de data deferiados públicos, você filtra o período de tempo para um ano e o código do país apenas para os EUA. Confira oCatálogo do Conjunto de Dados em Aberto no Azurepara obter detalhes tais como, descrições de campos e intervalos de datas. Selecione Criar.

    Definir os parâmetros do conjunto de dados e criar conjunto de dados

    Agora, o conjunto de dados está disponível em seu espaço de trabalho emConjunto de Dados. Você pode usá-lo da mesma maneira que outros conjuntos de dados que você criou.

Acessar os conjuntos de dados de seus experimentos

Use seus conjuntos de dados em seus experimentos de aprendizado de máquina de modelos de ML para treinamento. Saiba mais sobre como treinar com conjuntos de dados.

Blocos de anotações de exemplo

Para obter amostras e demonstrações de funcionalidade de Azure Open Datasets, consulte estesAzure Notebooks, por exemplo.

Próximas etapas