Creare set di dati di Azure Machine Learning da set di dati aperti di Azure

Articolo
02/21/2024

Attenzione

Questo articolo fa riferimento a CentOS, una distribuzione Linux vicina allo stato end of life (EOL). Prendere in considerazione l'uso e la pianificazione di conseguenza. Per altre informazioni, vedere le linee guida per la fine della vita di CentOS.

Questo articolo illustra come inserire dati di arricchimento curati negli esperimenti di Machine Learning locali o remoti con set di dati di Azure Machine Learning e set di dati aperti di Azure.

Creando un set di dati di Azure Machine Learning, si crea un riferimento al percorso dell'origine dati, insieme a una copia dei relativi metadati. Poiché i set di dati vengono valutati in modo differito e i dati rimangono nella posizione esistente,

Non è previsto alcun costo aggiuntivo per l'archiviazione.
Non rischia di modificare involontariamente le origini dati originali.
Migliorare le prestazioni del flusso di lavoro ml.

Per comprendere dove si trovano i set di dati nel flusso di lavoro complessivo di accesso ai dati di Azure Machine Learning, vedere l'articolo Accesso sicuro ai dati .

I set di dati aperti di Azure sono set di dati pubblici curati che è possibile usare per aggiungere funzionalità specifiche dello scenario per arricchire le soluzioni predittive e migliorarne l'accuratezza. Vedere il catalogo Open Datasets per i dati di dominio pubblico che consentono di eseguire il training di modelli di Machine Learning, ad esempio:

I set di dati aperti si trovano nel cloud in Microsoft Azure e sono inclusi sia in Azure Machine Learning Python SDK che in studio di Azure Machine Learning.

Prerequisiti

Per questo articolo, è necessario:

Una sottoscrizione di Azure. Se non se ne dispone, creare un account gratuito prima di iniziare. Provare la versione gratuita o a pagamento di Azure Machine Learning.
Un'area di lavoro di Azure Machine Learning.
Azure Machine Learning SDK per Python installato, che include il azureml-datasets pacchetto.
- Creare un'istanza di calcolo di Azure Machine Learning, che è un ambiente di sviluppo completamente configurato e gestito che include notebook integrati e l'SDK già installato.
OPPURE
- Usare il proprio ambiente Python e installare manualmente l'SDK con queste istruzioni.

Nota

Alcune classi di set di dati hanno dipendenze dal pacchetto azureml-dataprep, che è compatibile solo con Python a 64 bit. Per gli utenti Linux, queste classi sono supportate solo nelle distribuzioni seguenti: Red Hat Enterprise Linux (7, 8), Ubuntu (14.04, 16.04, 18.04), Fedora (27, 28), Debian (8, 9) e CentOS (7).

Creare set di dati con l'SDK

Per creare set di dati di Azure Machine Learning tramite le classi Azure Open Datasets in Python SDK, assicurarsi di aver installato il pacchetto con pip install azureml-opendatasets. Ogni set di dati discreto è rappresentato dalla propria classe nell'SDK e alcune classi sono disponibili come Azure Machine Learning TabularDataset, FileDataseto entrambe. Per un elenco completo delle classi, vedere la documentazione di opendatasets riferimento.

È possibile recuperare determinate opendatasets classi come o TabularDatasetFileDataset, che consente di modificare e/o scaricare direttamente i file. Altre classi possono ottenere un set di dati solo usando le get_tabular_dataset() funzioni o get_file_dataset() della Datasetclasse in Python SDK.

Il codice seguente mostra che la classe MNIST opendatasets può restituire un TabularDataset oggetto o FileDataset.

from azureml.core import Dataset
from azureml.opendatasets import MNIST

# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()

In questo esempio la classe Diabetes opendatasets è disponibile solo come , TabularDatasetquindi l'uso di get_tabular_dataset().


from azureml.opendatasets import Diabetes
from azureml.core import Dataset

# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()

Registrare i set di dati

Registrare un set di dati di Azure Machine Learning con l'area di lavoro, in modo da poterli condividere con altri utenti e riutilizzarli tra esperimenti nell'area di lavoro. Quando si registra un set di dati di Azure Machine Learning creato da Set di dati aperti, non viene scaricato immediatamente alcun dato, ma i dati verranno accessibili in un secondo momento quando vengono richiesti (durante il training, ad esempio) da una posizione di archiviazione centrale.

Per registrare i set di dati con un'area di lavoro, usare il register() metodo .

titanic_ds = titanic_ds.register(workspace=workspace,
                                 name='titanic_ds',
                                 description='titanic training data')

Creare set di dati con lo studio

È anche possibile creare set di dati di Azure Machine Learning da Set di dati aperti di Azure con il studio di Azure Machine Learning, un'interfaccia Web consolidata che include strumenti di Machine Learning per eseguire scenari di data science per professionisti dell'analisi scientifica dei dati di tutti i livelli di competenza.

Nota

I set di dati creati tramite studio di Azure Machine Learning vengono registrati automaticamente nell'area di lavoro.

Nell'area di lavoro selezionare la scheda Set di dati in Asset. Nel menu a discesa Crea set di dati selezionare Da apri set di dati.
Selezionare un set di dati selezionandone il riquadro. È possibile filtrare usando la barra di ricerca. Selezionare Avanti.
Scegliere un nome in cui registrare il set di dati e, facoltativamente, filtrare i dati usando i filtri disponibili. In questo caso, per il set di dati delle festività pubbliche, il periodo di tempo viene filtrato in base a un anno e al codice paese solo agli Stati Uniti. Per informazioni dettagliate sui dati, ad esempio le descrizioni dei campi e gli intervalli di date, vedere Azure Open Datasets Catalog . Seleziona Crea.

Il set di dati è ora disponibile nell'area di lavoro in Set di dati. È possibile usarlo nello stesso modo di altri set di dati creati.