Dati in Azure Machine Learning v1

Articolo
04/15/2024

SI APPLICA A:Estensione ml dell’interfaccia della riga di comando (CLI) di Azure v1

Azure Machine Learning semplifica la connessione ai dati nel cloud. Fornisce un livello di astrazione sul servizio di archiviazione sottostante, in modo da poter accedere in modo sicuro e lavorare con i dati senza dover scrivere codice specifico per il tipo di archiviazione. Azure Machine Learning offre anche le funzionalità di dati seguenti:

Interoperabilità con Pandas e i Dataframe Spark
Controllo delle versioni e rilevamento della derivazione dei dati
Etichettatura dei dati
Monitoraggio della deriva dei dati

Flusso di lavoro dei dati

Quando si è pronti per usare i dati nella soluzione di archiviazione basata sul cloud, è consigliabile usare il flusso di lavoro di recapito dei dati seguente. Questo flusso di lavoro presuppone che l'utente abbia un account di archiviazione di Azure e i dati in un servizio di archiviazione basato sul cloud in Azure.

Creare un archivio dati di Azure Machine Learning per archiviare le informazioni di connessione all'archiviazione di Azure.
Da tale archivio dati creare un set di dati di Azure Machine Learning in modo che punti a uno o più file specifici nella risorsa di archiviazione sottostante.
Per usare tale set di dati nell'esperimento di Machine Learning, è possibile
- Montarlo nella destinazione di calcolo dell'esperimento per il training del modello.
  
  OPPURE
- Usarlo direttamente nelle soluzioni di Azure Machine Learning, ad esempio esecuzioni di esperimenti di Machine Learning automatizzato (ML automatizzato), pipeline di Machine Learning o la finestra di progettazione di Azure Machine Learning.
Creare monitoraggi del set di dati per il set di dati di output del modello da rilevare per la deriva dei dati.
Se viene rilevata la deriva dei dati, aggiornare il set di dati di input e ripetere il training del modello di conseguenza.

Il diagramma seguente fornisce una dimostrazione visiva di questo flusso di lavoro consigliato.

Diagram shows the Azure Storage Service which flows into a datastore, which flows into a dataset.

Connettersi alla risorsa di archiviazione con archivi dati

Gli archivi dati di Azure Machine Learning conservano in modo sicuro le informazioni di connessione alla risorsa di archiviazione dati in Azure, quindi non è necessario codificarle negli script. Registrare e creare un archivio dati per connettersi facilmente all'account di archiviazione e accedere ai dati nel servizio di archiviazione sottostante.

Servizi di archiviazione basati sul cloud supportati in Azure che possono essere registrati come archivi dati:

Contenitore BLOB di Azure
Condivisione file di Azure
Azure Data Lake
Azure Data Lake Gen2
Database SQL di Microsoft Azure
Database di Azure per PostgreSQL
File system di Databricks
Database di Azure per MySQL

Suggerimento

È possibile creare archivi dati con autenticazione basata su credenziali per l'accesso ai servizi di archiviazione, ad esempio un'entità servizio o un token di firma di accesso condiviso. L'accesso a queste credenziali è consentito agli utenti che dispongono dell'accesso in lettura all'area di lavoro.

Se si tratta di un problema, creare un archivio dati che usa l'accesso ai dati basato sull'identità per connettersi ai servizi di archiviazione.

Dati di riferimento nella risorsa di archiviazione con set di dati

I set di dati di Azure Machine Learning non sono copie dei dati. Creando un set di dati, si crea un riferimento ai dati nel relativo servizio di archiviazione, insieme a una copia dei relativi metadati.

Poiché i set di dati vengono valutati in modo differito e i dati rimangono nella posizione esistente:

Non sono previsti costi di archiviazione aggiuntivi.
Non si rischia di modificare involontariamente le origini dati originali.
Si migliora la velocità delle prestazioni del flusso di lavoro di ML.

Per interagire con i dati nell'archiviazione, creare un set di dati per creare un pacchetto dei dati in un oggetto di consumo per le attività di Machine Learning. Registrare il set di dati nell'area di lavoro per condividerlo e riutilizzarlo in esperimenti diversi senza complessità di inserimento dati.

I set di dati possono essere creati da file locali, URL pubblici, set di dati aperti di Azure o dai servizi di archiviazione di Azure tramite archivi dati.

Esistono due tipi di set di dati:

Un FileDataset fa riferimento a uno o più file negli archivi dati o negli URL pubblici. Se i dati sono già puliti e pronti per l'uso negli esperimenti di training, è possibile scaricare o montare i file a cui fanno riferimento i FileDatasets nella destinazione di calcolo.
Un oggetto TabularDataset rappresenta i dati in un formato tabulare analizzando il file o l'elenco di file forniti. È possibile caricare un oggetto TabularDataset in un dataframe Pandas o Spark per ulteriori manipolazioni e pulizia. Per un elenco completo dei formati di dati da cui è possibile creare TabularDatasets, vedere la classe TabularDatasetFactory.

Altre funzionalità dei set di dati sono disponibili nella documentazione seguente:

Derivazione dei dati versione e rilevamento.
Monitorare il set di dati per facilitare il rilevamento della deriva dei dati.

Utilizzare i dati

Con i set di dati, è possibile eseguire diverse attività di Machine Learning tramite un'integrazione semplice con le funzionalità di Azure Machine Learning.

Creare un progetto di etichettatura dati.
Eseguire il training di modelli di Machine Learning:
Accedere ai set di dati per l'assegnazione dei punteggi tramite inferenza batch nelle pipeline di Machine Learning.
Configurare un monitoraggio del set di dati per il rilevamento della deriva dei dati.

Etichettare i dati con progetti di etichettatura dei dati

L'etichettatura di grandi quantità di dati nei progetti di Machine Learning è spesso stata considerata un'attività molto complessa. Quelli con un componente visione artificiale, ad esempio la classificazione delle immagini o il rilevamento di oggetti, richiedono in genere migliaia di immagini ed etichette corrispondenti.

Azure Machine Learning offre una posizione centrale per creare, gestire e monitorare i progetti di etichettatura. I progetti di etichettatura consentono di coordinare i dati, le etichette e i membri del team, per una gestione più efficiente delle attività di etichettatura. Le attività attualmente supportate sono la classificazione delle immagini, multi-etichetta o multi-classe, e l'identificazione di oggetti tramite i riquadri di selezione.

Creare un progetto di etichettatura di immagini o un progetto di etichettatura del testo e restituire un set di dati da usare negli esperimenti di Machine Learning.

Monitorare le prestazioni del modello con deviazione dei dati

Nel contesto di Machine Learning, la deriva dei dati è la modifica relativa ai dati di input del modello che causano una riduzione del livello delle prestazioni del modello. È uno dei motivi principali per cui l'accuratezza del modello degrada nel tempo, pertanto il monitoraggio della deriva dei dati consente di rilevare i problemi di prestazioni del modello.

Vedere l'articolo Creare un monitoraggio del set di dati per altre informazioni su come eseguire il rilevamento e avvisare in caso di deriva dei dati sui nuovi dati in un set di dati.

Passaggi successivi

Creare un set di dati in studio di Azure Machine Learning o con Python SDK seguendo questa procedura.
Provare gli esempi di training del set di dati con i notebook di esempio.