Condividi tramite


data Pacchetto

Contiene moduli che supportano la rappresentazione dei dati per l'archivio dati e il set di dati in Azure Machine Learning.

Questo pacchetto contiene le funzionalità di base che supportano Datastore le classi e Dataset nel core pacchetto. Gli oggetti archivio dati contengono informazioni di connessione ai servizi di archiviazione di Azure a cui è possibile fare facilmente riferimento in base al nome senza la necessità di lavorare direttamente con le informazioni di connessione hardcoded negli script. L'archivio dati supporta diversi servizi rappresentati da classi in questo pacchetto, tra cui AzureBlobDatastore, AzureFileDatastoree AzureDataLakeDatastore. Per un elenco completo dei servizi di archiviazione supportati, vedere la Datastore classe .

Mentre un archivio dati funge da contenitore per i file di dati, è possibile considerare un set di dati come riferimento o puntatore a dati specifici presenti nell'archivio dati. Sono supportati i tipi di set di dati seguenti:

  • TabularDataset rappresenta i dati in formato di tabella creati analizzando il file o l'elenco di file fornito.

  • FileDataset fa riferimento a uno o più file negli archivi dati o negli URL pubblici.

Per altre informazioni, vedere l'articolo Aggiungere & registrare i set di dati. Per iniziare a usare un set di dati, vedere https://aka.ms/tabulardataset-samplenotebook e https://aka.ms/filedataset-samplenotebook.

Moduli

abstract_dataset

Contiene la classe di base astratta per i set di dati in Azure Machine Learning.

abstract_datastore

Contiene la funzionalità di base per gli archivi dati che salvano le informazioni di connessione ai servizi di archiviazione di Azure.

azure_data_lake_datastore

Contiene la funzionalità di base per gli archivi dati che salvano le informazioni di connessione in Azure Data Lake Storage.

azure_my_sql_datastore

Contiene la funzionalità di base per gli archivi dati che salvano le informazioni di connessione in Database di Azure per MySQL.

azure_postgre_sql_datastore

Contiene la funzionalità di base per gli archivi dati che salvano le informazioni di connessione in Database di Azure per PostgreSQL.

azure_sql_database_datastore

Contiene la funzionalità di base per gli archivi dati che salvano le informazioni di connessione nel database Azure SQL.

azure_storage_datastore

Contiene funzionalità per gli archivi dati che salvano le informazioni di connessione nel BLOB di Azure e nell'archiviazione file di Azure.

constants

Costanti usate nel pacchetto azureml.data. Solo per uso interno.

context_managers

Contiene funzionalità per gestire il contesto dei dati degli archivi dati e dei set di dati. Solo per uso interno.

data_reference

Contiene funzionalità che definisce come creare riferimenti ai dati negli archivi dati.

datacache

Contiene funzionalità per la gestione di DatacacheStore e Datacache in Azure Machine Learning.

datacache_client

Solo per uso interno.

datacache_consumption_config

Contiene funzionalità per la configurazione dell'utilizzo di DataCache.

datacache_singularity_settings

Contiene oggetti necessari per la rappresentazione delle impostazioni di Singolarità di Datacache.

datapath

Contiene funzionalità per creare riferimenti ai dati negli archivi dati.

Questo modulo contiene la classe, che rappresenta la DataPath posizione dei dati e la DataPathComputeBinding classe, che rappresenta il modo in cui i dati vengono resi disponibili nelle destinazioni di calcolo.

dataset_action_run

Contiene funzionalità che gestiscono l'esecuzione delle azioni del set di dati.

Questo modulo offre metodi pratici per la creazione di azioni del set di dati e ottenere i risultati dopo il completamento.

dataset_consumption_config

Contiene funzionalità per la configurazione dell'utilizzo del set di dati.

dataset_definition

Contiene funzionalità per gestire la definizione del set di dati e le relative operazioni.

Nota

Questo modulo è deprecato. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

dataset_error_handling

Contiene eccezioni per la gestione degli errori del set di dati in Azure Machine Learning.

dataset_factory

Contiene funzionalità per creare set di dati per Azure Machine Learning.

dataset_profile

Classe per la raccolta di statistiche di riepilogo sui dati generati da un flusso di dati.

La funzionalità in questo modulo include la raccolta di informazioni relative all'esecuzione del profilo, indipendentemente dal fatto che il profilo sia non aggiornato o meno.

dataset_profile_run

Contiene la configurazione per l'esecuzione del profilo del set di dati di monitoraggio in Azure Machine Learning.

La funzionalità in questo modulo include la gestione e l'esecuzione del profilo del set di dati di monitoraggio associati a un oggetto esperimento e a un singolo ID esecuzione.

dataset_profile_run_config

Contiene la configurazione per generare il riepilogo delle statistiche dei set di dati in Azure Machine Learning.

La funzionalità in questo modulo include metodi per l'invio dell'esecuzione del profilo locale o remoto e la visualizzazione del risultato dell'esecuzione del profilo inviato.

dataset_snapshot

Contiene funzionalità per gestire le operazioni snapshot del set di dati.

Nota

Questo modulo è deprecato. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

dataset_type_definitions

Contiene valori di enumerazione usati con Dataset.

datastore_client

Solo per uso interno.

dbfs_datastore

Contiene funzionalità per gli archivi dati che salvano le informazioni di connessione nel file Sytem (DBFS) di Databricks.

file_dataset

Contiene funzionalità per fare riferimento a singoli o più file negli archivi dati o negli URL pubblici.

Per altre informazioni, vedere l'articolo Aggiungere set di dati di registrazione &. Per iniziare a usare un set di dati di file, vedere https://aka.ms/filedataset-samplenotebook.

hdfs_datastore

Contiene la funzionalità di base per gli archivi dati che salvano le informazioni di connessione in un cluster HDFS.

output_dataset_config

Contiene configurazioni che specificano la modalità di caricamento e innalzamento di livello degli output per un processo in un set di dati.

Per altre informazioni, vedere l'articolo su come specificare gli output.

sql_data_reference

Contiene la funzionalità per la creazione di riferimenti ai dati negli archivi dati che salvano le informazioni di connessione nei database SQL.

stored_procedure_parameter

Contiene funzionalità per la creazione di un parametro da passare a una stored procedure SQL.

tabular_dataset

Contiene la funzionalità per rappresentare i dati in un formato tabulare analizzando il file o l'elenco di file forniti.

Per altre informazioni, vedere l'articolo Aggiungere & registrare i set di dati. Per iniziare a usare un set di dati tabulare, vedere https://aka.ms/tabulardataset-samplenotebook.

Classi

DataType

Configura i tipi di dati di colonna per un set di dati creato in Azure Machine Learning.

I metodi DataType vengono usati nei metodi della TabularDatasetFactory classe from_* , usati per creare nuovi oggetti TabularDataset.

DatacacheStore

Nota

Si tratta di una classe sperimentale e può cambiare in qualsiasi momento. Per altre informazioni, vedere https://aka.ms/azuremlexperimental.

Rappresenta un'astrazione dell'archiviazione su un account di archiviazione di Azure Machine Learning.

I datacacheStore sono collegati alle aree di lavoro e vengono usati per archiviare informazioni correlate alla soluzione datacache sottostante. Attualmente è supportata solo la soluzione BLOB partizionata. Datacachestores definisce vari archivi dati BLOB che possono essere usati per la memorizzazione nella cache.

Usare questa classe per eseguire operazioni di gestione, tra cui registrare, elencare, ottenere e aggiornare i datacachestore. I datacacheStore per ogni servizio vengono creati con i register* metodi di questa classe.

Ottenere un archivio datacache per nome. Questa chiamata effettua una richiesta al servizio datacache.

FileDataset

Rappresenta una raccolta di riferimenti ai file negli archivi dati o negli URL pubblici da usare in Azure Machine Learning.

Un FileDataset definisce una serie di operazioni valutate in modo non modificabile per caricare i dati dall'origine dati nei flussi di file. I dati non vengono caricati dall'origine finché Non viene richiesto a FileDataset di recapitare i dati.

Viene creato un FileDataset usando il from_files metodo della classe FileDatasetFactory.

Per altre informazioni, vedere l'articolo Aggiungere set di dati di registrazione &. Per iniziare a usare un set di dati di file, vedere https://aka.ms/filedataset-samplenotebook.

Inizializzare l'oggetto FileDataset.

Questo costruttore non dovrebbe essere richiamato direttamente. Il set di dati deve essere creato usando FileDatasetFactory la classe .

HDFSOutputDatasetConfig

Rappresentare come restituire un percorso HDFS e essere promosso come FileDataset.

Inizializzare un hdFSOutputDatasetConfig.

LinkFileOutputDatasetConfig

Nota

Si tratta di una classe sperimentale e può cambiare in qualsiasi momento. Per altre informazioni, vedere https://aka.ms/azuremlexperimental.

Rappresentare come collegare l'output di un'esecuzione e essere promosso come FileDataset.

LinkFileOutputDatasetConfig consente di collegare un set di dati di file come set di dati di output


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkFileOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Inizializzare un linkFileOutputDatasetConfig.

LinkTabularOutputDatasetConfig

Nota

Si tratta di una classe sperimentale e può cambiare in qualsiasi momento. Per altre informazioni, vedere https://aka.ms/azuremlexperimental.

Rappresentare come collegare l'output di un'esecuzione e essere promosso come TabularDataset.

LinkTabularOutputDatasetConfig consente di collegare un file tabulare come set di dati di output


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkTabularOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Inizializzare un oggetto LinkTabularOutputDatasetConfig.

OutputFileDatasetConfig

Rappresentare come copiare l'output di un'esecuzione ed essere alzato di livello come FileDataset.

OutputFileDatasetConfig consente di specificare la modalità di caricamento di un determinato percorso locale nella destinazione di calcolo nella destinazione specificata. Se al costruttore non vengono passati argomenti, verrà generato automaticamente un nome, una destinazione e un percorso locale.

Esempio di mancata trasmissione di argomenti:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Esempio di creazione di un output, quindi innalzamento di livello dell'output in un set di dati tabulare e registrarlo con il nome foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Inizializzare un oggetto OutputFileDatasetConfig.

OutputFileDatasetConfig consente di specificare la modalità di caricamento di un determinato percorso locale nella destinazione di calcolo nella destinazione specificata. Se al costruttore non vengono passati argomenti, verrà generato automaticamente un nome, una destinazione e un percorso locale.

Esempio di mancata trasmissione di argomenti:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Esempio di creazione di un output, quindi innalzamento di livello dell'output in un set di dati tabulare e registrarlo con il nome foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
TabularDataset

Rappresenta un set di dati tabulare da usare in Azure Machine Learning.

Un oggetto TabularDataset definisce una serie di operazioni di valutazione differimento non modificabili per caricare i dati dall'origine dati in rappresentazione tabulare. I dati non vengono caricati dall'origine fino a quando non viene richiesto a TabularDataset di recapitare i dati.

TabularDataset viene creato usando metodi come from_delimited_files dalla TabularDatasetFactory classe .

Per altre informazioni, vedere l'articolo Aggiungere & registrare i set di dati. Per iniziare a usare un set di dati tabulare, vedere https://aka.ms/tabulardataset-samplenotebook.

Inizializzare un oggetto TabularDataset.

Questo costruttore non deve essere richiamato direttamente. Il set di dati deve essere creato usando TabularDatasetFactory la classe .