AbstractDataset Classe

Riferimento

Classe di base di set di dati in Azure Machine Learning.

Fare riferimento TabularDatasetFactory alla classe e FileDatasetFactory alla classe per creare istanze del set di dati.

Costruttore AbstractDataset della classe.

Questo costruttore non deve essere richiamato direttamente. Il set di dati deve essere creato usando TabularDatasetFactory la classe e FileDatasetFactory la classe .

Ereditarietà: builtins.object

AbstractDataset

Costruttore

AbstractDataset()

Metodi

add_tags	Aggiungere coppie chiave-valore al dizionario tag di questo set di dati.
as_named_input	Specificare un nome per questo set di dati che verrà usato per recuperare il set di dati materializzato nell'esecuzione.
get_all	Ottenere tutti i set di dati registrati nell'area di lavoro.
get_by_id	Ottenere un set di dati salvato nell'area di lavoro.
get_by_name	Ottenere un set di dati registrato dall'area di lavoro in base al nome della registrazione.
get_partition_key_values	Restituisce valori di chiave univoci di partition_keys. verificare se partition_keys è un subset valido di chiavi di partizione complete, restituire valori di chiave univoci di partition_keys, per impostazione predefinita restituire le combinazioni di chiavi di chiave univoche accettando il set completo di chiavi di partizione di questo set di dati se partition_keys è Nessuno `# get all partition key value pairs partitions = ds.get_partition_key_values() # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}] partitions = ds.get_partition_key_values(['country']) # Return [{'country': 'US'}]`
register	Registrare il set di dati nell'area di lavoro specificata.
remove_tags	Rimuovere le chiavi specificate dal dizionario tag di questo set di dati.
unregister_all_versions	Annullare la registrazione di tutte le versioni con il nome di registrazione di questo set di dati dall'area di lavoro.
update	Eseguire un aggiornamento sul posto del set di dati.

add_tags

Aggiungere coppie chiave-valore al dizionario tag di questo set di dati.

add_tags(tags=None)

Parametri

tags: dict[str, str]

Necessario

Dizionario dei tag da aggiungere.

Restituisce

Oggetto set di dati aggiornato.

Tipo restituito

Union[TabularDataset, FileDataset]

as_named_input

Specificare un nome per questo set di dati che verrà usato per recuperare il set di dati materializzato nell'esecuzione.

as_named_input(name)

Parametri

name: str

Necessario

Nome del set di dati per l'esecuzione.

Restituisce

Oggetto di configurazione che descrive la modalità di materializzazione del set di dati nell'esecuzione.

Tipo restituito

DatasetConsumptionConfig

Commenti

Il nome qui sarà applicabile solo all'interno di un'esecuzione di Azure Machine Learning. Il nome deve contenere solo caratteri alfanumerici e caratteri di sottolineatura in modo che possa essere reso disponibile come variabile di ambiente. È possibile usare questo nome per recuperare il set di dati nel contesto di un'esecuzione usando due approcci:

Variabile di ambiente:

Il nome sarà il nome della variabile di ambiente e il set di dati materializzato verrà reso disponibile come valore della variabile di ambiente. Se il set di dati viene scaricato o montato, il valore sarà il percorso scaricato/montato. Ad esempio:


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

Nota

Se il set di dati è impostato sulla modalità diretta, il valore sarà l'ID del set di dati. È quindi possibile

recuperare l'oggetto set di dati eseguendo Dataset.get_by_id(os.environ['foo'])

Run.input_datasets:

Si tratta di un dizionario in cui la chiave sarà il nome del set di dati specificato in questo metodo e il valore sarà il set di dati materializzato. Per il set di dati scaricato e montato, il valore sarà il percorso scaricato/montato. Per la modalità diretta, il valore sarà lo stesso oggetto set di dati specificato nello script di invio del processo.


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

Ottenere tutti i set di dati registrati nell'area di lavoro.

static get_all(workspace)

Parametri

workspace: Workspace

Necessario

Area di lavoro AzureML esistente in cui sono stati registrati i set di dati.

Restituisce

Dizionario di oggetti TabularDataset e FileDataset con chiave in base al nome della registrazione.

Tipo restituito

dict[str, Union[TabularDataset, FileDataset]]

get_by_id

Ottenere un set di dati salvato nell'area di lavoro.

static get_by_id(workspace, id, **kwargs)

Parametri

workspace: Workspace

Necessario

Area di lavoro AzureML esistente in cui viene salvato il set di dati.

id: str

Necessario

ID del set di dati.

Restituisce

Oggetto set di dati. Se il set di dati è registrato, verrà restituito anche il nome e la versione della registrazione.

Tipo restituito

Union[TabularDataset, FileDataset]

get_by_name

Ottenere un set di dati registrato dall'area di lavoro in base al nome della registrazione.

static get_by_name(workspace, name, version='latest', **kwargs)

Parametri

workspace: Workspace

Necessario

Area di lavoro AzureML esistente in cui è stato registrato il set di dati.

name: str

Necessario

Nome della registrazione.

version: int

Necessario

Versione di registrazione. Il valore predefinito è "latest".

Restituisce

Oggetto set di dati registrato.

Tipo restituito

Union[TabularDataset, FileDataset]

get_partition_key_values

Restituisce valori di chiave univoci di partition_keys.

verificare se partition_keys è un subset valido di chiavi di partizione complete, restituire valori di chiave univoci di partition_keys, per impostazione predefinita restituire le combinazioni di chiavi di chiave univoche accettando il set completo di chiavi di partizione di questo set di dati se partition_keys è Nessuno


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]

get_partition_key_values(partition_keys=None)

Parametri

partition_keys: list[str]

Necessario

chiavi di partizione

register

Registrare il set di dati nell'area di lavoro specificata.

register(workspace, name, description=None, tags=None, create_new_version=False)

Parametri

workspace: Workspace

Necessario

Area di lavoro per registrare il set di dati.

name: str

Necessario

Nome con cui registrare il set di dati.

description: str

Necessario

Descrizione testuale del set di dati. Il valore predefinito è Nessuno.

tags: dict[str, str]

Necessario

Dizionario dei tag chiave-valore per assegnare il set di dati. Il valore predefinito è Nessuno.

create_new_version: bool

Necessario

Valore booleano per registrare il set di dati come nuova versione con il nome specificato.

Restituisce

Oggetto set di dati registrato.

Tipo restituito

Union[TabularDataset, FileDataset]

remove_tags

Rimuovere le chiavi specificate dal dizionario tag di questo set di dati.

remove_tags(tags=None)

Parametri

tags: list[str]

Necessario

Elenco di chiavi da rimuovere.

Restituisce

Oggetto set di dati aggiornato.

Tipo restituito

Union[TabularDataset, FileDataset]

unregister_all_versions

Annullare la registrazione di tutte le versioni con il nome di registrazione di questo set di dati dall'area di lavoro.

unregister_all_versions()

Commenti

L'operazione non modifica i dati di origine.

update

Eseguire un aggiornamento sul posto del set di dati.

update(description=None, tags=None)

Parametri

description: str

Necessario

Nuova descrizione da usare per il set di dati. Questa descrizione sostituisce la descrizione esistente. Il valore predefinito è la descrizione esistente. Per cancellare la descrizione, immettere una stringa vuota.

tags: dict[str, str]

Necessario

Dizionario di tag con cui aggiornare il set di dati. Questi tag sostituiscono i tag esistenti per il set di dati. Il valore predefinito è tag esistenti. Per cancellare i tag, immettere un dizionario vuoto.

Restituisce

Oggetto set di dati aggiornato.

Tipo restituito

Union[TabularDataset, FileDataset]

Costruttore

Metodi

add_tags

Parametri

Restituisce

Tipo restituito

as_named_input

Parametri

Restituisce

Tipo restituito

Commenti

get_all

Parametri

Restituisce

Tipo restituito

get_by_id

Parametri

Restituisce

Tipo restituito

get_by_name

Parametri

Restituisce

Tipo restituito

get_partition_key_values

Parametri

register

Parametri

Restituisce

Tipo restituito

remove_tags

Parametri

Restituisce

Tipo restituito

unregister_all_versions

Commenti

update

Parametri

Restituisce

Tipo restituito

Attributi

data_changed_time

Restituisce

Tipo restituito

Commenti

description

Restituisce

Tipo restituito

id

Restituisce

Tipo restituito

name

Restituisce

Tipo restituito

partition_keys

Restituisce

Tipo restituito

tags

Restituisce

Tipo restituito

version

Restituisce

Tipo restituito

Commenti e suggerimenti

Commenti e suggerimenti

Risorse aggiuntive