Dataset Classe

Riferimento

Rappresenta una risorsa per l'esplorazione, la trasformazione e la gestione dei dati in Azure Machine Learning.

Un set di dati è un riferimento ai dati in un Datastore URL Web pubblico o sottostante.

Per i metodi deprecati in questa classe, controllare AbstractDataset la classe per le API migliorate.

Sono supportati i tipi di set di dati seguenti:

TabularDataset rappresenta i dati in formato di tabella creati analizzando il file o l'elenco di file fornito.
FileDataset fa riferimento a uno o più file in archivi dati o di URL pubblici.

Per iniziare a usare i set di dati, vedere l'articolo Aggiungere & registrare i set di dati oppure vedere i notebook https://aka.ms/tabulardataset-samplenotebook e https://aka.ms/filedataset-samplenotebook.

Inizializzare l'oggetto Dataset.

Per ottenere un set di dati già registrato con l'area di lavoro, usare il metodo get.

Ereditarietà: builtins.object

Dataset

Costruttore

Dataset(definition, workspace=None, name=None, id=None)

Parametri

definition: <xref:azureml.data.DatasetDefinition>

Necessario

Definizione del set di dati.

workspace: Workspace

Necessario

Area di lavoro in cui è presente il set di dati.

name: str

Necessario

Nome del set di dati.

id: str

Necessario

Identificatore univoco del set di dati.

Commenti

La classe Dataset espone due attributi di classe pratici (File e Tabular) che è possibile usare per la creazione di un set di dati senza usare i metodi factory corrispondenti. Ad esempio, per creare un set di dati usando questi attributi:

Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()

È anche possibile creare un nuovo oggetto TabularDataset o FileDataset chiamando direttamente i metodi factory corrispondenti della classe definita in TabularDatasetFactory e FileDatasetFactory.

L'esempio seguente illustra come creare un TabularDataset che punta a un singolo percorso in un archivio dati.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

L'esempio completo è disponibile da https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

Variabili

azureml.core.Dataset.File

Attributo di classe che fornisce l'accesso ai metodi FileDatasetFactory per la creazione di nuovi oggetti FileDataset. Utilizzo: Dataset.File.from_files().

azureml.core.Dataset.Tabular

Attributo di classe che fornisce l'accesso ai metodi TabularDatasetFactory per la creazione di nuovi oggetti TabularDataset. Utilizzo: Dataset.Tabular.from_delimited_files().

Metodi

archive	Archiviare un set di dati attivo o deprecato. Nota Questo metodo è deprecato e non sarà più supportato. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
auto_read_files	Analizza i file nel percorso specificato e restituisce un nuovo set di dati. Nota Questo metodo è deprecato e non sarà più supportato. È consigliabile usare i metodi Dataset.Tabular.from_* per leggere i file. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
compare_profiles	Confrontare il profilo del set di dati corrente con un altro profilo del set di dati. Ciò mostra le differenze nelle statistiche di riepilogo tra due set di dati. Il parametro 'rhs_dataset' è l'acronimo di "right-hand side" ed è semplicemente il secondo set di dati. Il primo set di dati (l'oggetto set di dati corrente) viene considerato il "lato sinistro". Nota Questo metodo è deprecato e non sarà più supportato. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
create_snapshot	Creare uno snapshot del set di dati registrato. Nota Questo metodo è deprecato e non sarà più supportato. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
delete_snapshot	Eliminare lo snapshot del set di dati in base al nome. Nota Questo metodo è deprecato e non sarà più supportato. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
deprecate	Deprecare un set di dati attivo in un'area di lavoro da un altro set di dati. Nota Questo metodo è deprecato e non sarà più supportato. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
diff	Diff il set di dati corrente con rhs_dataset. Nota Questo metodo è deprecato e non sarà più supportato. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
from_binary_files	Creare un set di dati in memoria non registrato da file binari. Nota Questo metodo è deprecato e non sarà più supportato. È consigliabile usare invece Dataset.File.from_files. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
from_delimited_files	Creare un set di dati non registrato in memoria da file delimitati. Nota Questo metodo è deprecato e non sarà più supportato. È consigliabile usare invece Dataset.Tabular.from_delimited_files. Per altre informazioni, vedere https://aka.ms/dataset-deprecation. `# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'), header='ALL_FILES_HAVE_SAME_HEADERS') df = dataset.to_pandas_dataframe()`
from_excel_files	Creare un set di dati non registrato in memoria dai file di Excel. Nota Questo metodo è deprecato e non sarà più supportato. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
from_json_files	Creare un set di dati in memoria non registrato da file JSON. Nota Questo metodo è deprecato e non sarà più supportato. È consigliabile usare invece Dataset.Tabular.from_json_lines_files per leggere dal file di righe JSON. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
from_pandas_dataframe	Creare un set di dati non registrato in memoria da un dataframe pandas. Nota Questo metodo è deprecato e non sarà più supportato. È consigliabile usare invece Dataset.Tabular.register_pandas_dataframe. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
from_parquet_files	Creare un set di dati in memoria non registrato da file parquet. Nota Questo metodo è deprecato e non sarà più supportato. È consigliabile usare invece Dataset.Tabular.from_parquet_files. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
from_sql_query	Creare un set di dati in memoria non registrato da una query SQL. Nota Questo metodo è deprecato e non sarà più supportato. È consigliabile usare invece Dataset.Tabular.from_sql_query. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
generate_profile	Generare un nuovo profilo per il set di dati. Nota Questo metodo è deprecato e non sarà più supportato. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
get	Ottenere un set di dati già esistente nell'area di lavoro specificandone il nome o l'ID. Nota Questo metodo è deprecato e non sarà più supportato. È consigliabile usare get_by_name e get_by_id . Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
get_all	Ottenere tutti i set di dati registrati nell'area di lavoro.
get_all_snapshots	Ottenere tutti gli snapshot del set di dati. Nota Questo metodo è deprecato e non sarà più supportato. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
get_by_id	Ottenere un set di dati salvato nell'area di lavoro.
get_by_name	Ottenere un set di dati registrato dall'area di lavoro in base al nome della registrazione.
get_definition	Ottenere una definizione specifica del set di dati. Nota Questo metodo è deprecato e non sarà più supportato. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
get_definitions	Ottenere tutte le definizioni del set di dati. Nota Questo metodo è deprecato e non sarà più supportato. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
get_profile	Ottenere statistiche di riepilogo sul set di dati calcolato in precedenza. Nota Questo metodo è deprecato e non sarà più supportato. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
get_snapshot	Ottenere lo snapshot del set di dati in base al nome. Nota Questo metodo è deprecato e non sarà più supportato. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
head	Eseguire il pull del numero specificato di record specificati da questo set di dati e restituirli come dataframe. Nota Questo metodo è deprecato e non sarà più supportato. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
list	Elencare tutti i set di dati nell'area di lavoro, inclusi quelli con `is_visible` proprietà uguale a False. Nota Questo metodo è deprecato e non sarà più supportato. È consigliabile usare get_all invece . Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
reactivate	Riattivare un set di dati archiviato o deprecato. Nota Questo metodo è deprecato e non sarà più supportato. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
register	Registrare il set di dati nell'area di lavoro, rendendolo disponibile ad altri utenti dell'area di lavoro. Nota Questo metodo è deprecato e non sarà più supportato. È consigliabile usare register invece . Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
sample	Generare un nuovo esempio dal set di dati di origine usando la strategia di campionamento e i parametri forniti. Nota Questo metodo è deprecato e non sarà più supportato. Creare un TabularDataset oggetto chiamando i metodi statici in Dataset.Tabular e usando il take_sample metodo . Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
to_pandas_dataframe	Creare un dataframe Pandas eseguendo la pipeline di trasformazione definita da questa definizione del set di dati. Nota Questo metodo è deprecato e non sarà più supportato. Creare un TabularDataset oggetto chiamando i metodi statici in Dataset.Tabular e usando il to_pandas_dataframe metodo . Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
to_spark_dataframe	Creare un dataframe Spark in grado di eseguire la pipeline di trasformazione definita da questa definizione del set di dati. Nota Questo metodo è deprecato e non sarà più supportato. Creare un TabularDataset oggetto chiamando i metodi statici in Dataset.Tabular e usando il to_spark_dataframe metodo . Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
update	Aggiornare gli attributi modificabili del set di dati nell'area di lavoro e restituire il set di dati aggiornato dall'area di lavoro. Nota Questo metodo è deprecato e non sarà più supportato. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
update_definition	Aggiornare la definizione del set di dati. Nota Questo metodo è deprecato e non sarà più supportato. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

auto_read_files

Analizza i file nel percorso specificato e restituisce un nuovo set di dati.

Nota

Questo metodo è deprecato e non sarà più supportato.

È consigliabile usare i metodi Dataset.Tabular.from_* per leggere i file. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

static auto_read_files(path, include_path=False, partition_format=None)

Parametri

path: DataReference oppure str

Necessario

Un percorso dati in un archivio dati registrato, un percorso locale o un URL HTTP (CSV/TSV).

include_path: bool

Necessario

Indica se includere una colonna contenente il percorso del file da cui sono stati letti i dati. Utile quando si leggono più file e si vuole sapere da quale file ha avuto origine un determinato record. Utile anche se sono presenti informazioni nel percorso del file o nel nome desiderato in una colonna.

partition_format: str

Necessario

Specificare il formato di partizione nel percorso e creare colonne stringa dal formato '{x}' e dalla colonna datetime dal formato '{x:aaaa/MM/dd/HH/mm/ss}', dove 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per aggiungere extrat year, month, day, hour, minute e second per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato un percorso di file '.. /Accounts/2019/01/01/data.csv' in cui i dati vengono partizionati in base al nome e all'ora del reparto, è possibile definire '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' per creare colonne 'Department' di tipo stringa e 'PartitionDate' di tipo datetime.

Restituisce

Oggetto Dataset.

Tipo restituito

Dataset

Commenti

Utilizzare questo metodo quando è necessario che vengano rilevati automaticamente formati di file e delimitatori.

Dopo aver creato un set di dati, è consigliabile usare get_profile per elencare i tipi di colonna rilevati e le statistiche di riepilogo per ogni colonna.

Il set di dati restituito non è registrato nell'area di lavoro.

compare_profiles

Confrontare il profilo del set di dati corrente con un altro profilo del set di dati.

Ciò mostra le differenze nelle statistiche di riepilogo tra due set di dati. Il parametro 'rhs_dataset' è l'acronimo di "right-hand side" ed è semplicemente il secondo set di dati. Il primo set di dati (l'oggetto set di dati corrente) viene considerato il "lato sinistro".

Nota

Questo metodo è deprecato e non sarà più supportato.

Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parametri

rhs_dataset: Dataset

Necessario

Un secondo set di dati, detto anche set di dati sul lato destro per il confronto.

profile_arguments: dict

Necessario

Argomenti per ritentare un profilo specifico.

include_columns: list[str]

Necessario

Elenco di nomi di colonna da includere nel confronto.

exclude_columns: list[str]

Necessario

Elenco di nomi di colonna da escludere nel confronto.

histogram_compare_method: HistogramCompareMethod

Necessario

Enumerazione che descrive il metodo di confronto, ad esempio Devicestein o Energy

Restituisce

Differenza tra i due profili del set di dati.

Tipo restituito

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Commenti

Questo vale solo per i set di dati registrati. Genera un'eccezione se il profilo del set di dati corrente non esiste. Per i set di dati non registrati, usare il metodo profile.compare.

create_snapshot

Creare uno snapshot del set di dati registrato.

Nota

Questo metodo è deprecato e non sarà più supportato.

Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parametri

snapshot_name: str

Necessario

Nome dello snapshot. I nomi degli snapshot devono essere univoci all'interno di un set di dati.

compute_target: Union[ComputeTarget, str]

Necessario

Destinazione di calcolo facoltativa per eseguire la creazione del profilo snapshot. Se omesso, viene usato il calcolo locale.

create_data_snapshot: bool

Necessario

Se True, verrà creata una copia materializzata dei dati.

target_datastore: Union[AbstractAzureStorageDatastore, str]

Necessario

Archivio dati di destinazione per salvare lo snapshot. Se omesso, lo snapshot verrà creato nella risorsa di archiviazione predefinita dell'area di lavoro.

Restituisce

Oggetto snapshot del set di dati.

Tipo restituito

DatasetSnapshot

Commenti

Gli snapshot acquisisce statistiche di riepilogo temporizzato dei dati sottostanti e una copia facoltativa dei dati stessi. Per altre informazioni sulla creazione di snapshot, passare a https://aka.ms/azureml/howto/createsnapshots.

delete_snapshot

Eliminare lo snapshot del set di dati in base al nome.

Nota

Questo metodo è deprecato e non sarà più supportato.

Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Parametri

snapshot_name: str

Necessario

Nome dello snapshot.

Restituisce

Nessuno.

Tipo restituito

None

Commenti

Usare questa opzione per liberare spazio di archiviazione utilizzato dai dati salvati negli snapshot che non sono più necessari.

deprecate

Deprecare un set di dati attivo in un'area di lavoro da un altro set di dati.

Nota

Questo metodo è deprecato e non sarà più supportato.

Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Parametri

deprecate_by_dataset_id: str

Necessario

ID set di dati che rappresenta la sostituzione prevista per questo set di dati.

Restituisce

Nessuno.

Tipo restituito

None

Commenti

I set di dati deprecati registrano avvisi quando vengono utilizzati. La deprecazione di un set di dati depreca tutte le relative definizioni.

I set di dati deprecati possono comunque essere utilizzati. Per impedire completamente l'utilizzo di un set di dati, archiviarlo.

Se deprecato per errore, riattivarlo lo attiverà.

diff

Diff il set di dati corrente con rhs_dataset.

Nota

Questo metodo è deprecato e non sarà più supportato.

Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Parametri

rhs_dataset: Dataset

Necessario

Un altro set di dati denominato anche Set di dati a destra per il confronto

compute_target: Union[ComputeTarget, str]

Necessario

destinazione di calcolo per eseguire il diff. Se omesso, viene usato il calcolo locale.

columns: list[str]

Necessario

Elenco di nomi di colonna da includere in diff.

Restituisce

Oggetto esecuzione azione set di dati.

Tipo restituito

DatasetActionRun

from_binary_files

Creare un set di dati in memoria non registrato da file binari.

Nota

Questo metodo è deprecato e non sarà più supportato.

È consigliabile usare invece Dataset.File.from_files. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

static from_binary_files(path)

Parametri

path: DataReference oppure str

Necessario

Percorso dati in un archivio dati registrato o in un percorso locale.

Restituisce

Oggetto Dataset.

Tipo restituito

Dataset

Commenti

Usare questo metodo per leggere i file come flussi di dati binari. Restituisce un oggetto flusso di file per ogni file letto. Usare questo metodo quando si leggono immagini, video, audio o altri dati binari.

get_profile e create_snapshot non funzionerà come previsto per un set di dati creato da questo metodo.

Il set di dati restituito non è registrato nell'area di lavoro.

from_delimited_files

Creare un set di dati non registrato in memoria da file delimitati.

Nota

Questo metodo è deprecato e non sarà più supportato.

È consigliabile usare invece Dataset.Tabular.from_delimited_files. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()

static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

Parametri

path: DataReference oppure str

Necessario

Percorso dati in un archivio dati registrato, un percorso locale o un URL HTTP.

separator: str

Necessario

Separatore utilizzato per suddividere le colonne.

header: PromoteHeadersBehavior

Necessario

Controlla la modalità di innalzamento di livello delle intestazioni di colonna durante la lettura dai file.

encoding: FileEncoding

Necessario

Codifica dei file letti.

quoting: bool

Necessario

Specificare come gestire i nuovi caratteri di riga tra virgolette. L'impostazione predefinita (False) consiste nell'interpretare i nuovi caratteri di riga come inizio di nuove righe, indipendentemente dal fatto che i nuovi caratteri siano racchiusi tra virgolette o meno. Se è impostata su True, i nuovi caratteri di riga all'interno delle virgolette non generano nuove righe e la velocità di lettura dei file rallenta.

infer_column_types: bool

Necessario

Indica se i tipi di dati della colonna vengono dedotti.

skip_rows: int

Necessario

Numero di righe da ignorare nella lettura dei file.

skip_mode: SkipLinesBehavior

Necessario

Controlla il modo in cui le righe vengono ignorate durante la lettura dai file.

comment: str

Necessario

Carattere utilizzato per indicare le righe di commento nei file letti. Le righe che iniziano con questa stringa verranno ignorate.

include_path: bool

Necessario

Indica se includere una colonna contenente il percorso del file da cui sono stati letti i dati. Ciò è utile quando si leggono più file e si vuole conoscere il file da cui ha origine un determinato record o per mantenere informazioni utili nel percorso del file.

archive_options: <xref:azureml.dataprep.ArchiveOptions>

Necessario

Opzioni per il file di archivio, tra cui il tipo di archivio e il modello glob di voce. Attualmente è supportato solo ZIP come tipo di archivio. Ad esempio, specificando


   archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')

legge tutti i file con nome che terminano con "10-20.csv" in ZIP.

partition_format: str

Necessario

Restituisce

Oggetto Dataset.

Tipo restituito

Dataset

Commenti

Utilizzare questo metodo per leggere i file di testo delimitati quando si desidera controllare le opzioni utilizzate.

Dopo aver creato un set di dati, è consigliabile usare get_profile per elencare i tipi di colonna rilevati e le statistiche di riepilogo per ogni colonna.

Il set di dati restituito non è registrato nell'area di lavoro.

from_excel_files

Creare un set di dati non registrato in memoria dai file di Excel.

Nota

Questo metodo è deprecato e non sarà più supportato.

Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Parametri

path: DataReference oppure str

Necessario

Percorso dati in un archivio dati registrato o in un percorso locale.

sheet_name: str

Necessario

Nome del foglio di Excel da caricare. Per impostazione predefinita, il primo foglio viene letto da ogni file di Excel.

use_column_headers: bool

Necessario

Controlla se utilizzare la prima riga come intestazioni di colonna.

skip_rows: int

Necessario

Numero di righe da ignorare nella lettura dei file.

include_path: bool

Necessario

infer_column_types: bool

Necessario

Se true, i tipi di dati della colonna verranno dedotti.

partition_format: str

Necessario

Specificare il formato di partizione nel percorso e creare colonne stringa dal formato '{x}' e dalla colonna datetime dal formato '{x:aaaa/MM/dd/HH/mm/ss}', dove 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per aggiungere extrat year, month, day, hour, minute e second per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato un percorso di file '.. /Accounts/2019/01/01/data.xlsx' in cui i dati vengono partizionati in base al nome e all'ora del reparto, è possibile definire '/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx' per creare colonne 'Department' di tipo stringa e 'PartitionDate' di tipo datetime.

Restituisce

Oggetto Dataset.

Tipo restituito

Dataset

Commenti

Utilizzare questo metodo per leggere i file di Excel in formato .xlsx. I dati possono essere letti da un foglio in ogni file di Excel. Dopo aver creato un set di dati, è consigliabile usare get_profile per elencare i tipi di colonna rilevati e le statistiche di riepilogo per ogni colonna. Il set di dati restituito non è registrato nell'area di lavoro.

from_json_files

Creare un set di dati in memoria non registrato da file JSON.

Nota

Questo metodo è deprecato e non sarà più supportato.

È consigliabile usare invece Dataset.Tabular.from_json_lines_files per leggere dal file di righe JSON. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

Parametri

path: DataReference oppure str

Necessario

Percorso dei file o delle cartelle da caricare e analizzare. Può essere un percorso locale o un URL DEL BLOB di Azure. Globbing è supportato. Ad esempio, è possibile usare path = "./data*" per leggere tutti i file con il nome che inizia con "data".

encoding: FileEncoding

Necessario

Codifica dei file letti.

flatten_nested_arrays: bool

Necessario

Controllo delle proprietà della gestione del programma di matrici annidate. Se si sceglie di rendere flat le matrici JSON nidificate, potrebbe verificarsi un numero molto maggiore di righe.

include_path: bool

Necessario

Indica se includere una colonna contenente il percorso da cui sono stati letti i dati. Ciò è utile quando si leggono più file e potrebbe essere necessario conoscere il file da cui ha origine un determinato record o mantenere informazioni utili nel percorso del file.

partition_format: str

Necessario

Specificare il formato di partizione nel percorso e creare colonne stringa dal formato '{x}' e dalla colonna datetime dal formato '{x:aaaa/MM/dd/HH/mm/ss}', dove 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per aggiungere extrat year, month, day, hour, minute e second per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato un percorso di file '.. /Accounts/2019/01/01/data.json' e i dati sono partizionati in base al nome e all'ora del reparto, è possibile definire '/{Department}/{PartitionDate:yyyy/MM/dd}/data.json' per creare colonne 'Department' di tipo stringa e 'PartitionDate' di tipo datetime.

Restituisce

Oggetto Dataset locale.

Tipo restituito

Dataset

from_pandas_dataframe

Creare un set di dati non registrato in memoria da un dataframe pandas.

Nota

Questo metodo è deprecato e non sarà più supportato.

È consigliabile usare invece Dataset.Tabular.register_pandas_dataframe. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

Parametri

dataframe: DataFrame

Necessario

DataFrame Pandas.

path: Union[DataReference, str]

Necessario

Percorso dati nell'archivio dati registrato o nel percorso della cartella locale.

in_memory: bool

Necessario

Indica se leggere il dataframe dalla memoria invece di renderlo persistente su disco.

Restituisce

Oggetto Dataset.

Tipo restituito

Dataset

Commenti

Utilizzare questo metodo per convertire un dataframe Pandas in un oggetto Dataset. Non è possibile registrare un set di dati creato da questo metodo, perché i dati provengono dalla memoria.

Se in_memory è False, il dataframe Pandas viene convertito in un file CSV in locale. Se pat è di tipo DataReference, il frame Pandas verrà caricato nell'archivio dati e il set di dati verrà basato su DataReference. Se ''path' è una cartella locale, il set di dati verrà creato al di fuori del file locale che non può essere eliminato.

Genera un'eccezione se l'oggetto DataReference corrente non è un percorso di cartella.

from_parquet_files

Creare un set di dati in memoria non registrato da file parquet.

Nota

Questo metodo è deprecato e non sarà più supportato.

È consigliabile usare invece Dataset.Tabular.from_parquet_files. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

static from_parquet_files(path, include_path=False, partition_format=None)

Parametri

path: DataReference oppure str

Necessario

Percorso dati in un archivio dati registrato o in un percorso locale.

include_path: bool

Necessario

partition_format: str

Necessario

Specificare il formato di partizione nel percorso e creare colonne stringa dal formato '{x}' e dalla colonna datetime dal formato '{x:aaaa/MM/dd/HH/mm/ss}', dove 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per aggiungere extrat year, month, day, hour, minute e second per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato un percorso di file '.. /Accounts/2019/01/01/data.parquet' in cui i dati vengono partizionati in base al nome e all'ora del reparto, è possibile definire '/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' per creare colonne 'Department' di tipo stringa e 'PartitionDate' di tipo datetime.

Restituisce

Oggetto Dataset.

Tipo restituito

Dataset

Commenti

Usare questo metodo per leggere i file Parquet.

Dopo aver creato un set di dati, è consigliabile usare get_profile per elencare i tipi di colonna rilevati e le statistiche di riepilogo per ogni colonna.

Il set di dati restituito non è registrato nell'area di lavoro.

from_sql_query

Creare un set di dati in memoria non registrato da una query SQL.

Nota

Questo metodo è deprecato e non sarà più supportato.

È consigliabile usare invece Dataset.Tabular.from_sql_query. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

static from_sql_query(data_source, query)

Parametri

data_source: AzureSqlDatabaseDatastore

Necessario

Dettagli dell'archivio dati Azure SQL.

query: str

Necessario

Query da eseguire per leggere i dati.

Restituisce

Oggetto Dataset locale.

Tipo restituito

Dataset

generate_profile

Generare un nuovo profilo per il set di dati.

Nota

Questo metodo è deprecato e non sarà più supportato.

Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Parametri

compute_target: Union[ComputeTarget, str]

Necessario

Destinazione di calcolo facoltativa per eseguire la creazione del profilo snapshot. Se omesso, viene usato il calcolo locale.

workspace: Workspace

Necessario

Area di lavoro, necessaria per i set di dati temporanei (non registrati).

arguments: dict[str, object]

Necessario

Argomenti del profilo. Gli argomenti validi sono:

'include_stype_counts' di tipo bool. Controllare se i valori sono simili ad alcuni tipi semantici noti, ad esempio indirizzo di posta elettronica, indirizzo IP (V4/V6), numero di telefono degli Stati Uniti, cap degli Stati Uniti, latitudine/longitudine. L'abilitazione di questo influisce sulle prestazioni.
'number_of_histogram_bins' di tipo int. Rappresenta il numero di bin istogrammi da utilizzare per i dati numerici. Il valore predefinito è 10.

Restituisce

Oggetto esecuzione azione set di dati.

Tipo restituito

DatasetActionRun

Commenti

La chiamata sincrona verrà bloccata fino al completamento. Chiamare get_result per ottenere il risultato dell'azione.

get

Ottenere un set di dati già esistente nell'area di lavoro specificandone il nome o l'ID.

Nota

Questo metodo è deprecato e non sarà più supportato.

È consigliabile usare get_by_name e get_by_id . Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

static get(workspace, name=None, id=None)

Parametri

workspace: Workspace

Necessario

Area di lavoro AzureML esistente in cui è stato creato il set di dati.

name: str

Necessario

Nome del set di dati da recuperare.

id: str

Necessario

Identificatore univoco del set di dati nell'area di lavoro.

Restituisce

Set di dati con il nome o l'ID specificati.

Tipo restituito

Dataset

Commenti

È possibile specificare name o id. Viene generata un'eccezione se:

sia name che id sono specificati, ma non corrispondono.
Il set di dati con l'oggetto specificato name o id non può essere trovato nell'area di lavoro.

get_all

Ottenere tutti i set di dati registrati nell'area di lavoro.

get_all()

Parametri

workspace: Workspace

Necessario

Area di lavoro AzureML esistente in cui sono stati registrati i set di dati.

Restituisce

Dizionario di oggetti TabularDataset e FileDataset con chiave in base al nome della registrazione.

Tipo restituito

dict[str, Union[TabularDataset, FileDataset]]

get_all_snapshots

Ottenere tutti gli snapshot del set di dati.

Nota

Questo metodo è deprecato e non sarà più supportato.

Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

get_all_snapshots()

Restituisce

Elenco di snapshot del set di dati.

Tipo restituito

list[DatasetSnapshot]

get_by_id

Ottenere un set di dati salvato nell'area di lavoro.

get_by_id(id, **kwargs)

Parametri

workspace: Workspace

Necessario

Area di lavoro AzureML esistente in cui viene salvato il set di dati.

id: str

Necessario

ID del set di dati.

Restituisce

Oggetto set di dati. Se il set di dati è registrato, verrà restituito anche il nome e la versione della registrazione.

Tipo restituito

Union[TabularDataset, FileDataset]

get_by_name

Ottenere un set di dati registrato dall'area di lavoro in base al nome della registrazione.

get_by_name(name, version='latest', **kwargs)

Parametri

workspace: Workspace

Necessario

Area di lavoro AzureML esistente in cui è stato registrato il set di dati.

name: str

Necessario

Nome della registrazione.

version: int

Necessario

Versione di registrazione. Il valore predefinito è "latest".

Restituisce

Oggetto set di dati registrato.

Tipo restituito

Union[TabularDataset, FileDataset]

get_definition

Ottenere una definizione specifica del set di dati.

Nota

Questo metodo è deprecato e non sarà più supportato.

Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Parametri

version_id: str

Necessario

ID versione della definizione del set di dati

Restituisce

Definizione del set di dati.

Tipo restituito

DatasetDefinition

Commenti

Se version_id viene specificato, Azure Machine Learning tenta di ottenere la definizione corrispondente a tale versione. Se tale versione non esiste, viene generata un'eccezione. Se version_id viene omesso, viene recuperata la versione più recente.

get_definitions

Ottenere tutte le definizioni del set di dati.

Nota

Questo metodo è deprecato e non sarà più supportato.

Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

get_definitions()

Restituisce

Dizionario delle definizioni del set di dati.

Tipo restituito

dict[str, DatasetDefinition]

Commenti

Per i set di dati non registrati, esiste una sola definizione.

get_profile

Ottenere statistiche di riepilogo sul set di dati calcolato in precedenza.

Nota

Questo metodo è deprecato e non sarà più supportato.

Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Parametri

arguments: dict[str, object]

Necessario

Argomenti del profilo.

generate_if_not_exist: bool

Necessario

Indica se generare un profilo se non esiste.

workspace: Workspace

Necessario

Area di lavoro, necessaria per i set di dati temporanei (non registrati).

compute_target: Union[ComputeTarget, str]

Necessario

Destinazione di calcolo per eseguire l'azione del profilo.

Restituisce

DataProfile del set di dati.

Tipo restituito

<xref:azureml.dataprep.DataProfile>

Commenti

Per un set di dati registrato con un'area di lavoro di Azure Machine Learning, questo metodo recupera un profilo esistente creato in precedenza chiamando get_profile se è ancora valido. I profili vengono invalidati quando vengono rilevati dati modificati nel set di dati o gli argomenti per get_profile sono diversi da quelli usati quando è stato generato il profilo. Se il profilo non è presente o invalidato, generate_if_not_exist determinerà se viene generato un nuovo profilo.

Per un set di dati non registrato in un'area di lavoro di Azure Machine Learning, questo metodo viene sempre eseguito generate_profile e restituisce il risultato.

get_snapshot

Ottenere lo snapshot del set di dati in base al nome.

Nota

Questo metodo è deprecato e non sarà più supportato.

Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Parametri

snapshot_name: str

Necessario

Nome dello snapshot.

Restituisce

Oggetto snapshot del set di dati.

Tipo restituito

DatasetSnapshot

head

Eseguire il pull del numero specificato di record specificati da questo set di dati e restituirli come dataframe.

Nota

Questo metodo è deprecato e non sarà più supportato.

Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

head(count)

Parametri

count: int

Necessario

Numero di record da estrarre.

Restituisce

Un dataframe Pandas.

Tipo restituito

DataFrame

list

Elencare tutti i set di dati nell'area di lavoro, inclusi quelli con is_visible proprietà uguale a False.

Nota

Questo metodo è deprecato e non sarà più supportato.

È consigliabile usare get_all invece . Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

static list(workspace)

Parametri

workspace: Workspace

Necessario

Area di lavoro per cui si desidera recuperare l'elenco di set di dati.

Restituisce

Elenco di oggetti Dataset.

Tipo restituito

list[Dataset]

reactivate

Riattivare un set di dati archiviato o deprecato.

Nota

Questo metodo è deprecato e non sarà più supportato.

Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

reactivate()

Restituisce

Nessuno.

Tipo restituito

None

register

Registrare il set di dati nell'area di lavoro, rendendolo disponibile ad altri utenti dell'area di lavoro.

Nota

Questo metodo è deprecato e non sarà più supportato.

È consigliabile usare register invece . Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Parametri

workspace: Workspace

Necessario

Area di lavoro di AzureML in cui registrare il set di dati.

name: str

Necessario

Nome del set di dati nell'area di lavoro.

description: str

Necessario

Descrizione del set di dati.

tags: dict[str, str]

Necessario

Tag da associare al set di dati.

visible: bool

Necessario

Indica se il set di dati è visibile nell'interfaccia utente. Se False, il set di dati viene nascosto nell'interfaccia utente e disponibile tramite SDK.

exist_ok: bool

Necessario

Se True, il metodo restituisce il set di dati, se esiste già nell'area di lavoro specificata, altrimenti si verifica un errore.

update_if_exist: bool

Necessario

Se exist_ok è True e update_if_exist è True, questo metodo aggiornerà la definizione e restituirà il set di dati aggiornato.

Restituisce

Oggetto Dataset registrato nell'area di lavoro.

Tipo restituito

Dataset

sample

Generare un nuovo esempio dal set di dati di origine usando la strategia di campionamento e i parametri forniti.

Nota

Questo metodo è deprecato e non sarà più supportato.

Creare un TabularDataset oggetto chiamando i metodi statici in Dataset.Tabular e usando il take_sample metodo . Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Parametri

sample_strategy: str

Necessario

Strategia di esempio da usare. I valori accettati sono "top_n", "simple_random" o "stratificati".

arguments: dict[str, object]

Necessario

Dizionario con chiavi dell'argomento "Argomento facoltativo" nell'elenco illustrato in precedenza e valori della colonna "Type". È possibile utilizzare solo gli argomenti del metodo di campionamento corrispondente. Ad esempio, per un tipo di esempio "simple_random", è possibile specificare solo un dizionario con chiavi "probabilità" e "valore di inizializzazione".

Restituisce

Oggetto Dataset come esempio del set di dati originale.

Tipo restituito

Dataset

Commenti

Gli esempi vengono generati eseguendo la pipeline di trasformazione definita da questo set di dati e quindi applicando la strategia e i parametri di campionamento ai dati di output. Ogni metodo di campionamento supporta gli argomenti facoltativi seguenti:

top_n
- Argomenti facoltativi
  - n, digitare integer. Selezionare le prime N righe come esempio.
simple_random
- Argomenti facoltativi
  - probabilità, tipo float. Campionamento casuale semplice in cui ogni riga ha la stessa probabilità di essere selezionata. La probabilità deve essere un numero compreso tra 0 e 1.
  - valore di inizializzazione, tipo float. Utilizzato dal generatore di numeri casuali. Usare per la ripetibilità.
Stratificato
- Argomenti facoltativi
  - columns, type list[str]. Elenco di colonne strata nei dati.
  - valore di inizializzazione, tipo float. Utilizzato dal generatore di numeri casuali. Usare per la ripetibilità.
  - fractions, type dict[tuple, float]. Tupla: i valori di colonna che definiscono uno strato devono essere nello stesso ordine dei nomi di colonna. Float: peso collegato a uno strato durante il campionamento.

I frammenti di codice seguenti sono modelli di progettazione di esempio per metodi di esempio diversi.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Creare un dataframe Pandas eseguendo la pipeline di trasformazione definita da questa definizione del set di dati.

Nota

Questo metodo è deprecato e non sarà più supportato.

Creare un TabularDataset oggetto chiamando i metodi statici in Dataset.Tabular e usando il to_pandas_dataframe metodo . Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Restituisce

Un dataframe Pandas.

Tipo restituito

DataFrame

Commenti

Restituisce un dataframe Pandas completamente materializzato in memoria.

to_spark_dataframe

Creare un dataframe Spark in grado di eseguire la pipeline di trasformazione definita da questa definizione del set di dati.

Nota

Questo metodo è deprecato e non sarà più supportato.

Creare un TabularDataset oggetto chiamando i metodi statici in Dataset.Tabular e usando il to_spark_dataframe metodo . Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Restituisce

Un dataframe Spark.

Tipo restituito

DataFrame

Commenti

Il dataframe Spark restituito è solo un piano di esecuzione e non contiene effettivamente dati, poiché i dataframe Spark vengono valutati in modo differito.

update

Aggiornare gli attributi modificabili del set di dati nell'area di lavoro e restituire il set di dati aggiornato dall'area di lavoro.

Nota

Questo metodo è deprecato e non sarà più supportato.

Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Parametri

name: str

Necessario

Nome del set di dati nell'area di lavoro.

description: str

Necessario

Descrizione dei dati.

tags: dict[str, str]

Necessario

Tag a cui associare il set di dati.

visible: bool

Necessario

Indica se il set di dati è visibile nell'interfaccia utente.

Restituisce

Oggetto Dataset aggiornato dall'area di lavoro.

Tipo restituito

Dataset

update_definition

Aggiornare la definizione del set di dati.

Nota

Questo metodo è deprecato e non sarà più supportato.

Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Parametri

definition: DatasetDefinition

Necessario

Nuova definizione di questo set di dati.

definition_update_message: str

Necessario

Messaggio di aggiornamento della definizione.

Restituisce

Oggetto Dataset aggiornato dall'area di lavoro.

Tipo restituito

Dataset

Commenti

Per utilizzare il set di dati aggiornato, usare l'oggetto restituito da questo metodo.

Attributi

definition

Restituisce la definizione del set di dati corrente.

Nota

Questo metodo è deprecato e non sarà più supportato.

Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

Restituisce

Definizione del set di dati.

Tipo restituito

DatasetDefinition

Commenti

Una definizione del set di dati è una serie di passaggi che specificano come leggere e trasformare i dati.

Un set di dati registrato in un'area di lavoro di AzureML può avere più definizioni, ognuna creata chiamando update_definition. Ogni definizione ha un identificatore univoco. La presenza di più definizioni consente di apportare modifiche ai set di dati esistenti senza interrompere modelli e pipeline che dipendono dalla definizione precedente.

Per i set di dati non registrati, esiste una sola definizione.

definition_version

Restituisce la versione della definizione corrente del set di dati.

Nota

Questo metodo è deprecato e non sarà più supportato.

Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

Restituisce

Versione della definizione del set di dati.

Tipo restituito

str

Commenti

Una definizione del set di dati è una serie di passaggi che specificano come leggere e trasformare i dati.

Un set di dati registrato in un'area di lavoro di AzureML può avere più definizioni, ognuna creata chiamando update_definition. Ogni definizione ha un identificatore univoco. La definizione corrente è l'ultima creata, il cui ID viene restituito da questo.

Per i set di dati non registrati, esiste una sola definizione.

description

Restituisce la descrizione del set di dati.

Restituisce

Descrizione del set di dati.

Tipo restituito

str

Commenti

Specificare una descrizione dei dati nel set di dati consente agli utenti dell'area di lavoro di comprendere cosa rappresentano i dati e come usarli.

id

Se il set di dati è stato registrato in un'area di lavoro, restituire l'ID del set di dati. In caso contrario, restituisce Nessuno.

Restituisce

ID set di dati.

Tipo restituito

str

is_visible

Controllare la visibilità di un set di dati registrato nell'interfaccia utente dell'area di lavoro di Azure ML.

Nota

Questo metodo è deprecato e non sarà più supportato.

Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

Restituisce

Visibilità del set di dati.

Tipo restituito

bool

Commenti

Valori restituiti:

True: il set di dati è visibile nell'interfaccia utente dell'area di lavoro. Valore predefinito.
False: il set di dati è nascosto nell'interfaccia utente dell'area di lavoro.

Non ha alcun effetto sui set di dati non registrati.

name

Restituisce il nome del set di dati.

Restituisce

Nome del set di dati.

Tipo restituito

str

state

Restituisce lo stato del set di dati.

Nota

Questo metodo è deprecato e non sarà più supportato.

Per altre informazioni, vedere https://aka.ms/dataset-deprecation.

Restituisce

Stato del set di dati.

Tipo restituito

str

Commenti

Il significato e l'effetto degli stati sono i seguenti:

Attivo. Le definizioni attive sono esattamente simili, tutte le azioni possono essere eseguite sulle definizioni attive.
Deprecato. La definizione deprecata può essere usata, ma genererà un avviso registrato nei log ogni volta che si accede ai dati sottostanti.
Archiviati. Non è possibile utilizzare una definizione archiviata per eseguire alcuna azione. Per eseguire azioni su una definizione archiviata, è necessario riattivarla.

workspace

Se il set di dati è stato registrato in un'area di lavoro, restituirne il valore. In caso contrario, restituisce Nessuno.

Restituisce

Area di lavoro.

Tipo restituito

Workspace

Tabular

Factory per la creazione FileDataset

alias di TabularDatasetFactory