FileDatasetFactory Classe

Riferimento

Contiene metodi per creare un set di dati di file per Azure Machine Learning.

Viene FileDataset creato dal from_files metodo definito in questa classe.

Per altre informazioni sull'uso dei set di dati di file, vedere il notebook https://aka.ms/filedataset-samplenotebook.

Ereditarietà: builtins.object

FileDatasetFactory

Costruttore

FileDatasetFactory()

Metodi

from_files	Creare un FileDataset per rappresentare i flussi di file.
upload_directory	Creare un set di dati dalla directory di origine.

from_files

Creare un FileDataset per rappresentare i flussi di file.

static from_files(path, validate=True, partition_format=None, is_file=False)

Parametri

path: Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]

Necessario

Percorso dei file di origine, che possono essere un singolo valore o un elenco di stringhe url (http[s]|abfs[s]|wasb[s]), DataPath oggetto o tuple di Datastore e percorso relativo. Si noti che l'elenco di percorsi non può includere sia url che archivi dati insieme.

validate: bool

Necessario

Indica se è possibile convalidare se i dati possono essere caricati dal set di dati restituito. Impostazione predefinita su True. La convalida richiede che l'origine dati sia accessibile dal calcolo corrente.

partition_format: str

Necessario

Specificare il formato di partizione del percorso. Il valore predefinito è Nessuna. Le informazioni di partizione di ogni percorso verranno estratte in colonne in base al formato specificato. La parte di formato '{column_name}' crea una colonna stringa e '{column_name:y/MM/dd/HH/mm/ss}' crea una colonna datetime, dove 'y', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per estrarre anno, mese, giorno, ora e secondo per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato il percorso '.. /Accounts/2019/01/01/data.jsonl' in cui la partizione è in base al nome e all'ora del reparto, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' crea una colonna stringa 'Department' con il valore 'Accounts' e una colonna datetime 'PartitionDate' con il valore '2019-01-01'.

is_file: bool

Necessario

Indica se tutti i percorsi di input puntano ai file. Il motore del set di dati per impostazione predefinita tenta di verificare se i percorsi di input puntano ai file. Impostare questo flag su True quando tutti i percorsi di input sono File per velocizzare la creazione del set di dati.

Restituisce

Un oggetto FileDataset.

Tipo restituito

FileDataset

Commenti

from_files crea un oggetto di classe, che definisce le operazioni per caricare i flussi di FileDataset file dal percorso specificato.

Affinché i dati siano accessibili da Azure Machine Learning, i file specificati path da devono trovarsi in un Datastore oggetto o essere accessibili con URL Web pubblici o URL di BLOB, ADLS Gen1 e ADLS Gen2.

Il token AAD degli utenti verrà usato nel notebook o nel programma Python locale se chiama direttamente una di queste funzioni: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l'identità della destinazione di calcolo verrà usata nei processi inviati da Experiment.submit per l'autenticazione di accesso ai dati. Ulteriori informazioni: https://aka.ms/data-access


   from azureml.core import Dataset, Datastore

   # create file dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))

   # create file dataset from a single directory in datastore
   file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))

   # create file dataset from all jpeg files in the directory
   file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))

   # create filedataset from multiple paths
   data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
   file_dataset_4 = Dataset.File.from_files(path=data_paths)

   # create file dataset from url
   file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')

upload_directory

Creare un set di dati dalla directory di origine.

static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)

Parametri

src_dir: str

Necessario

Directory locale da caricare.

target: Union[DataPath, Datastore, tuple(Datastore, str)]

Necessario

Obbligatorio, il percorso dell'archivio dati in cui verranno caricati i file.

pattern: str

Necessario

Facoltativo, se specificato, filtra tutti i nomi di percorso corrispondenti al modello specificato, simile al pacchetto glob Python, che supporta '*', '?' e gli intervalli di caratteri espressi con [].

show_progress: bool

Necessario

Facoltativo, indica se visualizzare lo stato di avanzamento del caricamento nella console. Le impostazioni predefinite sono True.

Restituisce

Set di dati registrato.

Tipo restituito

FileDataset

FileDatasetFactory Classe

Costruttore

Metodi

from_files

Parametri

Restituisce

Tipo restituito

Commenti

upload_directory

Parametri

Restituisce

Tipo restituito

Commenti e suggerimenti

Commenti e suggerimenti

Risorse aggiuntive