FileDatasetFactory Klass

Innehåller metoder för att skapa en fildatauppsättning för Azure Machine Learning.

En FileDataset skapas från metoden som from_files definierats i den här klassen.

Mer information om hur du arbetar med fildatauppsättningar finns i notebook-filen https://aka.ms/filedataset-samplenotebook.

Arv
builtins.object
FileDatasetFactory

Konstruktor

FileDatasetFactory()

Metoder

from_files

Skapa en FileDataset som representerar filströmmar.

upload_directory

Skapa en datauppsättning från källkatalogen.

from_files

Skapa en FileDataset som representerar filströmmar.

static from_files(path, validate=True, partition_format=None, is_file=False)

Parametrar

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Obligatorisk

Sökvägen till källfilerna, som kan vara ett enskilt värde eller en lista med URL-sträng (http[s]|abfs[s]|wasb[s]), DataPath objekt eller tuppel för Datastore och relativ sökväg. Observera att listan över sökvägar inte kan inkludera både URL:er och datalager tillsammans.

validate
bool
Obligatorisk

Anger om du vill verifiera om data kan läsas in från den returnerade datauppsättningen. Standardvärdet är True. Verifieringen kräver att datakällan är tillgänglig från den aktuella beräkningen.

partition_format
str
Obligatorisk

Ange partitionsformatet för sökvägen. Standardvärdet är Ingen. Partitionsinformationen för varje sökväg extraheras till kolumner baserat på det angivna formatet. Formatdelen {column_name} skapar strängkolumnen och {column_name:åååå/MM/dd/HH/mm/ss} skapar datetime-kolumnen, där "åå", "MM", "dd", "HH", "mm" och "ss" används för att extrahera år, månad, dag, timme, minut och sekund för datetime-typen. Formatet bör börja från positionen för den första partitionsnyckeln till slutet av filsökvägen. Till exempel med tanke på sökvägen .. /Accounts/2019/01/01/data.jsonl' där partitionen är efter avdelningsnamn och tid, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' skapar en strängkolumn 'Avdelning' med värdet 'Konton' och en datetime-kolumn 'PartitionDate' med värdet '2019-01-01'.

is_file
bool
Obligatorisk

Anger om alla indatasökvägar pekar på filer. Datauppsättningsmotorn försöker som standard kontrollera om indatasökvägar pekar på filer. Ställ in den här flaggan på Sant när alla indatasökvägar är Fil för att påskynda skapandet av datauppsättningen.

Returer

Ett FileDataset -objekt.

Returtyp

Kommentarer

from_files skapar ett objekt av FileDataset klassen som definierar åtgärderna för att läsa in filströmmar från den angivna sökvägen.

För att data ska kunna nås av Azure Machine Learning måste filerna som anges av path finnas i en Datastore eller vara tillgängliga med offentliga webb-URL:er eller URL:en för Blob, ADLS Gen1 och ADLS Gen2.

användarnas AAD-token används i notebook-filer eller lokala Python-program om den anropar någon av följande funktioner direkt: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files beräkningsmålets identitet används i jobb som skickas av Experiment.submit för autentisering av dataåtkomst. Lära sig mer: https://aka.ms/data-access


   from azureml.core import Dataset, Datastore

   # create file dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))

   # create file dataset from a single directory in datastore
   file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))

   # create file dataset from all jpeg files in the directory
   file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))

   # create filedataset from multiple paths
   data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
   file_dataset_4 = Dataset.File.from_files(path=data_paths)

   # create file dataset from url
   file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')

upload_directory

Skapa en datauppsättning från källkatalogen.

static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)

Parametrar

src_dir
str
Obligatorisk

Den lokala katalog som ska laddas upp.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Obligatorisk

Obligatoriskt, datalagringssökvägen där filerna ska laddas upp.

pattern
str
Obligatorisk

Valfritt, Om det tillhandahålls, filtreras alla sökvägsnamn som matchar det angivna mönstret, ungefär som Python-globpaket, med stöd för "*", "?", och teckenintervall uttryckta med [].

show_progress
bool
Obligatorisk

Valfritt anger om du vill visa förloppet för uppladdningen i -konsolen. Standardvärdet är True.

Returer

Den registrerade datauppsättningen.

Returtyp