FileDatasetFactory Klass
Innehåller metoder för att skapa en fildatauppsättning för Azure Machine Learning.
En FileDataset skapas från metoden som from_files definierats i den här klassen.
Mer information om hur du arbetar med fildatauppsättningar finns i notebook-filen https://aka.ms/filedataset-samplenotebook.
- Arv
-
builtins.objectFileDatasetFactory
Konstruktor
FileDatasetFactory()
Metoder
from_files |
Skapa en FileDataset som representerar filströmmar. |
upload_directory |
Skapa en datauppsättning från källkatalogen. |
from_files
Skapa en FileDataset som representerar filströmmar.
static from_files(path, validate=True, partition_format=None, is_file=False)
Parametrar
Sökvägen till källfilerna, som kan vara ett enskilt värde eller en lista med URL-sträng (http[s]|abfs[s]|wasb[s]), DataPath objekt eller tuppel för Datastore och relativ sökväg. Observera att listan över sökvägar inte kan inkludera både URL:er och datalager tillsammans.
- validate
- bool
Anger om du vill verifiera om data kan läsas in från den returnerade datauppsättningen. Standardvärdet är True. Verifieringen kräver att datakällan är tillgänglig från den aktuella beräkningen.
- partition_format
- str
Ange partitionsformatet för sökvägen. Standardvärdet är Ingen. Partitionsinformationen för varje sökväg extraheras till kolumner baserat på det angivna formatet. Formatdelen {column_name} skapar strängkolumnen och {column_name:åååå/MM/dd/HH/mm/ss} skapar datetime-kolumnen, där "åå", "MM", "dd", "HH", "mm" och "ss" används för att extrahera år, månad, dag, timme, minut och sekund för datetime-typen. Formatet bör börja från positionen för den första partitionsnyckeln till slutet av filsökvägen. Till exempel med tanke på sökvägen .. /Accounts/2019/01/01/data.jsonl' där partitionen är efter avdelningsnamn och tid, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' skapar en strängkolumn 'Avdelning' med värdet 'Konton' och en datetime-kolumn 'PartitionDate' med värdet '2019-01-01'.
- is_file
- bool
Anger om alla indatasökvägar pekar på filer. Datauppsättningsmotorn försöker som standard kontrollera om indatasökvägar pekar på filer. Ställ in den här flaggan på Sant när alla indatasökvägar är Fil för att påskynda skapandet av datauppsättningen.
Returer
Ett FileDataset -objekt.
Returtyp
Kommentarer
from_files skapar ett objekt av FileDataset klassen som definierar åtgärderna för att läsa in filströmmar från den angivna sökvägen.
För att data ska kunna nås av Azure Machine Learning måste filerna som anges av path
finnas i en Datastore eller vara tillgängliga med offentliga webb-URL:er eller URL:en för Blob, ADLS Gen1 och ADLS Gen2.
användarnas AAD-token används i notebook-filer eller lokala Python-program om den anropar någon av följande funktioner direkt: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files beräkningsmålets identitet används i jobb som skickas av Experiment.submit för autentisering av dataåtkomst. Lära sig mer: https://aka.ms/data-access
from azureml.core import Dataset, Datastore
# create file dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))
# create file dataset from a single directory in datastore
file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))
# create file dataset from all jpeg files in the directory
file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))
# create filedataset from multiple paths
data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
file_dataset_4 = Dataset.File.from_files(path=data_paths)
# create file dataset from url
file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')
upload_directory
Skapa en datauppsättning från källkatalogen.
static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)
Parametrar
Obligatoriskt, datalagringssökvägen där filerna ska laddas upp.
- pattern
- str
Valfritt, Om det tillhandahålls, filtreras alla sökvägsnamn som matchar det angivna mönstret, ungefär som Python-globpaket, med stöd för "*", "?", och teckenintervall uttryckta med [].
- show_progress
- bool
Valfritt anger om du vill visa förloppet för uppladdningen i -konsolen. Standardvärdet är True.
Returer
Den registrerade datauppsättningen.
Returtyp
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: Under hela 2024 kommer vi att fasa ut GitHub-problem som feedbackmekanism för innehåll och ersätta det med ett nytt feedbacksystem. Mer information finns i:Skicka och visa feedback för