data Paket

Referens

Innehåller moduler som stöder datarepresentation för Datastore och Dataset i Azure Machine Learning.

Det här paketet innehåller grundläggande funktioner som stöder Datastore och Dataset klasser i paketet core . Datalagerobjekt innehåller anslutningsinformation till Azure Storage-tjänster som enkelt kan refereras till med namn utan att du behöver arbeta direkt med eller hårdkoda anslutningsinformation i skript. Datalager stöder ett antal olika tjänster som representeras av klasser i det här paketet, inklusive AzureBlobDatastore, AzureFileDatastoreoch AzureDataLakeDatastore. En fullständig lista över lagringstjänster som stöds finns i Datastore klassen .

Även om ett datalager fungerar som en container för dina datafiler kan du betrakta en datauppsättning som en referens eller pekare till specifika data som finns i ditt datalager. Följande typer av datauppsättningar stöds:

TabularDataset representerar data i tabellformat som skapats genom att parsa den angivna filen eller listan med filer.
FileDataset refererar till en eller flera filer i dina datalager eller offentliga URL:er.

Mer information finns i artikeln Lägg till & registrera datauppsättningar. Information om hur du kommer igång med en datauppsättning finns i https://aka.ms/tabulardataset-samplenotebook och https://aka.ms/filedataset-samplenotebook.

Moduler

abstract_dataset	Innehåller den abstrakta basklassen för datauppsättningar i Azure Machine Learning.
abstract_datastore	Innehåller basfunktionerna för datalager som sparar anslutningsinformation till Azure Storage-tjänster.
azure_data_lake_datastore	Innehåller basfunktionerna för datalager som sparar anslutningsinformation till Azure Data Lake Storage.
azure_my_sql_datastore	Innehåller basfunktionerna för datalager som sparar anslutningsinformation till Azure Database for MySQL.
azure_postgre_sql_datastore	Innehåller basfunktionerna för datalager som sparar anslutningsinformation till Azure Database for PostgreSQL.
azure_sql_database_datastore	Innehåller basfunktionerna för datalager som sparar anslutningsinformation till Azure SQL databas.
azure_storage_datastore	Innehåller funktioner för datalager som sparar anslutningsinformation till Azure Blob och Azure File Storage.
constants	Konstanter som används i azureml.data-paketet. Endast internt bruk.
context_managers	Innehåller funktioner för att hantera datakontexter för datalager och datauppsättningar. Endast internt bruk.
data_reference	Innehåller funktioner som definierar hur du skapar referenser till data i datalager.
datacache	Innehåller funktioner för att hantera DatacacheStore och Datacache i Azure Machine Learning.
datacache_client	Endast internt bruk.
datacache_consumption_config	Innehåller funktioner för konfiguration av DataCache-förbrukning.
datacache_singularity_settings	Innehåller objekt som behövs för representation av datacache-singularitetsinställningar.
datapath	Innehåller funktioner för att skapa referenser till data i datalager. Den här modulen DataPath innehåller klassen, som representerar platsen för data och DataPathComputeBinding klassen, som representerar hur data görs tillgängliga för beräkningsmålen.
dataset_action_run	Innehåller funktioner som hanterar körningen av datauppsättningsåtgärder. Den här modulen innehåller praktiska metoder för att skapa datauppsättningsåtgärder och få deras resultat efter slutförandet.
dataset_consumption_config	Innehåller funktioner för konfiguration av datamängdsförbrukning.
dataset_definition	Innehåller funktioner för att hantera datauppsättningsdefinitioner och dess åtgärder. Anteckning Den här modulen är inaktuell. Mer information finns i https://aka.ms/dataset-deprecation.
dataset_error_handling	Innehåller undantag för hantering av datauppsättningsfel i Azure Machine Learning.
dataset_factory	Innehåller funktioner för att skapa datauppsättningar för Azure Machine Learning.
dataset_profile	Klass för insamling av sammanfattningsstatistik för data som genereras av ett dataflöde. Funktionerna i den här modulen omfattar insamling av information om vilken körning som skapat profilen, oavsett om profilen är inaktuell eller inte.
dataset_profile_run	Innehåller konfiguration för övervakning av datauppsättningsprofil som körs i Azure Machine Learning. Funktionerna i den här modulen omfattar hantering och övervakning av datauppsättningsprofilkörning som är associerad med ett experimentobjekt och ett enskilt körnings-ID.
dataset_profile_run_config	Innehåller konfiguration för att generera statistiksammanfattning av datauppsättningar i Azure Machine Learning. Funktionerna i den här modulen innehåller metoder för att skicka lokal eller fjärransluten profilkörning och visualisera resultatet av den skickade profilkörningen.
dataset_snapshot	Innehåller funktioner för att hantera åtgärder för ögonblicksbilder av datauppsättningar. Anteckning Den här modulen är inaktuell. Mer information finns i https://aka.ms/dataset-deprecation.
dataset_type_definitions	Innehåller uppräkningsvärden som används med Dataset.
datastore_client	Endast internt bruk.
dbfs_datastore	Innehåller funktioner för datalager som sparar anslutningsinformation till Databricks File Sytem (DBFS).
file_dataset	Innehåller funktioner för att referera till enskilda eller flera filer i datalager eller offentliga URL:er. Mer information finns i artikeln Lägg till & registrera datauppsättningar. Information om hur du kommer igång med en fildatauppsättning finns i https://aka.ms/filedataset-samplenotebook.
hdfs_datastore	Innehåller basfunktionerna för datalager som sparar anslutningsinformation till ett HDFS-kluster.
output_dataset_config	Innehåller konfigurationer som anger hur utdata för ett jobb ska laddas upp och höjas upp till en datauppsättning. Mer information finns i artikeln om hur du anger utdata.
sql_data_reference	Innehåller funktioner för att skapa referenser till data i datalager som sparar anslutningsinformation till SQL-databaser.
stored_procedure_parameter	Innehåller funktioner för att skapa en parameter som ska skickas till en SQL-lagrad procedur.
tabular_dataset	Innehåller funktioner för att representera data i tabellformat genom att parsa den angivna filen eller listan över filer. Mer information finns i artikeln Lägg till & registrera datauppsättningar. Information om hur du kommer igång med en tabelldatauppsättning finns i https://aka.ms/tabulardataset-samplenotebook.

Klasser

DataType	Konfigurerar kolumndatatyper för en datauppsättning som skapats i Azure Machine Learning. DataType-metoder används i klassmetoderna TabularDatasetFactory`from_*` , som används för att skapa nya TabularDataset-objekt.
DatacacheStore	Anteckning Det här är en experimentell klass och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental. Representerar en lagringsabstraktion över ett Azure Machine Learning-lagringskonto. DatacacheStores är anslutna till arbetsytor och används för att lagra information som rör den underliggande datacache-lösningen. För närvarande stöds endast partitionerad bloblösning. Datacachestores definierar olika Blob-datalager som kan användas för cachelagring. Använd den här klassen för att utföra hanteringsåtgärder, inklusive registrering, lista, hämta och uppdatera datacachelager. DatacacheStores för varje tjänst skapas med metoderna i den `register*` här klassen. Hämta ett datacachelager efter namn. Det här anropet skickar en begäran till datacache-tjänsten.
FileDataset	Representerar en samling filreferenser i datalager eller offentliga URL:er som ska användas i Azure Machine Learning. En FileDataset definierar en serie lätt utvärderade, oföränderliga åtgärder för att läsa in data från datakällan till filströmmar. Data läses inte in från källan förrän FileDataset uppmanas att leverera data. En FileDataset skapas med from_files hjälp av metoden för klassen FileDatasetFactory. Mer information finns i artikeln Lägg till & registrera datauppsättningar. Information om hur du kommer igång med en fildatauppsättning finns i https://aka.ms/filedataset-samplenotebook. Initiera FileDataset-objektet. Konstruktorn ska inte anropas direkt. Datauppsättningen är avsedd att skapas med hjälp av FileDatasetFactory klassen.
HDFSOutputDatasetConfig	Representerar hur du matar ut till en HDFS-sökväg och befordras som en FileDataset. Initiera en HDFSOutputDatasetConfig.
LinkFileOutputDatasetConfig	Anteckning Det här är en experimentell klass och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental. Representerar hur du länkar utdata från en körning och befordras som en FileDataset. Med LinkFileOutputDatasetConfig kan du länka en fildatauppsättning som utdatauppsättning workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = LinkFileOutputDatasetConfig('link_output') script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output]) # within link.py # from azureml.core import Run, Dataset # run = Run.get_context() # workspace = run.experiment.workspace # dataset = Dataset.get_by_name(workspace, name='dataset_to_link') # run.output_datasets['link_output'].link(dataset) run = experiment.submit(script_run_config) print(run) Initiera en LinkFileOutputDatasetConfig.
LinkTabularOutputDatasetConfig	Anteckning Det här är en experimentell klass och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental. Representerar hur du länkar utdata från en körning och befordras som en TabularDataset. Med LinkTabularOutputDatasetConfig kan du länka en fil tabell som utdatauppsättning workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = LinkTabularOutputDatasetConfig('link_output') script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output]) # within link.py # from azureml.core import Run, Dataset # run = Run.get_context() # workspace = run.experiment.workspace # dataset = Dataset.get_by_name(workspace, name='dataset_to_link') # run.output_datasets['link_output'].link(dataset) run = experiment.submit(script_run_config) print(run) Initiera en LinkTabularOutputDatasetConfig.
OutputFileDatasetConfig	Representerar hur du kopierar utdata från en körning och befordras som en FileDataset. Med OutputFileDatasetConfig kan du ange hur du vill att en viss lokal sökväg på beräkningsmålet ska laddas upp till det angivna målet. Om inga argument skickas till konstruktorn genererar vi automatiskt ett namn, ett mål och en lokal sökväg. Ett exempel på att inte skicka några argument: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = OutputFileDatasetConfig() script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` Ett exempel på hur du skapar utdata och sedan flyttar upp utdata till en tabelldatauppsättning och registrerar den med namnet foo: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') datastore = Datastore(workspace, 'example_adls_gen2_datastore') # for more information on the parameters and methods, please look for the corresponding documentation. output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo') script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` Initiera en OutputFileDatasetConfig. Med OutputFileDatasetConfig kan du ange hur du vill att en viss lokal sökväg på beräkningsmålet ska laddas upp till det angivna målet. Om inga argument skickas till konstruktorn genererar vi automatiskt ett namn, ett mål och en lokal sökväg. Ett exempel på att inte skicka några argument: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = OutputFileDatasetConfig() script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` Ett exempel på hur du skapar utdata och sedan flyttar upp utdata till en tabelldatauppsättning och registrerar den med namnet foo: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') datastore = Datastore(workspace, 'example_adls_gen2_datastore') # for more information on the parameters and methods, please look for the corresponding documentation. output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo') script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)`
TabularDataset	Representerar en tabelldatauppsättning som ska användas i Azure Machine Learning. En TabularDataset definierar en serie lazily-utvärderade, oföränderliga åtgärder för att läsa in data från datakällan till tabellrepresentation. Data läses inte in från källan förrän TabularDataset uppmanas att leverera data. TabularDataset skapas med metoder som from_delimited_files från TabularDatasetFactory klassen . Mer information finns i artikeln Lägg till & registrera datauppsättningar. Information om hur du kommer igång med en tabelldatauppsättning finns i https://aka.ms/tabulardataset-samplenotebook. Initiera ett TabularDataset-objekt. Konstruktorn ska inte anropas direkt. Datauppsättningen är avsedd att skapas med hjälp av TabularDatasetFactory klassen .

data Paket

Moduler

Klasser

Feedback

Feedback

Ytterligare resurser