TabularDataset Klass
Representerar en tabelldatauppsättning som ska användas i Azure Machine Learning.
En TabularDataset definierar en serie lazily-utvärderade, oföränderliga åtgärder för att läsa in data från datakällan till tabellrepresentation. Data läses inte in från källan förrän TabularDataset uppmanas att leverera data.
TabularDataset skapas med metoder som from_delimited_files från TabularDatasetFactory klassen .
Mer information finns i artikeln Lägg till & registrera datauppsättningar. Information om hur du kommer igång med en tabelldatauppsättning finns i https://aka.ms/tabulardataset-samplenotebook.
Initiera ett TabularDataset-objekt.
Konstruktorn ska inte anropas direkt. Datauppsättningen är avsedd att skapas med hjälp av TabularDatasetFactory klassen .
- Arv
-
TabularDataset
Konstruktor
TabularDataset()
Kommentarer
En TabularDataset kan skapas från CSV-, TSV-, Parquet-filer eller SQL-frågor med hjälp from_*
av -metoderna i TabularDatasetFactory klassen . Du kan utföra underinställningar på en TabularDataset som att dela, hoppa över och filtrera poster.
Resultatet av underinställningen är alltid ett eller flera nya TabularDataset-objekt.
Du kan också konvertera en TabularDataset till andra format som en Pandas DataFrame. Den faktiska datainläsningen sker när TabularDataset uppmanas att leverera data till en annan lagringsmekanism (t.ex. en Pandas-dataram eller en CSV-fil).
TabularDataset kan användas som indata för en experimentkörning. Den kan också registreras på arbetsytan med ett angivet namn och hämtas med det namnet senare.
Metoder
download |
Anteckning Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental. Ladda ned filströmmar som definierats av datauppsättningen till den lokala sökvägen. |
drop_columns |
Ta bort de angivna kolumnerna från datauppsättningen. Om en tidsseriekolumn tas bort tas även motsvarande funktioner bort för den returnerade datauppsättningen. |
filter |
Anteckning Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental. Filtrera data och lämna endast de poster som matchar det angivna uttrycket. |
get_profile |
Anteckning Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental. Hämta dataprofil från den senaste profilkörningen som skickats för den här eller samma datauppsättning på arbetsytan. |
get_profile_runs |
Anteckning Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental. Returnera tidigare profilkörningar som är associerade med den här eller samma datauppsättning på arbetsytan. |
keep_columns |
Behåll de angivna kolumnerna och ta bort alla andra från datauppsättningen. Om en tidsseriekolumn tas bort tas även motsvarande funktioner bort för den returnerade datauppsättningen. |
mount |
Anteckning Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental. Skapa en kontexthanterare för montering av filströmmar som definieras av datauppsättningen som lokala filer. |
partition_by |
Partitionerade data kopieras och matas ut till det mål som anges av målet. skapa datauppsättningen från den utdatasökvägen med partitionsformat, registrera datauppsättningen om namnet anges, returnera datauppsättningen för den nya datasökvägen med partitioner
|
random_split |
Dela upp poster i datauppsättningen i två delar slumpmässigt och ungefär enligt den angivna procentandelen. Den första datamängden innehåller ungefär |
skip |
Hoppa över poster överst i datauppsättningen med det angivna antalet. |
submit_profile_run |
Anteckning Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental. Skicka en experimentkörning för att beräkna dataprofilen. En dataprofil kan vara mycket användbar för att förstå indata, identifiera avvikelser och saknade värden genom att tillhandahålla användbar information om data som kolumntyp, saknade värden osv. |
take |
Ta ett urval av poster överst i datamängden med det angivna antalet. |
take_sample |
Ta ett slumpmässigt urval av poster i datamängden ungefär med den angivna sannolikheten. |
time_after |
Filtrera TabularDataset med tidsstämpelkolumner efter en angiven starttid. |
time_before |
Filtrera TabularDataset med tidsstämpelkolumner före en angiven sluttid. |
time_between |
Filtrera TabularDataset mellan en angiven start- och sluttid. |
time_recent |
Filtrera TabularDataset så att den endast innehåller den angivna varaktigheten (mängden) senaste data. |
to_csv_files |
Konvertera den aktuella datauppsättningen till en FileDataset som innehåller CSV-filer. Den resulterande datamängden innehåller en eller flera CSV-filer som var och en motsvarar en partition med data från den aktuella datauppsättningen. Dessa filer materialiseras inte förrän de laddas ned eller läss från. |
to_dask_dataframe |
Anteckning Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental. Returnera en Dask DataFrame som lätt kan läsa data i datauppsättningen. |
to_pandas_dataframe |
Läs in alla poster från datauppsättningen till en Pandas DataFrame. |
to_parquet_files |
Konvertera den aktuella datauppsättningen till en FileDataset som innehåller Parquet-filer. Den resulterande datamängden innehåller en eller flera Parquet-filer som var och en motsvarar en partition med data från den aktuella datauppsättningen. Dessa filer materialiseras inte förrän de laddas ned eller läss från. |
to_spark_dataframe |
Läs in alla poster från datauppsättningen till en Spark DataFrame. |
with_timestamp_columns |
Definiera tidsstämpelkolumner för datauppsättningen. |
download
Anteckning
Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental.
Ladda ned filströmmar som definierats av datauppsättningen till den lokala sökvägen.
download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)
Parametrar
- target_path
- str
Den lokala katalog som filerna ska laddas ned till. Om inga data hämtas till en tillfällig katalog.
- overwrite
- bool
Anger om befintliga filer ska skrivas över. Standardvärdet är False. Befintliga filer skrivs över om överskrivning har angetts till Sant. annars utlöses ett undantag.
- ignore_not_found
- bool
Anger om nedladdningen misslyckas om vissa filer som datauppsättningen pekar på inte hittas. Standardvärdet är True. Nedladdningen misslyckas om någon filhämtning misslyckas av någon anledning om ignore_not_found har angetts till Falskt. Annars loggas en waring för fel som inte hittas och dowload lyckas så länge inga andra feltyper påträffas.
Returer
Returnerar en matris med filsökvägar för varje fil som laddas ned.
Returtyp
drop_columns
Ta bort de angivna kolumnerna från datauppsättningen.
Om en tidsseriekolumn tas bort tas även motsvarande funktioner bort för den returnerade datauppsättningen.
drop_columns(columns)
Parametrar
Namnet eller en lista med namn som kolumnerna ska släppa.
Returer
Returnerar ett nytt TabularDataset-objekt med de angivna kolumnerna borttagna.
Returtyp
filter
Anteckning
Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental.
Filtrera data och lämna endast de poster som matchar det angivna uttrycket.
filter(expression)
Parametrar
Returer
Den ändrade datauppsättningen (avregistrerad).
Returtyp
Kommentarer
Uttryck startas genom att datauppsättningen indexeras med namnet på en kolumn. De stöder en mängd olika funktioner och operatorer och kan kombineras med hjälp av logiska operatorer. Det resulterande uttrycket utvärderas lazily för varje post när en datahämtning sker och inte där den definieras.
dataset['myColumn'] > dataset['columnToCompareAgainst']
dataset['myColumn'].starts_with('prefix')
get_profile
Anteckning
Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental.
Hämta dataprofil från den senaste profilkörningen som skickats för den här eller samma datauppsättning på arbetsytan.
get_profile(workspace=None)
Parametrar
- workspace
- Workspace
Arbetsytan där profilkörningen skickades. Standardvärdet är arbetsytan för den här datauppsättningen. Krävs om datauppsättningen inte är associerad med en arbetsyta. Mer https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace information om arbetsytor finns i.
Returer
Profilresultat från den senaste profilkörningen av typen DatasetProfile.
Returtyp
get_profile_runs
Anteckning
Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental.
Returnera tidigare profilkörningar som är associerade med den här eller samma datauppsättning på arbetsytan.
get_profile_runs(workspace=None)
Parametrar
- workspace
- Workspace
Arbetsytan där profilkörningen skickades. Standardvärdet är arbetsytan för den här datauppsättningen. Krävs om datauppsättningen inte är associerad med en arbetsyta. Mer https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace information om arbetsytor finns i.
Returer
iteratorobjekt av typen azureml.core.Run.
Returtyp
keep_columns
Behåll de angivna kolumnerna och ta bort alla andra från datauppsättningen.
Om en tidsseriekolumn tas bort tas även motsvarande funktioner bort för den returnerade datauppsättningen.
keep_columns(columns, validate=False)
Parametrar
Namnet eller en lista med namn som kolumnerna ska behålla.
- validate
- bool
Anger om du vill verifiera om data kan läsas in från den returnerade datauppsättningen. Standardvärdet är False. Verifieringen kräver att datakällan är tillgänglig från den aktuella beräkningen.
Returer
Returnerar ett nytt TabularDataset-objekt med endast de angivna kolumnerna kvar.
Returtyp
mount
Anteckning
Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental.
Skapa en kontexthanterare för montering av filströmmar som definieras av datauppsättningen som lokala filer.
mount(stream_column, mount_point=None)
Parametrar
- mount_point
- str
Den lokala katalog som filerna ska monteras på. Om det är Ingen monteras data i en tillfällig katalog, som du kan hitta genom att anropa metoden MountContext.mount_point-instans .
Returer
Returnerar en kontexthanterare för att hantera monteringens livscykel.
Returtyp
partition_by
Partitionerade data kopieras och matas ut till det mål som anges av målet.
skapa datauppsättningen från den utdatasökvägen med partitionsformat, registrera datauppsättningen om namnet anges, returnera datauppsättningen för den nya datasökvägen med partitioner
ds = Dataset.get_by_name('test') # indexed by country, state, partition_date
# #1: call partition_by locally
new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
target=DataPath(datastore, "repartition"))
partition_keys = newds.partition_keys # ['country']
# new_ds can be passed to PRS as input dataset
partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)
Parametrar
Obligatoriskt, datalagringssökvägen där dataramen parquet-data laddas upp till. En GUID-mapp genereras under målsökvägen för att undvika konflikter.
- show_progress
- bool
Valfritt anger om förloppet för uppladdningen ska visas i -konsolen. Standardvärdet är Sant.
- partition_as_file_dataset
Valfritt, anger om returnerar en fildatauppsättning eller inte. Standardvärdet är Falskt.
Returer
Den sparade eller registrerade datauppsättningen.
Returtyp
random_split
Dela upp poster i datauppsättningen i två delar slumpmässigt och ungefär enligt den angivna procentandelen.
Den första datamängden innehåller ungefär percentage
av de totala posterna och den andra datauppsättningen för återstående poster.
random_split(percentage, seed=None)
Parametrar
- percentage
- float
Den ungefärliga procentandelen som datamängden ska delas med. Detta måste vara ett tal mellan 0,0 och 1,0.
Returer
Returnerar en tupplar med nya TabularDataset-objekt som representerar de två datauppsättningarna efter delningen.
Returtyp
skip
Hoppa över poster överst i datauppsättningen med det angivna antalet.
skip(count)
Parametrar
Returer
Returnerar ett nytt TabularDataset-objekt som representerar en datauppsättning med överhoppade poster.
Returtyp
submit_profile_run
Anteckning
Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental.
Skicka en experimentkörning för att beräkna dataprofilen.
En dataprofil kan vara mycket användbar för att förstå indata, identifiera avvikelser och saknade värden genom att tillhandahålla användbar information om data som kolumntyp, saknade värden osv.
submit_profile_run(compute_target, experiment, cache_datastore_name=None)
Parametrar
- compute_target
- Union[str, ComputeTarget]
Beräkningsmålet som profilberäkningsexperimentet ska köras på. Ange "lokal" för att använda lokal beräkning. Mer https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget information om beräkningsmål finns i.
- experiment
- Experiment
Experimentobjektet. Mer https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment information om experiment finns i .
- cache_datastore_name
- str
namnet på datalagret för att lagra profilcachen, om inget används standarddatalagret
Returer
Ett objekt av typen DatasetProfileRun-klass.
Returtyp
take
Ta ett urval av poster överst i datamängden med det angivna antalet.
take(count)
Parametrar
Returer
Returnerar ett nytt TabularDataset-objekt som representerar den exempelbaserade datamängden.
Returtyp
take_sample
Ta ett slumpmässigt urval av poster i datamängden ungefär med den angivna sannolikheten.
take_sample(probability, seed=None)
Parametrar
Returer
Returnerar ett nytt TabularDataset-objekt som representerar den exempelbaserade datamängden.
Returtyp
time_after
Filtrera TabularDataset med tidsstämpelkolumner efter en angiven starttid.
time_after(start_time, include_boundary=True, validate=True)
Parametrar
- include_boundary
- bool
Ange om raden som är associerad med gränstiden (start_time
) ska inkluderas.
- validate
- bool
Anger om du vill verifiera om det finns angivna kolumner i datauppsättningen. Standardvärdet är Sant. Verifieringen kräver att datakällan är tillgänglig från den aktuella beräkningen.
Returer
En TabularDataset med den nya filtrerade datauppsättningen.
Returtyp
time_before
Filtrera TabularDataset med tidsstämpelkolumner före en angiven sluttid.
time_before(end_time, include_boundary=True, validate=True)
Parametrar
- include_boundary
- bool
Ange om raden som är associerad med gränstiden (end_time
) ska inkluderas.
- validate
- bool
Anger om du vill verifiera om det finns angivna kolumner i datauppsättningen. Standardvärdet är Sant. Verifieringen kräver att datakällan är tillgänglig från den aktuella beräkningen.
Returer
En TabularDataset med den nya filtrerade datauppsättningen.
Returtyp
time_between
Filtrera TabularDataset mellan en angiven start- och sluttid.
time_between(start_time, end_time, include_boundary=True, validate=True)
Parametrar
- include_boundary
- bool
Ange om raden som är associerad med gränstiden (start_end
och end_time
) ska inkluderas.
- validate
- bool
Anger om du vill verifiera om det finns angivna kolumner i datauppsättningen. Standardvärdet är Sant. Verifieringen kräver att datakällan är tillgänglig från den aktuella beräkningen.
Returer
En TabularDataset med den nya filtrerade datauppsättningen.
Returtyp
time_recent
Filtrera TabularDataset så att den endast innehåller den angivna varaktigheten (mängden) senaste data.
time_recent(time_delta, include_boundary=True, validate=True)
Parametrar
- include_boundary
- bool
Ange om raden som är associerad med gränstiden (time_delta
) ska inkluderas.
- validate
- bool
Anger om du vill verifiera om det finns angivna kolumner i datauppsättningen. Standardvärdet är Sant. Verifieringen kräver att datakällan är tillgänglig från den aktuella beräkningen.
Returer
En TabularDataset med den nya filtrerade datauppsättningen.
Returtyp
to_csv_files
Konvertera den aktuella datauppsättningen till en FileDataset som innehåller CSV-filer.
Den resulterande datamängden innehåller en eller flera CSV-filer som var och en motsvarar en partition med data från den aktuella datauppsättningen. Dessa filer materialiseras inte förrän de laddas ned eller läss från.
to_csv_files(separator=',')
Parametrar
- separator
- str
Avgränsaren som ska användas för att separera värden i den resulterande filen.
Returer
Returnerar ett nytt FileDataset-objekt med en uppsättning CSV-filer som innehåller data i den här datauppsättningen.
Returtyp
to_dask_dataframe
Anteckning
Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental.
Returnera en Dask DataFrame som lätt kan läsa data i datauppsättningen.
to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')
Parametrar
- sample_size
Antalet poster som ska läsas för att fastställa scheman och typer.
- dtypes
En valfri diktamen som anger förväntade kolumner och deras dtypes. sample_size ignoreras om detta anges.
- on_error
Hantera eventuella felvärden i datauppsättningen, till exempel de som genereras av ett fel vid parsning av värden. Giltiga värden är "null" som ersätter dem med null. och "fail" vilket resulterar i ett undantag.
- out_of_range_datetime
Så här hanterar du datum-tidsvärden som ligger utanför det intervall som stöds av Pandas. Giltiga värden är "null" som ersätter dem med null. och "fail" vilket resulterar i ett undantag.
Returer
dask.dataframe.core.DataFrame
to_pandas_dataframe
Läs in alla poster från datauppsättningen till en Pandas DataFrame.
to_pandas_dataframe(on_error='null', out_of_range_datetime='null')
Parametrar
- on_error
Hantera eventuella felvärden i datauppsättningen, till exempel de som genereras av ett fel vid parsning av värden. Giltiga värden är "null" som ersätter dem med null. och "fail" vilket resulterar i ett undantag.
- out_of_range_datetime
Så här hanterar du datum-tidsvärden som ligger utanför det intervall som stöds av Pandas. Giltiga värden är "null" som ersätter dem med null. och "fail" vilket resulterar i ett undantag.
Returer
Returnerar en Pandas DataFrame.
Returtyp
to_parquet_files
Konvertera den aktuella datauppsättningen till en FileDataset som innehåller Parquet-filer.
Den resulterande datamängden innehåller en eller flera Parquet-filer som var och en motsvarar en partition med data från den aktuella datauppsättningen. Dessa filer materialiseras inte förrän de laddas ned eller läss från.
to_parquet_files()
Returer
Returnerar ett nytt FileDataset-objekt med en uppsättning Parquet-filer som innehåller data i den här datauppsättningen.
Returtyp
to_spark_dataframe
Läs in alla poster från datauppsättningen till en Spark DataFrame.
to_spark_dataframe()
Returer
Returnerar en Spark DataFrame.
Returtyp
with_timestamp_columns
Definiera tidsstämpelkolumner för datauppsättningen.
with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)
Parametrar
- timestamp
- str
Namnet på kolumnen som tidsstämpel (används för att kallas fine_grain_timestamp) (valfritt). Standardvärdet är None (clear).
- partition_timestamp
- str
Namnet på kolumn partition_timestamp (används för att kallas grov korntidsstämpel) (valfritt). Standardvärdet är None (clear).
- validate
- bool
Anger om du vill verifiera om det finns angivna kolumner i datauppsättningen. Standardvärdet är Falskt. Verifieringen kräver att datakällan är tillgänglig från den aktuella beräkningen.
Returer
Returnerar en ny TabularDataset med definierade tidsstämpelkolumner.
Returtyp
Kommentarer
Metoden definierar kolumner som ska användas som tidsstämplar. Tidsstämpelkolumner i en datauppsättning gör det möjligt att behandla data som tidsseriedata och aktivera ytterligare funktioner. När både och anges partition_timestamp (used to be referred as coarse grain timestamp)
för en datauppsättning timestamp (used to be referred as fine_grain_timestamp)
ska de två kolumnerna representera samma tidslinje.
Attribut
timestamp_columns
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: Under hela 2024 kommer vi att fasa ut GitHub-problem som feedbackmekanism för innehåll och ersätta det med ett nytt feedbacksystem. Mer information finns i:Skicka och visa feedback för