Dataset Klas

Vertegenwoordigt een resource voor het verkennen, transformeren en beheren van gegevens in Azure Machine Learning.

Een gegevensset is een verwijzing naar gegevens in Datastore een of achter openbare web-URL's.

Voor methoden die in deze klasse zijn afgeschaft, controleert u AbstractDataset de klasse op de verbeterde API's.

De volgende typen gegevenssets worden ondersteund:

  • TabularDataset vertegenwoordigt gegevens in een tabellaire indeling die wordt gemaakt door het opgegeven bestand of de opgegeven lijst met bestanden te parseren.

  • FileDataset verwijst naar een of meer bestanden in gegevensopslag of van openbare URL's.

Zie het artikel Add & register datasets(Gegevenssets registreren) of de notebooks en om aan de slag te gaan met https://aka.ms/tabulardataset-samplenotebook gegevenssets. https://aka.ms/filedataset-samplenotebook

Overname
builtins.object
Dataset

Constructor

Dataset(definition, workspace=None, name=None, id=None)

Opmerkingen

De klasse Dataset bevat twee handige klassekenmerken ( en ) die u kunt gebruiken voor het maken van een gegevensset zonder te werken met File Tabular de bijbehorende factorymethoden. Als u bijvoorbeeld een gegevensset wilt maken met behulp van deze kenmerken:

  • Dataset.Tabular.from_delimited_files()

  • Dataset.File.from_files()

U kunt ook een nieuwe TabularDataset of FileDataset maken door rechtstreeks de bijbehorende factorymethoden aan te roepen van de klasse die is gedefinieerd in TabularDatasetFactory en FileDatasetFactory .

In het volgende voorbeeld ziet u hoe u een TabularDataset kunt maken die verwijst naar één pad in een gegevensopslag.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

Het volledige voorbeeld is beschikbaar via https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

Variabelen

azureml.core.Dataset.File

Een klassekenmerk dat toegang biedt tot de FileDatasetFactory-methoden voor het maken van nieuwe FileDataset-objecten. Gebruik: Dataset.File.from_files().

azureml.core.Dataset.Tabular

Een klassekenmerk dat toegang biedt tot de TabularDatasetFactory-methoden voor het maken van nieuwe TabularDataset-objecten. Gebruik: Dataset.Tabular.from_delimited_files().

Methoden

archive

Een actieve of afgeschafte gegevensset archiveren.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

auto_read_files

Analyseert de bestanden op het opgegeven pad en retourneert een nieuwe gegevensset.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

U kunt het beste de Dataset.Tabular.from_*-methoden gebruiken om bestanden te lezen. Zie https://aka.ms/dataset-deprecation voor meer informatie.

compare_profiles

Vergelijk het profiel van de huidige gegevensset met een ander gegevenssetprofiel.

Hier ziet u de verschillen in samenvattingsstatistieken tussen twee gegevenssets. De parameter 'rhs_dataset' staat voor 'right-side' en is gewoon de tweede gegevensset. De eerste gegevensset (het huidige gegevenssetobject) wordt beschouwd als de 'linkerkant'.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

create_snapshot

Maak een momentopname van de geregistreerde gegevensset.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

delete_snapshot

Verwijder de momentopname van de gegevensset op naam.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

deprecate

Een actieve gegevensset in een werkruimte wordt door een andere gegevensset afgeschaft.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

diff

Diff de huidige gegevensset met rhs_dataset.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

from_binary_files

Maak een niet-geregistreerde, in-memory gegevensset op basis van binaire bestanden.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Aanbevolen om in plaats daarvan Dataset.File.from_files gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.

from_delimited_files

Maak een niet-geregistreerde, in-memory gegevensset op basis van bestanden met scheidingstekens.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Aanbevolen om in plaats daarvan Dataset.Tabular.from_delimited_files gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
from_excel_files

Maak een niet-geregistreerde, in-memory gegevensset van Excel-bestanden.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

from_json_files

Maak een niet-geregistreerde, in-memory gegevensset op basis van JSON-bestanden.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

U kunt het Dataset.Tabular.from_json_lines_files gebruiken om te lezen uit het JSON-regelsbestand. Zie https://aka.ms/dataset-deprecation voor meer informatie.

from_pandas_dataframe

Maak een niet-geregistreerde, in-memory gegevensset op basis van een Pandas-gegevensframe.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Aanbevolen om in plaats daarvan Dataset.Tabular.register_pandas_dataframe gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.

from_parquet_files

Maak een niet-geregistreerde, in-memory gegevensset op basis van Parquet-bestanden.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Aanbevolen om in plaats daarvan Dataset.Tabular.from_parquet_files gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.

from_sql_query

Maak een niet-geregistreerde, in-memory gegevensset op basis van een SQL-query.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Aanbevolen om in plaats daarvan Dataset.Tabular.from_sql_query gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.

generate_profile

Genereer een nieuw profiel voor de gegevensset.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

get

Haal een gegevensset op die al in de werkruimte bestaat door de naam of id op te geven.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Aanbevolen om in plaats daarvan get_by_name en get_by_id te gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.

get_all

Haal alle geregistreerde gegevenssets in de werkruimte op.

get_all_snapshots

Haal alle momentopnamen van de gegevensset op.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

get_by_id

Haal een gegevensset op die in de werkruimte wordt opgeslagen.

get_by_name

Haal een geregistreerde gegevensset op uit de werkruimte op basis van de registratienaam.

get_definition

Haal een specifieke definitie van de gegevensset op.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

get_definitions

Haal alle definities van de gegevensset op.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

get_profile

Samenvattingsstatistieken van de eerder berekende gegevensset op te halen.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

get_snapshot

Maak een momentopname van de gegevensset op naam.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

head

Haal het opgegeven aantal records op dat is opgegeven uit deze gegevensset en retourneert deze als een DataFrame.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

list

Vermeld alle gegevenssets in de werkruimte, inclusief gegevens met een is_visible eigenschap die gelijk is aan False.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Aanbevolen om in plaats daarvan get_all te gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.

reactivate

Een gearchiveerde of afgeschafte gegevensset opnieuw activeren.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

register

Registreer de gegevensset in de werkruimte, zodat deze beschikbaar is voor andere gebruikers van de werkruimte.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Aanbevolen om in plaats daarvan register te gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.

sample

Genereer een nieuw voorbeeld van de brongegevensset met behulp van de samplingstrategie en de opgegeven parameters.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Maak een TabularDataset door de statische methoden op Dataset.Tabular aan te roepen en daar de take_sample methode te gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.

to_pandas_dataframe

Maak een Pandas-gegevensframe door de transformatiepijplijn uit te voeren die is gedefinieerd door deze gegevenssetdefinitie.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Maak een TabularDataset door de statische methoden op Dataset.Tabular aan te roepen en daar de to_pandas_dataframe methode te gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.

to_spark_dataframe

Maak een Spark DataFrame waarmee de transformatiepijplijn kan worden uitgevoerd die is gedefinieerd door deze gegevenssetdefinitie.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Maak een TabularDataset door de statische methoden op Dataset.Tabular aan te roepen en daar de to_spark_dataframe methode te gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.

update

Werk de veranderlijke kenmerken van de gegevensset in de werkruimte bij en retourneert de bijgewerkte gegevensset uit de werkruimte.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

update_definition

Werk de definitie van de gegevensset bij.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

archive

Een actieve of afgeschafte gegevensset archiveren.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

archive()

Retouren

Geen.

Retourtype

<xref:None>

Opmerkingen

Na de archivering resulteert elke poging om de gegevensset te gebruiken in een fout. Als de functie per ongeluk wordt gearchiveerd, wordt het geactiveerd door opnieuw activeren.

auto_read_files

Analyseert de bestanden op het opgegeven pad en retourneert een nieuwe gegevensset.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

U kunt het beste de Dataset.Tabular.from_*-methoden gebruiken om bestanden te lezen. Zie https://aka.ms/dataset-deprecation voor meer informatie.

auto_read_files(path, include_path=False, partition_format=None)

Parameters

path
DataReference of <xref:str>

Een gegevenspad in een geregistreerde gegevensstore, een lokaal pad of een HTTP-URL (CSV/TSV).

include_path
<xref:bool>

Of u een kolom wilt opnemen die het pad bevat van het bestand van waaruit de gegevens zijn gelezen. Handig wanneer u meerdere bestanden leest en wilt weten uit welk bestand een bepaalde record afkomstig is. Dit is ook handig als er informatie in het bestandspad of de naam staat die u in een kolom wilt.

partition_format
<xref:str>

Geef de partitienotatie op in pad en maak tekenreekskolommen op uit de notatie {x}' en datum/tijd-kolom in de notatie {x:yyyy/MM/dd/HH/mm/ss}' waarbij 'yyyy', 'MM', 'dd', 'HH', 'mm' en 'ss' worden gebruikt om het jaar, de maand, de dag, het uur en de seconde voor het datum/tijd-type uit te vullen. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven een bestandspad '.. /Accounts/2019/01/01/data.csv' waarbij gegevens worden gepartitied op afdelingsnaam en -tijd, kunnen we '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' definiëren om kolommen 'Department' van het tekenreekstype en 'PartitionDate' van het datum/tijd-type te maken.

Retouren

Gegevenssetobject.

Retourtype

Opmerkingen

Gebruik deze methode wanneer bestandsindelingen en scheidingstekens automatisch worden gedetecteerd.

Nadat u een gegevensset hebt gemaakt, moet u gebruiken om get_profile de gedetecteerde kolomtypen en samenvattingsstatistieken voor elke kolom weer te geven.

De geretourneerde gegevensset is niet geregistreerd bij de werkruimte.

compare_profiles

Vergelijk het profiel van de huidige gegevensset met een ander gegevenssetprofiel.

Hier ziet u de verschillen in samenvattingsstatistieken tussen twee gegevenssets. De parameter 'rhs_dataset' staat voor 'right-side' en is gewoon de tweede gegevensset. De eerste gegevensset (het huidige gegevenssetobject) wordt beschouwd als de 'linkerkant'.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=<HistogramCompareMethod.WASSERSTEIN: 0>)

Parameters

rhs_dataset
Dataset

Een tweede gegevensset, ook wel een gegevensset aan de rechterkant genoemd, voor vergelijking.

profile_arguments
<xref:dict>

Argumenten om een specifiek profiel opnieuw uit te proberen.

include_columns
list[<xref:str>]

Lijst met kolomnamen die moeten worden opgenomen in de vergelijking.

exclude_columns
list[<xref:str>]

Lijst met kolomnamen die ter vergelijking moeten worden uitgesloten.

histogram_compare_method
HistogramCompareMethod

Enum waarin de vergelijkingsmethode wordt beschreven, bijvoorbeeld: Wasserstein of Energy

Retouren

Verschil tussen de twee gegevenssetprofielen.

Retourtype

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Opmerkingen

Dit is alleen voor geregistreerde gegevenssets. Er wordt een uitzondering gemaakt als het profiel van de huidige gegevensset niet bestaat. Gebruik voor niet-geregistreerde gegevenssets de methode profile.compare.

create_snapshot

Maak een momentopname van de geregistreerde gegevensset.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parameters

snapshot_name
<xref:str>

De naam van de momentopname. Namen van momentopnamen moeten uniek zijn binnen een gegevensset.

compute_target
<xref:typing.Union>[ComputeTarget, <xref:str>]

Optioneel rekendoel om het momentopnameprofiel te maken. Als u dit weggelaten, wordt de lokale berekening gebruikt.

create_data_snapshot
<xref:bool>

Indien waar, wordt er een ge materialiseerde kopie van de gegevens gemaakt.

target_datastore
<xref:typing.Union>[AbstractAzureStorageDatastore, <xref:str>]

Doelgegevensstore om de momentopname op te slaan. Als u dit weggelaten, wordt de momentopname gemaakt in de standaardopslag van de werkruimte.

Retouren

Momentopnameobject van gegevensset.

Retourtype

Opmerkingen

Momentopnamen leggen overzichtsstatistieken van de onderliggende gegevens vast op een bepaald tijdstip en een optionele kopie van de gegevens zelf. Ga naar voor meer informatie over het maken van https://aka.ms/azureml/howto/createsnapshots momentopnamen.

delete_snapshot

Verwijder de momentopname van de gegevensset op naam.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

delete_snapshot(snapshot_name)

Parameters

snapshot_name
<xref:str>

De naam van de momentopname.

Retouren

Geen.

Retourtype

<xref:None>

Opmerkingen

Gebruik dit om opslag vrij te maken die wordt gebruikt door gegevens die zijn opgeslagen in momentopnamen die u niet meer nodig hebt.

deprecate

Een actieve gegevensset in een werkruimte wordt door een andere gegevensset afgeschaft.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

deprecate(deprecate_by_dataset_id)

Parameters

deprecate_by_dataset_id
<xref:str>

De gegevensset-id die de beoogde vervanging is voor deze gegevensset.

Retouren

Geen.

Retourtype

<xref:None>

Opmerkingen

Afgeschafte gegevenssets melden waarschuwingen wanneer ze worden verbruikt. Als een gegevensset wordt afgeschaft, worden alle definities ervan afgeschaft.

Afgeschafte gegevenssets kunnen nog steeds worden gebruikt. Als u het verbruik van een gegevensset volledig wilt blokkeren, moet u deze archiveren.

Als de functie per ongeluk wordt afgeschaft, wordt het geactiveerd door opnieuw activeren.

diff

Diff de huidige gegevensset met rhs_dataset.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

diff(rhs_dataset, compute_target=None, columns=None)

Parameters

rhs_dataset
Dataset

Een andere gegevensset, ook wel gegevensset aan de rechterkant genoemd voor vergelijking

compute_target
<xref:typing.Union>[ComputeTarget, <xref:str>]

rekendoel om het verschil uit te voeren. Als u dit weggelaten, wordt de lokale berekening gebruikt.

columns
list[<xref:str>]

Lijst met kolomnamen die moeten worden opgenomen in diff.

Retouren

Object voor uitvoeren van gegevenssetactie.

Retourtype

from_binary_files

Maak een niet-geregistreerde, in-memory gegevensset op basis van binaire bestanden.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Aanbevolen om in plaats daarvan Dataset.File.from_files gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.

from_binary_files(path)

Parameters

path
DataReference of <xref:str>

Een gegevenspad in een geregistreerde gegevensstore of een lokaal pad.

Retouren

Het gegevenssetobject.

Retourtype

Opmerkingen

Gebruik deze methode om bestanden te lezen als stromen met binaire gegevens. Retourneert één bestandsstroomobject per gelezen bestand. Gebruik deze methode wanneer u afbeeldingen, video's, audio of andere binaire gegevens leest.

get_profile en create_snapshot werken niet zoals verwacht voor een gegevensset die met deze methode is gemaakt.

De geretourneerde gegevensset is niet geregistreerd bij de werkruimte.

from_delimited_files

Maak een niet-geregistreerde, in-memory gegevensset op basis van bestanden met scheidingstekens.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Aanbevolen om in plaats daarvan Dataset.Tabular.from_delimited_files gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
from_delimited_files(path, separator=',', header=<PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS: 3>, encoding=<FileEncoding.UTF8: 0>, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=<SkipLinesBehavior.NO_ROWS: 0>, comment=None, include_path=False, archive_options=None, partition_format=None)

Parameters

path
DataReference of <xref:str>

Een gegevenspad in een geregistreerde gegevensstore, een lokaal pad of een HTTP-URL.

separator
<xref:str>

Het scheidingsteken dat wordt gebruikt om kolommen te splitsen.

header
PromoteHeadersBehavior

Hiermee bepaalt u hoe kolomkoppen worden gepromoveerd bij het lezen van bestanden.

encoding
FileEncoding

De codering van de bestanden die worden gelezen.

quoting
<xref:bool>

Geef op hoe nieuwe regeltekens tussen aanhalingstekens moeten worden verwerkt. De standaardinstelling (Onwaar) is om nieuwe regeltekens te interpreteren als het starten van nieuwe rijen, ongeacht of de nieuwe regeltekens tussen aanhalingstekens staan of niet. Als deze is ingesteld op True, zullen nieuwe regeltekens binnen aanhalingstekens niet resulteren in nieuwe rijen en wordt de leessnelheid van het bestand vertraagd.

infer_column_types
<xref:bool>

Geeft aan of kolomgegevenstypen worden afgeleid.

skip_rows
<xref:int>

Hoeveel rijen moeten worden overgeslagen in de bestanden die worden gelezen.

skip_mode
SkipLinesBehavior

Hiermee bepaalt u hoe rijen worden overgeslagen bij het lezen van bestanden.

comment
<xref:str>

Teken dat wordt gebruikt om commentaarregels aan te geven in de bestanden die worden gelezen. Regels die beginnen met deze tekenreeks worden overgeslagen.

include_path
<xref:bool>

Of u een kolom wilt opnemen die het pad bevat van het bestand van waaruit de gegevens zijn gelezen. Dit is handig wanneer u meerdere bestanden leest en wilt weten uit welk bestand een bepaalde record afkomstig is of om nuttige informatie in het bestandspad te bewaren.

archive_options
<xref:azureml.dataprep.ArchiveOptions>

Opties voor archiefbestand, waaronder archieftype en glob-patroon voor invoer. Momenteel bieden we alleen ondersteuning voor ZIP als archieftype. Bijvoorbeeld door op te geven


   archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')

leest alle bestanden met de naam die eindigt op '10-20.csv' in ZIP.

partition_format
<xref:str>

Geef de partitienotatie op in pad en maak tekenreekskolommen op uit de notatie {x}' en datum/tijd-kolom in de notatie {x:yyyy/MM/dd/HH/mm/ss}' waarbij 'yyyy', 'MM', 'dd', 'HH', 'mm' en 'ss' worden gebruikt om het jaar, de maand, de dag, het uur en de seconde voor het datum/tijd-type uit te vullen. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven een bestandspad '.. /Accounts/2019/01/01/data.csv' waarbij gegevens worden gepartitied op afdelingsnaam en -tijd, kunnen we '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' definiëren om kolommen 'Department' van het tekenreekstype en 'PartitionDate' van het datum/tijd-type te maken.

Retouren

Gegevenssetobject.

Retourtype

Opmerkingen

Gebruik deze methode om tekstbestanden met scheidingstekens te lezen wanneer u de gebruikte opties wilt beheren.

Nadat u een gegevensset hebt gemaakt, moet u gebruiken om get_profile de gedetecteerde kolomtypen en samenvattingsstatistieken voor elke kolom weer te geven.

De geretourneerde gegevensset is niet geregistreerd bij de werkruimte.

from_excel_files

Maak een niet-geregistreerde, in-memory gegevensset van Excel-bestanden.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Parameters

path
DataReference of <xref:str>

Een gegevenspad in een geregistreerde gegevensstore of een lokaal pad.

sheet_name
<xref:str>

De naam van het Excel-werkblad dat moet worden geladen. Standaard lezen we het eerste werkblad uit elk Excel-bestand.

use_column_headers
<xref:bool>

Hiermee bepaalt u of de eerste rij als kolomkoppen moet worden gebruikt.

skip_rows
<xref:int>

Hoeveel rijen moeten worden overgeslagen in de bestanden die worden gelezen.

include_path
<xref:bool>

Of u een kolom wilt opnemen die het pad bevat van het bestand van waaruit de gegevens zijn gelezen. Dit is handig wanneer u meerdere bestanden leest en wilt weten uit welk bestand een bepaalde record afkomstig is of om nuttige informatie in het bestandspad te bewaren.

infer_column_types
<xref:bool>

Indien waar, worden kolomgegevenstypen afgeleid.

partition_format
<xref:str>

Geef de partitienotatie op in pad en maak tekenreekskolommen op uit de notatie {x}' en datum/tijd-kolom in de notatie {x:yyyy/MM/dd/HH/mm/ss}' waarbij 'yyyy', 'MM', 'dd', 'HH', 'mm' en 'ss' worden gebruikt om het jaar, de maand, de dag, het uur en de seconde voor het datum/tijd-type uit te vullen. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven een bestandspad '.. /Accounts/2019/01/01/data.xlsx' waarbij gegevens worden gepartitied op afdelingsnaam en -tijd, kunnen we '/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx' definiëren om kolommen 'Department' van het tekenreekstype en 'PartitionDate' van het datum/tijd-type te maken.

Retouren

Gegevenssetobject.

Retourtype

Opmerkingen

Gebruik deze methode om Excel-bestanden in een .xlsx lezen. Gegevens kunnen vanuit één blad in elk Excel-bestand worden gelezen. Nadat u een gegevensset hebt gemaakt, moet u gebruiken om get_profile de gedetecteerde kolomtypen en samenvattingsstatistieken voor elke kolom weer te geven. De geretourneerde gegevensset is niet geregistreerd bij de werkruimte.

from_json_files

Maak een niet-geregistreerde, in-memory gegevensset op basis van JSON-bestanden.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

U kunt het Dataset.Tabular.from_json_lines_files gebruiken om te lezen uit het JSON-regelsbestand. Zie https://aka.ms/dataset-deprecation voor meer informatie.

from_json_files(path, encoding=<FileEncoding.UTF8: 0>, flatten_nested_arrays=False, include_path=False, partition_format=None)

Parameters

path
DataReference of <xref:str>

Het pad naar de bestanden of mappen die u wilt laden en parseren. Dit kan een lokaal pad of een Azure Blob-URL zijn. Globbing wordt ondersteund. U kunt bijvoorbeeld path = "./data*" gebruiken om alle bestanden te lezen met de naam die begint met "data".

encoding
FileEncoding

De codering van de bestanden die worden gelezen.

flatten_nested_arrays
<xref:bool>

Eigenschapsbesturing van de verwerking van geneste matrices door het programma. Als u ervoor kiest om geneste JSON-matrices plat te maken, kan dit leiden tot een veel groter aantal rijen.

include_path
<xref:bool>

Of u een kolom wilt opnemen met het pad van waaruit de gegevens zijn gelezen. Dit is handig wanneer u meerdere bestanden leest en mogelijk wilt weten uit welk bestand een bepaalde record afkomstig is of om nuttige informatie in het bestandspad te bewaren.

partition_format
<xref:str>

Geef de partitienotatie op in pad en maak tekenreekskolommen op uit de notatie {x}' en datum/tijd-kolom in de notatie {x:yyyy/MM/dd/HH/mm/ss}' waarbij 'yyyy', 'MM', 'dd', 'HH', 'mm' en 'ss' worden gebruikt om het jaar, de maand, de dag, het uur en de seconde voor het datum/tijd-type uit te vullen. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven een bestandspad '.. /Accounts/2019/01/01/data.json' en gegevens worden gepartitied op afdelingsnaam en -tijd. We kunnen '/{Department}/{PartitionDate:yyyy/MM/dd}/data.json' definiëren om kolommen 'Department' van het tekenreekstype en 'PartitionDate' van het datum/tijd-type te maken.

Retouren

Het lokale gegevenssetobject.

Retourtype

from_pandas_dataframe

Maak een niet-geregistreerde, in-memory gegevensset op basis van een Pandas-gegevensframe.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Aanbevolen om in plaats daarvan Dataset.Tabular.register_pandas_dataframe gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.

from_pandas_dataframe(dataframe, path=None, in_memory=False)

Parameters

dataframe
DataFrame

Het Pandas-dataframe.

path
<xref:typing.Union>[DataReference, <xref:str>]

Een gegevenspad in geregistreerde gegevensstore of lokaal mappad.

in_memory
<xref:bool>

Of het DataFrame uit het geheugen moet worden gelezen in plaats van op de schijf te blijven.

Retouren

Een gegevenssetobject.

Retourtype

Opmerkingen

Gebruik deze methode om een Pandas-gegevensframe te converteren naar een gegevenssetobject. Een gegevensset die met deze methode is gemaakt, kan niet worden geregistreerd, omdat de gegevens afkomstig zijn uit het geheugen.

Als in_memory onwaar is, wordt het Pandas-dataframe lokaal geconverteerd naar een CSV-bestand. Als van het type DataReference is, wordt het Pandas-frame geüpload naar het gegevensopslag en wordt de gegevensset gebaseerd op pat de DataReference. Als 'pad' een lokale map is, wordt de gegevensset gemaakt op basis van het lokale bestand dat niet kan worden verwijderd.

Er teert een uitzondering als de huidige DataReference geen mappad is.

from_parquet_files

Maak een niet-geregistreerde, in-memory gegevensset op basis van Parquet-bestanden.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Aanbevolen om in plaats daarvan Dataset.Tabular.from_parquet_files gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.

from_parquet_files(path, include_path=False, partition_format=None)

Parameters

path
DataReference of <xref:str>

Een gegevenspad in een geregistreerde gegevensstore of een lokaal pad.

include_path
<xref:bool>

Of u een kolom wilt opnemen die het pad bevat van het bestand van waaruit de gegevens zijn gelezen. Dit is handig wanneer u meerdere bestanden leest en wilt weten uit welk bestand een bepaalde record afkomstig is of om nuttige informatie in het bestandspad te bewaren.

partition_format
<xref:str>

Geef de partitienotatie op in pad en maak tekenreekskolommen op uit de notatie {x}' en datum/tijd-kolom in de notatie {x:yyyy/MM/dd/HH/mm/ss}' waarbij 'yyyy', 'MM', 'dd', 'HH', 'mm' en 'ss' worden gebruikt om het jaar, de maand, de dag, het uur en de seconde voor het datum/tijd-type uit te vullen. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven een bestandspad '.. /Accounts/2019/01/01/data.parquet' waarbij gegevens worden gepartitied op afdelingsnaam en -tijd, kunnen we '/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' definiëren om kolommen 'Department' van het tekenreekstype en 'PartitionDate' van het datum/tijd-type te maken.

Retouren

Gegevenssetobject.

Retourtype

Opmerkingen

Gebruik deze methode om Parquet-bestanden te lezen.

Nadat u een gegevensset hebt gemaakt, moet u gebruiken om get_profile de gedetecteerde kolomtypen en samenvattingsstatistieken voor elke kolom weer te geven.

De geretourneerde gegevensset is niet geregistreerd bij de werkruimte.

from_sql_query

Maak een niet-geregistreerde, in-memory gegevensset op basis van een SQL-query.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Aanbevolen om in plaats daarvan Dataset.Tabular.from_sql_query gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.

from_sql_query(data_source, query)

Parameters

data_source
AzureSqlDatabaseDatastore

De details van de Azure SQL gegevensstore.

query
<xref:str>

De query die moet worden uitgevoerd om gegevens te lezen.

Retouren

Het lokale gegevenssetobject.

Retourtype

generate_profile

Genereer een nieuw profiel voor de gegevensset.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

generate_profile(compute_target=None, workspace=None, arguments=None)

Parameters

compute_target
<xref:typing.Union>[ComputeTarget, <xref:str>]

Een optioneel rekendoel om het momentopnameprofiel te maken. Als u dit weggelaten, wordt de lokale berekening gebruikt.

workspace
Workspace

Werkruimte, vereist voor tijdelijke (niet-geregistreerde) gegevenssets.

arguments
<xref:dict>[<xref:str>, <xref:object>]

Profielargumenten. Geldige argumenten zijn:

  • 'include_stype_counts' van het type bool. Controleer of waarden lijken op een aantal bekende semantische typen, zoals e-mailadres, IP-adres (V4/V6), Telefoonnummer van de VS, Amerikaanse postcode, breedtegraad/lengtegraad. Het inschakelen van dit is van invloed op de prestaties.

  • 'number_of_histogram_bins' van het type int. Vertegenwoordigt het aantal histogrammen dat moet worden gebruikt voor numerieke gegevens. De standaardwaarde is 10.

Retouren

Object voor uitvoeren van gegevenssetactie.

Retourtype

Opmerkingen

Synchrone aanroep wordt geblokkeerd totdat deze is voltooid. Roep get_result aan om het resultaat van de actie op te halen.

get

Haal een gegevensset op die al in de werkruimte bestaat door de naam of id op te geven.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Aanbevolen om in plaats daarvan get_by_name en get_by_id te gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.

get(workspace, name=None, id=None)

Parameters

workspace
Workspace

De bestaande AzureML-werkruimte waarin de gegevensset is gemaakt.

name
<xref:str>

De naam van de gegevensset die moet worden opgehaald.

id
<xref:str>

Een unieke id van de gegevensset in de werkruimte.

Retouren

De gegevensset met de opgegeven naam of id.

Retourtype

Opmerkingen

U kunt of name id verstrekken. Er t doet zich een uitzondering voor als:

  • zowel name als id zijn opgegeven, maar komen niet overeen.

  • de gegevensset met de opgegeven name of kan niet worden gevonden in de id werkruimte.

get_all

Haal alle geregistreerde gegevenssets in de werkruimte op.

get_all(workspace)

Parameters

workspace
Workspace

De bestaande AzureML-werkruimte waarin de gegevenssets zijn geregistreerd.

Retouren

Een woordenlijst met TabularDataset- en FileDataset-objecten met de registratienaam.

Retourtype

<xref:dict>[<xref:str>, <xref:typing.Union>[TabularDataset, FileDataset]]

get_all_snapshots

Haal alle momentopnamen van de gegevensset op.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

get_all_snapshots()

Retouren

Lijst met momentopnamen van gegevenssets.

Retourtype

get_by_id

Haal een gegevensset op die in de werkruimte wordt opgeslagen.

get_by_id(workspace, id)

Parameters

workspace
Workspace

De bestaande AzureML-werkruimte waarin de gegevensset wordt opgeslagen.

id
<xref:str>

De id van de gegevensset.

Retouren

Het gegevenssetobject. Als de gegevensset is geregistreerd, worden ook de registratienaam en -versie geretourneerd.

Retourtype

<xref:typing.Union>[TabularDataset, FileDataset]

get_by_name

Haal een geregistreerde gegevensset op uit de werkruimte op basis van de registratienaam.

get_by_name(workspace, name, version='latest')

Parameters

workspace
Workspace

De bestaande AzureML-werkruimte waarin de gegevensset is geregistreerd.

name
<xref:str>

De registratienaam.

version
<xref:int>

De registratieversie. De standaardwaarde is 'nieuwste'.

Retouren

Het geregistreerde gegevenssetobject.

Retourtype

<xref:typing.Union>[TabularDataset, FileDataset]

get_definition

Haal een specifieke definitie van de gegevensset op.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

get_definition(version_id=None)

Parameters

version_id
<xref:str>

De versie-id van de definitie van de gegevensset

Retouren

De definitie van de gegevensset.

Retourtype

Opmerkingen

Als is opgegeven, probeert Azure Machine Learning definitie op te halen version_id die overeenkomt met die versie. Als deze versie niet bestaat, wordt er een uitzondering gemaakt. Als version_id wordt weggelaten, wordt de meest recente versie opgehaald.

get_definitions

Haal alle definities van de gegevensset op.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

get_definitions()

Retouren

Een woordenlijst met gegevenssetdefinities.

Retourtype

<xref:dict>[<xref:str>, DatasetDefinition]

Opmerkingen

Een gegevensset die is geregistreerd in een AzureML-werkruimte kan meerdere definities hebben, die elk zijn gemaakt door aan te update_definition roepen. Elke definitie heeft een unieke id. De huidige definitie is de meest recente definitie die is gemaakt.

Voor niet-geregistreerde gegevenssets bestaat er slechts één definitie.

get_profile

Samenvattingsstatistieken van de eerder berekende gegevensset op te halen.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Parameters

arguments
<xref:dict>[<xref:str>, <xref:object>]

Profielargumenten.

generate_if_not_exist
<xref:bool>

Geeft aan of een profiel moet worden gegenereerd als dit nog niet bestaat.

workspace
Workspace

Werkruimte, vereist voor tijdelijke (niet-geregistreerde) gegevenssets.

compute_target
<xref:typing.Union>[ComputeTarget, <xref:str>]

Een rekendoel om de profielactie uit te voeren.

Retouren

DataProfile van de gegevensset.

Retourtype

Opmerkingen

Voor een gegevensset die is geregistreerd bij Azure Machine Learning werkruimte, haalt deze methode een bestaand profiel op dat eerder is gemaakt door aan te roepen als get_profile het nog geldig is. Profielen worden ongeldig gemaakt wanneer gewijzigde gegevens worden gedetecteerd in de gegevensset of wanneer de argumenten voor verschillen van de argumenten die zijn gebruikt toen get_profile het profiel werd gegenereerd. Als het profiel niet aanwezig of ongeldig is, generate_if_not_exist wordt bepaald of er een nieuw profiel wordt gegenereerd.

Voor een gegevensset die niet is geregistreerd bij Azure Machine Learning werkruimte, wordt met deze methode altijd het generate_profile resultaat uitgevoerd en retourneert deze.

get_snapshot

Maak een momentopname van de gegevensset op naam.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

get_snapshot(snapshot_name)

Parameters

snapshot_name
<xref:str>

De naam van de momentopname.

Retouren

Momentopnameobject van gegevensset.

Retourtype

head

Haal het opgegeven aantal records op dat is opgegeven uit deze gegevensset en retourneert deze als een DataFrame.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

head(count)

Parameters

count
<xref:int>

Het aantal records dat moet worden pull.

Retouren

Een Pandas-dataframe.

Retourtype

list

Vermeld alle gegevenssets in de werkruimte, inclusief gegevens met een is_visible eigenschap die gelijk is aan False.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Aanbevolen om in plaats daarvan get_all te gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.

list(workspace)

Parameters

workspace
Workspace

De werkruimte waarvoor u de lijst met gegevenssets wilt ophalen.

Retouren

Een lijst met gegevenssetobjecten.

Retourtype

reactivate

Een gearchiveerde of afgeschafte gegevensset opnieuw activeren.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

reactivate()

Retouren

Geen.

Retourtype

<xref:None>

register

Registreer de gegevensset in de werkruimte, zodat deze beschikbaar is voor andere gebruikers van de werkruimte.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Aanbevolen om in plaats daarvan register te gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Parameters

workspace
Workspace

De AzureML-werkruimte waarin de gegevensset moet worden geregistreerd.

name
<xref:str>

De naam van de gegevensset in de werkruimte.

description
<xref:str>

Een beschrijving van de gegevensset.

tags
<xref:dict>[<xref:str>, <xref:str>]

Tags om te koppelen aan de gegevensset.

visible
<xref:bool>

Geeft aan of de gegevensset zichtbaar is in de gebruikersinterface. Als de gegevensset onwaar is, wordt deze verborgen in de gebruikersinterface en beschikbaar via de SDK.

exist_ok
<xref:bool>

Als deze waar is, retourneert de methode de gegevensset als deze al bestaat in de opgegeven werkruimte, anders fout.

update_if_exist
<xref:bool>

Als True is en True is, wordt met deze methode de definitie bijgewerkt exist_ok update_if_exist en wordt de bijgewerkte gegevensset retourneren.

Retouren

Een geregistreerd gegevenssetobject in de werkruimte.

Retourtype

sample

Genereer een nieuw voorbeeld van de brongegevensset met behulp van de samplingstrategie en de opgegeven parameters.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Maak een TabularDataset door de statische methoden op Dataset.Tabular aan te roepen en daar de take_sample methode te gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.

sample(sample_strategy, arguments)

Parameters

sample_strategy
<xref:str>

Te gebruiken voorbeeldstrategie. Geaccepteerde waarden zijn 'top_n', 'simple_random' of 'stratified'.

arguments
<xref:dict>[<xref:str>, <xref:object>]

Een woordenlijst met sleutels uit het 'Optionele argument' in de bovenstaande lijst en waarden uit de kolom 'Type'. Alleen argumenten van de bijbehorende steekproefmethode kunnen worden gebruikt. Voor een voorbeeldtype 'simple_random' kunt u bijvoorbeeld alleen een woordenlijst met de sleutels 'waarschijnlijkheid' en 'seed' opgeven.

Retouren

Gegevenssetobject als voorbeeld van de oorspronkelijke gegevensset.

Retourtype

Opmerkingen

Voorbeelden worden gegenereerd door de transformatiepijplijn uit te voeren die is gedefinieerd door deze gegevensset en vervolgens de samplingstrategie en parameters toe te passen op de uitvoergegevens. Elke steekproefmethode ondersteunt de volgende optionele argumenten:

  • top_n

    • Optionele argumenten

      • n, typ integer. Selecteer de bovenste N rijen als voorbeeld.
  • simple_random

    • Optionele argumenten

      • waarschijnlijkheid, typ float. Eenvoudige willekeurige steekproeven waarbij elke rij een gelijke kans heeft om te worden geselecteerd. Waarschijnlijkheid moet een getal tussen 0 en 1 zijn.

      • seed, typ float. Wordt gebruikt door de generator voor willekeurige getallen. Gebruik voor herhaalbaarheid.

  • gelaagd

    • Optionele argumenten

      • kolommen, type list[str]. Lijst met strata-kolommen in de gegevens.

      • seed, typ float. Wordt gebruikt door de generator voor willekeurige getallen. Gebruik voor herhaalbaarheid.

      • fractions, type dict[tuple, float]. Tuple: kolomwaarden die een stratum definiëren, moeten in dezelfde volgorde staan als kolomnamen. Float: gewicht dat tijdens het nemen van steekproeven aan een stratum is gekoppeld.

De volgende codefragmenten zijn voorbeeldontwerppatronen voor verschillende voorbeeldmethoden.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Maak een Pandas-gegevensframe door de transformatiepijplijn uit te voeren die is gedefinieerd door deze gegevenssetdefinitie.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Maak een TabularDataset door de statische methoden op Dataset.Tabular aan te roepen en daar de to_pandas_dataframe methode te gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.

to_pandas_dataframe()

Retouren

Een Pandas-dataframe.

Retourtype

Opmerkingen

Een Pandas-dataframe retourneren dat volledig in het geheugen is ge materialiseerd.

to_spark_dataframe

Maak een Spark DataFrame waarmee de transformatiepijplijn kan worden uitgevoerd die is gedefinieerd door deze gegevenssetdefinitie.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Maak een TabularDataset door de statische methoden op Dataset.Tabular aan te roepen en daar de to_spark_dataframe methode te gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.

to_spark_dataframe()

Retouren

Een Spark DataFrame.

Retourtype

Opmerkingen

Het geretourneerde Spark-dataframe is slechts een uitvoeringsplan en bevat geen gegevens, omdat Spark-dataframes lazily worden geëvalueerd.

update

Werk de veranderlijke kenmerken van de gegevensset in de werkruimte bij en retourneert de bijgewerkte gegevensset uit de werkruimte.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

update(name=None, description=None, tags=None, visible=None)

Parameters

name
<xref:str>

De naam van de gegevensset in de werkruimte.

description
<xref:str>

Een beschrijving van de gegevens.

tags
<xref:dict>[<xref:str>, <xref:str>]

Tags om de gegevensset aan te koppelen.

visible
<xref:bool>

Geeft aan of de gegevensset zichtbaar is in de gebruikersinterface.

Retouren

Een bijgewerkt gegevenssetobject uit de werkruimte.

Retourtype

update_definition

Werk de definitie van de gegevensset bij.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

update_definition(definition, definition_update_message)

Parameters

definition
DatasetDefinition

De nieuwe definitie van deze gegevensset.

definition_update_message
<xref:str>

Het bericht over het bijwerken van de definitie.

Retouren

Een bijgewerkt gegevenssetobject uit de werkruimte.

Retourtype

Opmerkingen

Als u de bijgewerkte gegevensset wilt gebruiken, gebruikt u het -object dat door deze methode wordt geretourneerd.

Kenmerken

definition

De huidige gegevenssetdefinitie retourneren.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

Retouren

De definitie van de gegevensset.

Retourtype

Opmerkingen

Een gegevenssetdefinitie is een reeks stappen die aangeven hoe gegevens moeten worden gelezen en getransformeerd.

Een gegevensset die is geregistreerd in een AzureML-werkruimte kan meerdere definities hebben, die elk zijn gemaakt door aan te update_definition roepen. Elke definitie heeft een unieke id. Als u meerdere definities hebt, kunt u wijzigingen aanbrengen in bestaande gegevenssets zonder dat er modellen en pijplijnen worden breken die afhankelijk zijn van de oudere definitie.

Voor niet-geregistreerde gegevenssets bestaat er slechts één definitie.

definition_version

De versie van de huidige definitie van de gegevensset retourneren.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

Retouren

De definitieversie van de gegevensset.

Retourtype

<xref:str>

Opmerkingen

Een gegevenssetdefinitie is een reeks stappen die aangeven hoe gegevens moeten worden gelezen en getransformeerd.

Een gegevensset die is geregistreerd in een AzureML-werkruimte kan meerdere definities hebben, die elk zijn gemaakt door aan te update_definition roepen. Elke definitie heeft een unieke id. De huidige definitie is de meest recente die is gemaakt, waarvan de id hierdoor wordt geretourneerd.

Voor niet-geregistreerde gegevenssets bestaat er slechts één definitie.

description

De beschrijving van de gegevensset retourneren.

Retouren

De beschrijving van de gegevensset.

Retourtype

<xref:str>

Opmerkingen

Door een beschrijving van de gegevens in de gegevensset op te geven, kunnen gebruikers van de werkruimte begrijpen wat de gegevens vertegenwoordigen en hoe ze deze kunnen gebruiken.

id

Als de gegevensset is geregistreerd in een werkruimte, retourneerde u de id van de gegevensset. Anders retournt u Geen.

Retouren

De gegevensset-id.

Retourtype

<xref:str>

is_visible

De zichtbaarheid van een geregistreerde gegevensset beheren in de gebruikersinterface van de Azure ML-werkruimte.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

Retouren

De zichtbaarheid van de gegevensset.

Retourtype

<xref:bool>

Opmerkingen

Geretourneerde waarden:

  • Waar: de gegevensset is zichtbaar in de gebruikersinterface van de werkruimte. Standaard.

  • Onwaar: de gegevensset wordt verborgen in de gebruikersinterface van de werkruimte.

Heeft geen effect op niet-geregistreerde gegevenssets.

name

Retourner de naam van de gegevensset.

Retouren

De naam van de gegevensset.

Retourtype

<xref:str>

state

De status van de gegevensset retourneren.

Notitie

Deze methode is afgeschaft en wordt niet meer ondersteund.

Zie https://aka.ms/dataset-deprecation voor meer informatie.

Retouren

De status van de gegevensset.

Retourtype

<xref:str>

Opmerkingen

De betekenis en het effect van staten zijn als volgt:

  • Actieve. Actieve definities zijn precies hoe ze klinken. Alle acties kunnen worden uitgevoerd op actieve definities.

  • Afgeschaft. de afgeschafte definitie kan worden gebruikt, maar resulteert in een waarschuwing die wordt vastgelegd in de logboeken telkens als de onderliggende gegevens worden gebruikt.

  • Gearchiveerde. Een gearchiveerde definitie kan niet worden gebruikt om een actie uit te voeren. Als u acties wilt uitvoeren op een gearchiveerde definitie, moet deze opnieuw worden geactiveerd.

tags

De tags retourneren die zijn gekoppeld aan de gegevensset.

Retouren

Tags van gegevenssets.

Retourtype

<xref:dict>[<xref:str>, <xref:str>]

workspace

Als de gegevensset is geregistreerd in een werkruimte, retourneerde u die. Anders wordt Geen retourneren.

Retouren

De werkruimte.

Retourtype