TabularDatasetFactory Klas

Bevat methoden voor het maken van een tabellaire gegevensset voor Azure Machine Learning.

Een TabularDataset wordt gemaakt met behulp van de from_* methoden in deze klasse, bijvoorbeeld de methode from_delimited_files.

Zie het notebook https://aka.ms/tabulardataset-samplenotebookvoor meer informatie over het werken met gegevenssets in tabelvorm.

Overname
builtins.object
TabularDatasetFactory

Constructor

TabularDatasetFactory()

Methoden

from_delimited_files

Maak een TabularDataset om tabelgegevens in bestanden met scheidingstekens (e.g. CSV en TSV) weer te geven.

from_json_lines_files

Maak een TabularDataset om tabelgegevens in JSON Lines-bestanden (http://jsonlines.org/) weer te geven.

from_parquet_files

Maak een TabularDataset om tabelgegevens in Parquet-bestanden weer te geven.

from_sql_query

Maak een TabularDataset om tabelgegevens in SQL-databases weer te geven.

register_dask_dataframe

Notitie

Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie.

Maak een gegevensset van dask dataframe.

register_pandas_dataframe

Maak een gegevensset van pandas dataframe.

register_spark_dataframe

Notitie

Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie.

Maak een gegevensset op basis van spark-dataframe.

from_delimited_files

Maak een TabularDataset om tabelgegevens in bestanden met scheidingstekens (e.g. CSV en TSV) weer te geven.

static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')

Parameters

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Vereist

Het pad naar de bronbestanden, dat één waarde of lijst met URL-tekenreeksen (http[s]|abfs[s]|wasb[s]), DataPath object of tuple van Datastore en relatief pad kan zijn. Houd er rekening mee dat de lijst met paden niet zowel URL's als gegevensarchieven samen kan bevatten.

validate
bool
Vereist

Booleaanse waarde om te controleren of gegevens kunnen worden geladen uit de geretourneerde gegevensset. De standaardwaarde is Waar. Voor validatie is vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening. Als u de validatie wilt uitschakelen, moet 'infer_column_types' ook worden ingesteld op Onwaar.

include_path
bool
Vereist

Booleaanse waarde om padgegevens als kolom in de gegevensset te bewaren. Standaard ingesteld op False. Dit is handig bij het lezen van meerdere bestanden en wilt weten van welk bestand een bepaalde record afkomstig is, of om nuttige informatie in het bestandspad te bewaren.

infer_column_types
bool
Vereist

Booleaans om kolomgegevenstypen af te stellen. De standaardwaarde is Waar. Type deductie vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening. Op dit moment worden de eerste 200 rijen opgehaald door typedeductie. Als de gegevens meerdere typen waarde bevatten, is het beter om het gewenste type op te geven als overschrijving via set_column_types argument. Raadpleeg de sectie Opmerkingen voor codevoorbeelden over set_column_types.

set_column_types
dict[str, DataType]
Vereist

Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType.

separator
str
Vereist

Het scheidingsteken dat wordt gebruikt om kolommen te splitsen.

header
bool of PromoteHeadersBehavior
Vereist

Hiermee bepaalt u hoe kolomkoppen worden gepromoveerd bij het lezen van bestanden. De standaardwaarde is Waar voor alle bestanden met dezelfde header. Bestanden worden gelezen als met geen header Wanneer header=Onwaar. Er kunnen meer opties worden opgegeven met behulp van de enum-waarde van PromoteHeadersBehavior.

partition_format
str
Vereist

Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het notatieonderdeel {column_name} wordt een tekenreekskolom gemaakt en in {column_name:jjjj/MM/dd/uu/mm/ss} wordt de datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/01/data.csv' waarbij de partitie zich bevindt op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' maakt een tekenreekskolom 'Afdeling' met de waarde 'Accounts' en een datum/tijdkolom 'PartitionDate' met de waarde '2019-01-01'.

support_multi_line
bool
Vereist

Standaard (support_multi_line=Onwaar) worden alle regeleinden, inclusief de regeleinden in veldwaarden tussen aanhalingstekens, geïnterpreteerd als een recordonderbreking. Het lezen van gegevens op deze manier is sneller en meer geoptimaliseerd voor parallelle uitvoering op meerdere CPU-kernen. Dit kan er echter toe leiden dat er op de achtergrond meer records met verkeerd uitgelijnde veldwaarden worden geproduceerd. Dit moet worden ingesteld op Waar wanneer bekend is dat de bestanden met scheidingstekens regeleinden bevatten.

Op basis van dit CSV-bestand als voorbeeld worden de gegevens anders gelezen op basis van support_multi_line.

A,B,C A1,B1,C1 A2,"B 2",C2


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # default behavior: support_multi_line=False
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path)
   print(dataset.to_pandas_dataframe())
   #      A   B     C
   #  0  A1  B1    C1
   #  1  A2   B  None
   #  2  2"  C2  None

   # to handle quoted line breaks
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path,
                                                  support_multi_line=True)
   print(dataset.to_pandas_dataframe())
   #      A       B   C
   #  0  A1      B1  C1
   #  1  A2  B\r\n2  C2
empty_as_string
bool
Vereist

Geef op of lege veldwaarden als lege tekenreeksen moeten worden geladen. De standaardwaarde (Onwaar) leest lege veldwaarden als null-waarden. Als u dit doorgeeft als Waar, worden lege veldwaarden als lege tekenreeksen gelezen. Als de waarden worden geconverteerd naar numerieke waarden of datum/tijd, heeft dit geen effect, omdat lege waarden worden geconverteerd naar null-waarden.

encoding
str
Vereist

Geef de bestandscodering op. Ondersteunde coderingen zijn 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' en 'windows1252'

Retouren

Retourneert een TabularDataset -object.

Retourtype

Opmerkingen

from_delimited_files maakt een klasseobject TabularDataset , dat de bewerkingen definieert voor het laden van gegevens uit bestanden met scheidingstekens in tabelweergave.

De gegevens zijn alleen toegankelijk voor Azure Machine Learning als de bestanden met scheidingstekens die zijn opgegeven door het pad , zich bevinden in Datastore of achter openbare web-URL's of URL van Blob, ADLS Gen1 en ADLS Gen2. Het AAD-token van gebruikers wordt gebruikt in een notebook of een lokaal Python-programma als een van deze functies rechtstreeks wordt aangeroepen: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden ingediend voor verificatie van gegevenstoegang. Meer informatie: https://aka.ms/data-access

Kolomgegevenstypen worden standaard afgeleid uit gegevens in de bestanden met scheidingstekens. Als u set_column_types opgeeft, wordt het gegevenstype voor de opgegeven kolommen in de geretourneerde TabularDataset overschreven.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))

   # create tabular dataset from all csv files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
   tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.csv',
       'https://url/weather/2018/12.csv'
   ]
   tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)

from_json_lines_files

Maak een TabularDataset om tabelgegevens in JSON Lines-bestanden (http://jsonlines.org/) weer te geven.

static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')

Parameters

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Vereist

Het pad naar de bronbestanden, dat één waarde of lijst met URL-tekenreeksen (http[s]|abfs[s]|wasb[s]), DataPath object of tuple van Datastore en relatief pad kan zijn. Houd er rekening mee dat de lijst met paden niet zowel URL's als gegevensarchieven samen kan bevatten.

validate
bool
Vereist

Booleaanse waarde om te controleren of gegevens kunnen worden geladen uit de geretourneerde gegevensset. De standaardwaarde is Waar. Voor validatie is vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening.

include_path
bool
Vereist

Booleaanse waarde om padgegevens als kolom in de gegevensset te bewaren. Standaard ingesteld op False. Dit is handig bij het lezen van meerdere bestanden en wilt weten van welk bestand een bepaalde record afkomstig is, of om nuttige informatie in het bestandspad te bewaren.

set_column_types
dict[str, DataType]
Vereist

Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType

partition_format
str
Vereist

Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het notatieonderdeel {column_name} wordt een tekenreekskolom gemaakt en in {column_name:jjjj/MM/dd/uu/mm/ss} wordt de datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/01/data.jsonl' waarbij de partitie is op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' maakt een tekenreekskolom 'Department' met de waarde 'Accounts' en een datum/tijd-kolom 'PartitionDate' met de waarde '2019-01-01'.

invalid_lines
str
Vereist

Regels afhandelen die een ongeldige JSON zijn. Ondersteunde waarden zijn 'error' en 'drop'.

encoding
str
Vereist

Geef de bestandscodering op. Ondersteunde coderingen zijn 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' en 'windows1252'

Retouren

Retourneert een TabularDataset -object.

Retourtype

Opmerkingen

from_json_lines_files maakt een klasseobject TabularDataset , dat de bewerkingen definieert voor het laden van gegevens uit JSON-lijnenbestanden in tabelweergave.

De gegevens zijn alleen toegankelijk voor Azure Machine Learning als de JSON-lijnenbestanden die zijn opgegeven door het pad , zich bevinden in Datastore of achter openbare web-URL's of URL van Blob, ADLS Gen1 en ADLS Gen2. Het AAD-token van gebruikers wordt gebruikt in een notebook of een lokaal Python-programma als een van deze functies rechtstreeks wordt aangeroepen: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden ingediend voor verificatie van gegevenstoegang. Meer informatie: https://aka.ms/data-access

Kolomgegevenstypen worden gelezen uit gegevenstypen die zijn opgeslagen in de JSON Lines-bestanden. Als u set_column_types opgeeft, wordt het gegevenstype voor de opgegeven kolommen in de geretourneerde TabularDataset overschreven.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))

   # create tabular dataset from all jsonl files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
   tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.jsonl',
       'https://url/weather/2018/12.jsonl'
   ]
   tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)

from_parquet_files

Maak een TabularDataset om tabelgegevens in Parquet-bestanden weer te geven.

static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)

Parameters

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Vereist

Het pad naar de bronbestanden, dat één waarde of lijst met URL-tekenreeksen (http[s]|abfs[s]|wasb[s]), DataPath object of tuple van Datastore en relatief pad kan zijn. Houd er rekening mee dat de lijst met paden niet zowel URL's als gegevensarchieven samen kan bevatten.

validate
bool
Vereist

Booleaanse waarde om te controleren of gegevens kunnen worden geladen uit de geretourneerde gegevensset. De standaardwaarde is Waar. Voor validatie is vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening.

include_path
bool
Vereist

Booleaanse waarde om padgegevens als kolom in de gegevensset te bewaren. Standaard ingesteld op False. Dit is handig bij het lezen van meerdere bestanden en wilt weten van welk bestand een bepaalde record afkomstig is, of om nuttige informatie in het bestandspad te bewaren.

set_column_types
dict[str, DataType]
Vereist

Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType.

partition_format
str
Vereist

Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het notatieonderdeel {column_name} wordt een tekenreekskolom gemaakt en in {column_name:jjjj/MM/dd/uu/mm/ss} wordt de datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/01/data.parquet' waarbij de partitie is op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' maakt een tekenreekskolom 'Afdeling' met de waarde 'Accounts' en een datum/tijdkolom 'PartitionDate' met de waarde '2019-01-01'.

Retouren

Retourneert een TabularDataset -object.

Retourtype

Opmerkingen

from_parquet_files maakt een klasseobject TabularDataset , dat de bewerkingen definieert om gegevens uit Parquet-bestanden in tabelvorm te laden.

De gegevens zijn alleen toegankelijk voor Azure Machine Learning als de Parquet-bestanden die zijn opgegeven door het pad , zich bevinden in Datastore of achter openbare web-URL's of URL van Blob, ADLS Gen1 en ADLS Gen2. Het AAD-token van gebruikers wordt gebruikt in een notebook of een lokaal Python-programma als een van deze functies rechtstreeks wordt aangeroepen: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden ingediend voor verificatie van gegevenstoegang. Meer informatie: https://aka.ms/data-access

Kolomgegevenstypen worden gelezen uit gegevenstypen die zijn opgeslagen in de Parquet-bestanden. Als u set_column_types opgeeft, wordt het gegevenstype voor de opgegeven kolommen in de geretourneerde TabularDataset overschreven.


   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))

   # create tabular dataset from all parquet files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
   tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.parquet',
       'https://url/weather/2018/12.parquet'
   ]
   tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)

from_sql_query

Maak een TabularDataset om tabelgegevens in SQL-databases weer te geven.

static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)

Parameters

query
Union[DataPath, (Datastore, str)]
Vereist

Een SQL-gegevensarchief en een query.

validate
bool
Vereist

Booleaanse waarde om te controleren of gegevens uit de geretourneerde gegevensset kunnen worden geladen. De standaardwaarde is True. Validatie vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening.

set_column_types
dict[str, DataType]
Vereist

Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType.

query_timeout
Vereist

Hiermee stelt u de wachttijd in (in seconden) voordat de poging om een opdracht uit te voeren wordt beëindigd en een fout wordt gegenereerd. De standaardwaarde is 30 seconden.

Retouren

Retourneert een TabularDataset -object.

Retourtype

Opmerkingen

from_sql_query maakt een object van TabularDataset klasse, dat de bewerkingen definieert voor het laden van gegevens uit SQL-databases in tabelvorm. Momenteel ondersteunen we alleen MSSQLDataSource.

Om de gegevens toegankelijk te maken voor Azure Machine Learning, moet de SQL-database die is opgegeven door query zich bevinden in Datastore en moet het gegevensarchieftype van het type SQL zijn.

Kolomgegevenstypen worden gelezen uit gegevenstypen in SQL-queryresultaten. Als u opgeeft set_column_types , wordt het gegevenstype voor de opgegeven kolommen in de geretourneerde TabularDataset overschreven.


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # create tabular dataset from a SQL database in datastore
   datastore = Datastore.get(workspace, 'mssql')
   query = DataPath(datastore, 'SELECT * FROM my_table')
   tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
   df = tabular.to_pandas_dataframe()

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)

register_dask_dataframe

Notitie

Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie.

Maak een gegevensset van dask dataframe.

static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parameters

dataframe
<xref:dask.dataframe.core.DataFrame>
Vereist

Vereist, dask dataframe dat moet worden geüpload.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Vereist

Vereist: het gegevensarchiefpad waarnaar de parquet-gegevens van het dataframe worden geüpload. Er wordt een GUID-map gegenereerd onder het doelpad om conflicten te voorkomen.

name
str
Vereist

Vereist, de naam van de geregistreerde gegevensset.

description
str
Vereist

Optioneel. Een tekstbeschrijving van de gegevensset. De standaardwaarde is Geen.

tags
dict[str, str]
Vereist

Optioneel. Woordenlijst met sleutelwaardetags voor de gegevensset. De standaardwaarde is Geen.

show_progress
bool
Vereist

Optioneel, geeft aan of de voortgang van het uploaden in de console moet worden weergegeven. De standaardinstelling is True.

Retouren

De geregistreerde gegevensset.

Retourtype

register_pandas_dataframe

Maak een gegevensset van pandas dataframe.

static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)

Parameters

dataframe
DataFrame
Vereist

Vereist, in het geheugen dataframe dat moet worden geüpload.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Vereist

Vereist: het gegevensarchiefpad waarnaar de parquet-gegevens van het dataframe worden geüpload. Er wordt een GUID-map gegenereerd onder het doelpad om conflicten te voorkomen.

name
str
Vereist

Vereist, de naam van de geregistreerde gegevensset.

description
int
Vereist

Optioneel. Een tekstbeschrijving van de gegevensset. De standaardwaarde is Geen.

tags
dict[str, str]
Vereist

Optioneel. Woordenlijst met sleutelwaardetags voor de gegevensset. De standaardwaarde is Geen.

show_progress
bool
Vereist

Optioneel, geeft aan of de voortgang van het uploaden in de console moet worden weergegeven. De standaardinstelling is True.

row_group_size
Vereist

Optioneel. Maximale grootte van de rijgroep die moet worden gebruikt bij het schrijven van parquet-bestand. De standaardwaarde is Geen.

make_target_path_unique
Vereist

Optioneel, geeft aan of een unieke submap moet worden gemaakt in het doel. De standaardinstelling is True.

Retouren

De geregistreerde gegevensset.

Retourtype

register_spark_dataframe

Notitie

Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie.

Maak een gegevensset op basis van spark-dataframe.

static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parameters

dataframe
DataFrame
Vereist

Vereist, in het geheugen dataframe dat moet worden geüpload.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Vereist

Vereist: het gegevensarchiefpad waarnaar de parquet-gegevens van het dataframe worden geüpload. Er wordt een GUID-map gegenereerd onder het doelpad om conflicten te voorkomen.

name
str
Vereist

Vereist, de naam van de geregistreerde gegevensset.

description
str
Vereist

Optioneel. Een tekstbeschrijving van de gegevensset. De standaardwaarde is Geen.

tags
dict[str, str]
Vereist

Optioneel. Woordenlijst met sleutelwaardetags voor de gegevensset. De standaardwaarde is Geen.

show_progress
bool
Vereist

Optioneel, geeft aan of de voortgang van het uploaden in de console moet worden weergegeven. De standaardinstelling is True.

Retouren

De geregistreerde gegevensset.

Retourtype