TabularDatasetFactory Klas

Referentie

Bevat methoden voor het maken van een tabellaire gegevensset voor Azure Machine Learning.

Een TabularDataset wordt gemaakt met behulp van de from_* methoden in deze klasse, bijvoorbeeld de methode from_delimited_files.

Zie het notebook https://aka.ms/tabulardataset-samplenotebookvoor meer informatie over het werken met gegevenssets in tabelvorm.

Overname: builtins.object

TabularDatasetFactory

Constructor

TabularDatasetFactory()

Methoden

from_delimited_files	Maak een TabularDataset om tabelgegevens in bestanden met scheidingstekens (e.g. CSV en TSV) weer te geven.
from_json_lines_files	Maak een TabularDataset om tabelgegevens in JSON Lines-bestanden (http://jsonlines.org/) weer te geven.
from_parquet_files	Maak een TabularDataset om tabelgegevens in Parquet-bestanden weer te geven.
from_sql_query	Maak een TabularDataset om tabelgegevens in SQL-databases weer te geven.
register_dask_dataframe	Notitie Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie. Maak een gegevensset van dask dataframe.
register_pandas_dataframe	Maak een gegevensset van pandas dataframe.
register_spark_dataframe	Notitie Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie. Maak een gegevensset op basis van spark-dataframe.

from_delimited_files

Maak een TabularDataset om tabelgegevens in bestanden met scheidingstekens (e.g. CSV en TSV) weer te geven.

static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')

Parameters

path: Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]

Vereist

Het pad naar de bronbestanden, dat één waarde of lijst met URL-tekenreeksen (http[s]|abfs[s]|wasb[s]), DataPath object of tuple van Datastore en relatief pad kan zijn. Houd er rekening mee dat de lijst met paden niet zowel URL's als gegevensarchieven samen kan bevatten.

validate: bool

Vereist

Booleaanse waarde om te controleren of gegevens kunnen worden geladen uit de geretourneerde gegevensset. De standaardwaarde is Waar. Voor validatie is vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening. Als u de validatie wilt uitschakelen, moet 'infer_column_types' ook worden ingesteld op Onwaar.

include_path: bool

Vereist

Booleaanse waarde om padgegevens als kolom in de gegevensset te bewaren. Standaard ingesteld op False. Dit is handig bij het lezen van meerdere bestanden en wilt weten van welk bestand een bepaalde record afkomstig is, of om nuttige informatie in het bestandspad te bewaren.

infer_column_types: bool

Vereist

Booleaans om kolomgegevenstypen af te stellen. De standaardwaarde is Waar. Type deductie vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening. Op dit moment worden de eerste 200 rijen opgehaald door typedeductie. Als de gegevens meerdere typen waarde bevatten, is het beter om het gewenste type op te geven als overschrijving via set_column_types argument. Raadpleeg de sectie Opmerkingen voor codevoorbeelden over set_column_types.

set_column_types: dict[str, DataType]

Vereist

Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType.

separator: str

Vereist

Het scheidingsteken dat wordt gebruikt om kolommen te splitsen.

header: bool of PromoteHeadersBehavior

Vereist

Hiermee bepaalt u hoe kolomkoppen worden gepromoveerd bij het lezen van bestanden. De standaardwaarde is Waar voor alle bestanden met dezelfde header. Bestanden worden gelezen als met geen header Wanneer header=Onwaar. Er kunnen meer opties worden opgegeven met behulp van de enum-waarde van PromoteHeadersBehavior.

partition_format: str

Vereist

Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het notatieonderdeel {column_name} wordt een tekenreekskolom gemaakt en in {column_name:jjjj/MM/dd/uu/mm/ss} wordt de datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/01/data.csv' waarbij de partitie zich bevindt op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' maakt een tekenreekskolom 'Afdeling' met de waarde 'Accounts' en een datum/tijdkolom 'PartitionDate' met de waarde '2019-01-01'.

support_multi_line: bool

Vereist

Standaard (support_multi_line=Onwaar) worden alle regeleinden, inclusief de regeleinden in veldwaarden tussen aanhalingstekens, geïnterpreteerd als een recordonderbreking. Het lezen van gegevens op deze manier is sneller en meer geoptimaliseerd voor parallelle uitvoering op meerdere CPU-kernen. Dit kan er echter toe leiden dat er op de achtergrond meer records met verkeerd uitgelijnde veldwaarden worden geproduceerd. Dit moet worden ingesteld op Waar wanneer bekend is dat de bestanden met scheidingstekens regeleinden bevatten.

Op basis van dit CSV-bestand als voorbeeld worden de gegevens anders gelezen op basis van support_multi_line.

A,B,C A1,B1,C1 A2,"B 2",C2


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # default behavior: support_multi_line=False
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path)
   print(dataset.to_pandas_dataframe())
   #      A   B     C
   #  0  A1  B1    C1
   #  1  A2   B  None
   #  2  2"  C2  None

   # to handle quoted line breaks
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path,
                                                  support_multi_line=True)
   print(dataset.to_pandas_dataframe())
   #      A       B   C
   #  0  A1      B1  C1
   #  1  A2  B\r\n2  C2

empty_as_string: bool

Vereist

Geef op of lege veldwaarden als lege tekenreeksen moeten worden geladen. De standaardwaarde (Onwaar) leest lege veldwaarden als null-waarden. Als u dit doorgeeft als Waar, worden lege veldwaarden als lege tekenreeksen gelezen. Als de waarden worden geconverteerd naar numerieke waarden of datum/tijd, heeft dit geen effect, omdat lege waarden worden geconverteerd naar null-waarden.

encoding: str

Vereist

Geef de bestandscodering op. Ondersteunde coderingen zijn 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' en 'windows1252'

Retouren

Retourneert een TabularDataset -object.

Retourtype

TabularDataset

Opmerkingen

from_delimited_files maakt een klasseobject TabularDataset , dat de bewerkingen definieert voor het laden van gegevens uit bestanden met scheidingstekens in tabelweergave.

De gegevens zijn alleen toegankelijk voor Azure Machine Learning als de bestanden met scheidingstekens die zijn opgegeven door het pad , zich bevinden in Datastore of achter openbare web-URL's of URL van Blob, ADLS Gen1 en ADLS Gen2. Het AAD-token van gebruikers wordt gebruikt in een notebook of een lokaal Python-programma als een van deze functies rechtstreeks wordt aangeroepen: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden ingediend voor verificatie van gegevenstoegang. Meer informatie: https://aka.ms/data-access

Kolomgegevenstypen worden standaard afgeleid uit gegevens in de bestanden met scheidingstekens. Als u set_column_types opgeeft, wordt het gegevenstype voor de opgegeven kolommen in de geretourneerde TabularDataset overschreven.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))

   # create tabular dataset from all csv files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
   tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.csv',
       'https://url/weather/2018/12.csv'
   ]
   tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)

from_json_lines_files

Maak een TabularDataset om tabelgegevens in JSON Lines-bestanden (http://jsonlines.org/) weer te geven.

static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')

Parameters

path: Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]

Vereist

validate: bool

Vereist

include_path: bool

Vereist

set_column_types: dict[str, DataType]

Vereist

Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType

partition_format: str

Vereist

Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het notatieonderdeel {column_name} wordt een tekenreekskolom gemaakt en in {column_name:jjjj/MM/dd/uu/mm/ss} wordt de datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/01/data.jsonl' waarbij de partitie is op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' maakt een tekenreekskolom 'Department' met de waarde 'Accounts' en een datum/tijd-kolom 'PartitionDate' met de waarde '2019-01-01'.

invalid_lines: str

Vereist

Regels afhandelen die een ongeldige JSON zijn. Ondersteunde waarden zijn 'error' en 'drop'.

encoding: str

Vereist

Geef de bestandscodering op. Ondersteunde coderingen zijn 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' en 'windows1252'

Retouren

Retourneert een TabularDataset -object.

Retourtype

TabularDataset

Opmerkingen

from_json_lines_files maakt een klasseobject TabularDataset , dat de bewerkingen definieert voor het laden van gegevens uit JSON-lijnenbestanden in tabelweergave.

De gegevens zijn alleen toegankelijk voor Azure Machine Learning als de JSON-lijnenbestanden die zijn opgegeven door het pad , zich bevinden in Datastore of achter openbare web-URL's of URL van Blob, ADLS Gen1 en ADLS Gen2. Het AAD-token van gebruikers wordt gebruikt in een notebook of een lokaal Python-programma als een van deze functies rechtstreeks wordt aangeroepen: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden ingediend voor verificatie van gegevenstoegang. Meer informatie: https://aka.ms/data-access

Kolomgegevenstypen worden gelezen uit gegevenstypen die zijn opgeslagen in de JSON Lines-bestanden. Als u set_column_types opgeeft, wordt het gegevenstype voor de opgegeven kolommen in de geretourneerde TabularDataset overschreven.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))

   # create tabular dataset from all jsonl files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
   tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.jsonl',
       'https://url/weather/2018/12.jsonl'
   ]
   tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)

from_parquet_files

Maak een TabularDataset om tabelgegevens in Parquet-bestanden weer te geven.

static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)

Parameters

path: Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]

Vereist

validate: bool

Vereist

include_path: bool

Vereist

set_column_types: dict[str, DataType]

Vereist

Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType.

partition_format: str

Vereist

Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het notatieonderdeel {column_name} wordt een tekenreekskolom gemaakt en in {column_name:jjjj/MM/dd/uu/mm/ss} wordt de datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/01/data.parquet' waarbij de partitie is op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' maakt een tekenreekskolom 'Afdeling' met de waarde 'Accounts' en een datum/tijdkolom 'PartitionDate' met de waarde '2019-01-01'.

Retouren

Retourneert een TabularDataset -object.

Retourtype

TabularDataset

Opmerkingen

from_parquet_files maakt een klasseobject TabularDataset , dat de bewerkingen definieert om gegevens uit Parquet-bestanden in tabelvorm te laden.

De gegevens zijn alleen toegankelijk voor Azure Machine Learning als de Parquet-bestanden die zijn opgegeven door het pad , zich bevinden in Datastore of achter openbare web-URL's of URL van Blob, ADLS Gen1 en ADLS Gen2. Het AAD-token van gebruikers wordt gebruikt in een notebook of een lokaal Python-programma als een van deze functies rechtstreeks wordt aangeroepen: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden ingediend voor verificatie van gegevenstoegang. Meer informatie: https://aka.ms/data-access

Kolomgegevenstypen worden gelezen uit gegevenstypen die zijn opgeslagen in de Parquet-bestanden. Als u set_column_types opgeeft, wordt het gegevenstype voor de opgegeven kolommen in de geretourneerde TabularDataset overschreven.


   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))

   # create tabular dataset from all parquet files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
   tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.parquet',
       'https://url/weather/2018/12.parquet'
   ]
   tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)

from_sql_query

Maak een TabularDataset om tabelgegevens in SQL-databases weer te geven.

static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)

Parameters

query: Union[DataPath, (Datastore, str)]

Vereist

Een SQL-gegevensarchief en een query.

validate: bool

Vereist

Booleaanse waarde om te controleren of gegevens uit de geretourneerde gegevensset kunnen worden geladen. De standaardwaarde is True. Validatie vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening.

set_column_types: dict[str, DataType]

Vereist

Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType.

query_timeout

Vereist

Hiermee stelt u de wachttijd in (in seconden) voordat de poging om een opdracht uit te voeren wordt beëindigd en een fout wordt gegenereerd. De standaardwaarde is 30 seconden.

Retouren

Retourneert een TabularDataset -object.

Retourtype

TabularDataset

Opmerkingen

from_sql_query maakt een object van TabularDataset klasse, dat de bewerkingen definieert voor het laden van gegevens uit SQL-databases in tabelvorm. Momenteel ondersteunen we alleen MSSQLDataSource.

Om de gegevens toegankelijk te maken voor Azure Machine Learning, moet de SQL-database die is opgegeven door query zich bevinden in Datastore en moet het gegevensarchieftype van het type SQL zijn.

Kolomgegevenstypen worden gelezen uit gegevenstypen in SQL-queryresultaten. Als u opgeeft set_column_types , wordt het gegevenstype voor de opgegeven kolommen in de geretourneerde TabularDataset overschreven.


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # create tabular dataset from a SQL database in datastore
   datastore = Datastore.get(workspace, 'mssql')
   query = DataPath(datastore, 'SELECT * FROM my_table')
   tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
   df = tabular.to_pandas_dataframe()

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)

register_dask_dataframe

Notitie

Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie.

Maak een gegevensset van dask dataframe.

static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parameters

dataframe: <xref:dask.dataframe.core.DataFrame>

Vereist

Vereist, dask dataframe dat moet worden geüpload.

target: Union[DataPath, Datastore, tuple(Datastore, str)]

Vereist

Vereist: het gegevensarchiefpad waarnaar de parquet-gegevens van het dataframe worden geüpload. Er wordt een GUID-map gegenereerd onder het doelpad om conflicten te voorkomen.

name: str

Vereist

Vereist, de naam van de geregistreerde gegevensset.

description: str

Vereist

Optioneel. Een tekstbeschrijving van de gegevensset. De standaardwaarde is Geen.

tags: dict[str, str]

Vereist

Optioneel. Woordenlijst met sleutelwaardetags voor de gegevensset. De standaardwaarde is Geen.

show_progress: bool

Vereist

Optioneel, geeft aan of de voortgang van het uploaden in de console moet worden weergegeven. De standaardinstelling is True.

Retouren

De geregistreerde gegevensset.

Retourtype

TabularDataset

register_pandas_dataframe

Maak een gegevensset van pandas dataframe.

static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)

Parameters

dataframe: DataFrame

Vereist

Vereist, in het geheugen dataframe dat moet worden geüpload.

target: Union[DataPath, Datastore, tuple(Datastore, str)]

Vereist

Vereist: het gegevensarchiefpad waarnaar de parquet-gegevens van het dataframe worden geüpload. Er wordt een GUID-map gegenereerd onder het doelpad om conflicten te voorkomen.

name: str

Vereist

Vereist, de naam van de geregistreerde gegevensset.

description: int

Vereist

Optioneel. Een tekstbeschrijving van de gegevensset. De standaardwaarde is Geen.

tags: dict[str, str]

Vereist

Optioneel. Woordenlijst met sleutelwaardetags voor de gegevensset. De standaardwaarde is Geen.

show_progress: bool

Vereist

Optioneel, geeft aan of de voortgang van het uploaden in de console moet worden weergegeven. De standaardinstelling is True.

row_group_size

Vereist

Optioneel. Maximale grootte van de rijgroep die moet worden gebruikt bij het schrijven van parquet-bestand. De standaardwaarde is Geen.

make_target_path_unique

Vereist

Optioneel, geeft aan of een unieke submap moet worden gemaakt in het doel. De standaardinstelling is True.

Retouren

De geregistreerde gegevensset.

Retourtype

TabularDataset

register_spark_dataframe

Notitie

Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie.

Maak een gegevensset op basis van spark-dataframe.

static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parameters

dataframe: DataFrame

Vereist

Vereist, in het geheugen dataframe dat moet worden geüpload.

target: Union[DataPath, Datastore, tuple(Datastore, str)]

Vereist

Vereist: het gegevensarchiefpad waarnaar de parquet-gegevens van het dataframe worden geüpload. Er wordt een GUID-map gegenereerd onder het doelpad om conflicten te voorkomen.

name: str

Vereist

Vereist, de naam van de geregistreerde gegevensset.

description: str

Vereist

Optioneel. Een tekstbeschrijving van de gegevensset. De standaardwaarde is Geen.

tags: dict[str, str]

Vereist

Optioneel. Woordenlijst met sleutelwaardetags voor de gegevensset. De standaardwaarde is Geen.

show_progress: bool

Vereist

Optioneel, geeft aan of de voortgang van het uploaden in de console moet worden weergegeven. De standaardinstelling is True.

Retouren

De geregistreerde gegevensset.

Retourtype

TabularDataset

TabularDatasetFactory Klas

Constructor

Methoden

from_delimited_files

Parameters

Retouren

Retourtype

Opmerkingen

from_json_lines_files

Parameters

Retouren

Retourtype

Opmerkingen

from_parquet_files

Parameters

Retouren

Retourtype

Opmerkingen

from_sql_query

Parameters

Retouren

Retourtype

Opmerkingen

register_dask_dataframe

Parameters

Retouren

Retourtype

register_pandas_dataframe

Parameters

Retouren

Retourtype

register_spark_dataframe

Parameters

Retouren

Retourtype

Feedback

Feedback

Aanvullende resources