TabularDatasetFactory Classe

Contient des méthodes pour créer un jeu de données tabulaire pour Azure Machine Learning.

Un TabularDataset est créé à l’aide des méthodes from_* de cette classe, par exemple avec la méthode from_delimited_files.

Pour plus d’informations sur l’utilisation des jeux de données tabulaires, consultez le notebook https://aka.ms/tabulardataset-samplenotebook.

Héritage
builtins.object
TabularDatasetFactory

Constructeur

TabularDatasetFactory()

Méthodes

from_delimited_files

Crée un TabularDataset pour représenter des données tabulaires dans des fichiers délimités (par exemple CSV et TSV).

from_json_lines_files

Crée un TabularDataset pour représenter les données tabulaires dans des fichiers de lignes JSON (http://jsonlines.org/).

from_parquet_files

Crée un TabularDataset pour représenter les données tabulaires dans des fichiers Parquet.

from_sql_query

Crée un TabularDataset pour représenter les données tabulaires dans des bases de données SQL.

register_dask_dataframe

Notes

Il s’agit d’une méthode expérimentale qui peut changer à tout moment. Pour plus d’informations, consultez https://aka.ms/azuremlexperimental.

Crée un jeu de données à partir d’un DataFrame dask.

register_pandas_dataframe

Crée un jeu de données à partir d’un DataFrame pandas.

register_spark_dataframe

Notes

Il s’agit d’une méthode expérimentale qui peut changer à tout moment. Pour plus d’informations, consultez https://aka.ms/azuremlexperimental.

Crée un jeu de données à partir d’un DataFrame Spark.

from_delimited_files

Crée un TabularDataset pour représenter des données tabulaires dans des fichiers délimités (par exemple CSV et TSV).

static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')

Paramètres

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Obligatoire

Chemin d’accès aux fichiers sources, qui peuvent être une valeur unique ou une liste de chaîne d’URL (http[s]|abfs[s]|wasb[s]), DataPath objet ou tuple du chemin d’accès Datastore relatif. Notez que la liste des chemins d’accès ne peut pas inclure à la fois des URL et des magasins de banques.

validate
bool
Obligatoire

Valeur booléenne pour définir si les données peuvent être chargées à partir du jeu de données retourné. La valeur par défaut est True. La validation est possible uniquement si la source de données est accessible à partir de la cible de calcul actuelle. Pour désactiver la validation, « infer_column_types » doit également avoir la valeur False.

include_path
bool
Obligatoire

Booléen pour conserver les informations de chemin d’accès sous forme de colonne dans le jeu de données. Valeur par défaut False. Cela est utile lors de la lecture de plusieurs fichiers et que vous souhaitez savoir de quel fichier provient un enregistrement particulier ou pour conserver des informations utiles dans le chemin du fichier.

infer_column_types
bool
Obligatoire

Valeur booléenne pour déduire les types de données de colonne. La valeur par défaut est True. L’inférence de type nécessite que la source de données soit accessible à partir du calcul actuel. Actuellement, l’inférence de type extrait les 200 premières lignes uniquement. Si les données contiennent plusieurs types de valeurs, il est préférable de fournir le type souhaité en tant que remplacement via l’argument set_column_types. Consultez la section Remarques pour obtenir des exemples de codes sur set_column_types.

set_column_types
dict[str, DataType]
Obligatoire

Dictionnaire pour définir le type de données de colonne, où la clé est le nom de la colonne et la valeur est DataType.

separator
str
Obligatoire

Séparateur utilisé pour fractionner les colonnes.

header
bool ou PromoteHeadersBehavior
Obligatoire

Contrôle la façon dont les en-têtes de colonnes sont promus lors de la lecture à partir de fichiers. La valeur par défaut est True pour tous les fichiers ayant le même en-tête. Les fichiers sont lus comme n’ayant aucun en-tête quand header=False. D’autres options peuvent être spécifiées à l’aide de la valeur enum de PromoteHeadersBehavior.

partition_format
str
Obligatoire

Spécifie le format de partition du chemin. La valeur par défaut est None. Les informations de partition de chaque chemin sont extraites en colonnes en fonction du format spécifié. La partie de format « {column_name} » crée une colonne de chaîne, et « {column_name:yyyy/MM/dd/HH/mm/ss} » crée une colonne DateHeure, où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, les minutes et les secondes pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier. Par exemple, étant donné le chemin « ../Accounts/2019/01/01/data.csv » où la partition se fait par nom de service et par heure, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv crée une colonne de chaîne « Department » avec la valeur « Accounts » et une colonne DateHeure « PartitionDate » avec la valeur « 2019-01-01 ».

support_multi_line
bool
Obligatoire

Par défaut (support_multi_line=False), tous les sauts de ligne, notamment ceux contenus dans des valeurs de champ entre guillemets, sont interprétés comme une coupure d’enregistrement. La lecture de données de cette façon est plus rapide et plus optimisée pour une exécution en parallèle sur plusieurs cœurs de processeur. Toutefois, elle peut entraîner la production silencieuse de davantage d’enregistrements avec des valeurs de champ mal alignées. Elle doit être définie sur True quand les fichiers délimités sont connus pour contenir des sauts de ligne entre guillemets.

Étant donné cet exemple de fichier CSV, les données seront lues différemment en fonction de support_multi_line.

A,B,C A1,B1,C1 A2,"B 2",C2


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # default behavior: support_multi_line=False
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path)
   print(dataset.to_pandas_dataframe())
   #      A   B     C
   #  0  A1  B1    C1
   #  1  A2   B  None
   #  2  2"  C2  None

   # to handle quoted line breaks
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path,
                                                  support_multi_line=True)
   print(dataset.to_pandas_dataframe())
   #      A       B   C
   #  0  A1      B1  C1
   #  1  A2  B\r\n2  C2
empty_as_string
bool
Obligatoire

Spécifie si les valeurs de champ vides doivent être chargées en tant que chaînes vides. La valeur par défaut (False) lit les valeurs de champ vides en tant que valeurs Null. Si True est défini, les valeurs de champ vides sont lues en tant que chaînes vides. Si les valeurs sont converties en valeurs numériques ou DateHeure, cela n’a aucun effet, car les valeurs vides sont converties en valeurs Null.

encoding
str
Obligatoire

Spécifie l’encodage du fichier. Les encodages pris en charge sont « utf8 », « iso88591 », « latin1 », « ascii », « utf16 », « utf32 », « utf8bom » et « windows1252 »

Retours

Retourne un objet TabularDataset.

Type de retour

Remarques

from_delimited_files crée un objet de classe TabularDataset, qui définit les opérations pour charger des données à partir de fichiers délimités dans une représentation tabulaire.

Pour que les données soient accessibles par Azure Machine Learning, les fichiers délimités spécifiés par le chemin d’accès doivent se trouver dans Datastore ou derrière des URL web publiques ou des URL d’Blob, ADLS Gen1 et ADLS Gen2. le jeton AAD des utilisateurs sera utilisé dans le notebook ou le programme Python local s’il appelle directement l’une de ces fonctions : FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l’identité de la cible de calcul sera utilisée dans les travaux soumis par Experiment.submit pour l’authentification d’accès aux données. En savoir plus : https://aka.ms/data-access

Par défaut, les types de données de colonne sont déduits à partir des données dans les fichiers délimités. Si vous fournissez set_column_types, le type de données pour les colonnes spécifiées est remplacé dans le TabularDataset retourné.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))

   # create tabular dataset from all csv files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
   tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.csv',
       'https://url/weather/2018/12.csv'
   ]
   tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)

from_json_lines_files

Crée un TabularDataset pour représenter les données tabulaires dans des fichiers de lignes JSON (http://jsonlines.org/).

static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')

Paramètres

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Obligatoire

Chemin d’accès aux fichiers sources, qui peuvent être une valeur unique ou une liste de chaîne d’URL (http[s]|abfs[s]|wasb[s]), DataPath objet ou tuple du chemin d’accès Datastore relatif. Notez que la liste des chemins d’accès ne peut pas inclure à la fois des URL et des magasins de banques.

validate
bool
Obligatoire

Valeur booléenne pour définir si les données peuvent être chargées à partir du jeu de données retourné. La valeur par défaut est True. La validation est possible uniquement si la source de données est accessible à partir de la cible de calcul actuelle.

include_path
bool
Obligatoire

Booléen pour conserver les informations de chemin d’accès sous forme de colonne dans le jeu de données. Valeur par défaut False. Cela est utile lors de la lecture de plusieurs fichiers et que vous souhaitez savoir de quel fichier provient un enregistrement particulier ou pour conserver des informations utiles dans le chemin du fichier.

set_column_types
dict[str, DataType]
Obligatoire

Dictionnaire pour définir le type de données de la colonne, dans lequel la clé est le nom de la colonne et la valeur est DataType

partition_format
str
Obligatoire

Spécifie le format de partition du chemin. La valeur par défaut est None. Les informations de partition de chaque chemin sont extraites en colonnes en fonction du format spécifié. La partie de format « {column_name} » crée une colonne de chaîne, et « {column_name:yyyy/MM/dd/HH/mm/ss} » crée une colonne DateHeure, où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, les minutes et les secondes pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier. Par exemple, étant donné le chemin « ../Accounts/2019/01/01/data.jsonl » où la partition se fait par nom de service et par heure, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl crée une colonne de chaîne « Department » avec la valeur « Accounts » et une colonne DateHeure « PartitionDate » avec la valeur « 2019-01-01 ».

invalid_lines
str
Obligatoire

Définit le traitement des lignes JSON invalides. Les valeurs prises en charge sont « error » et « drop ».

encoding
str
Obligatoire

Spécifie l’encodage du fichier. Les encodages pris en charge sont « utf8 », « iso88591 », « latin1 », « ascii », « utf16 », « utf32 », « utf8bom » et « windows1252 »

Retours

Retourne un objet TabularDataset.

Type de retour

Remarques

from_json_lines_files crée un objet de classe TabularDataset, qui définit les opérations pour charger des données à partir de fichiers de lignes JSON dans une représentation tabulaire.

Pour que les données soient accessibles par Azure Machine Learning, les fichiers de lignes JSON spécifiés par chemin d’accès doivent se trouver dans Datastore ou derrière des URL web publiques ou des URL d’Blob, ADLS Gen1 et ADLS Gen2. le jeton AAD des utilisateurs sera utilisé dans le notebook ou le programme Python local s’il appelle directement l’une de ces fonctions : FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l’identité de la cible de calcul sera utilisée dans les travaux soumis par Experiment.submit pour l’authentification d’accès aux données. En savoir plus : https://aka.ms/data-access

Les types de données de colonne sont lus à partir des types de données enregistrés dans les fichiers de lignes JSON. Si vous fournissez set_column_types, le type de données pour les colonnes spécifiées est remplacé dans le TabularDataset retourné.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))

   # create tabular dataset from all jsonl files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
   tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.jsonl',
       'https://url/weather/2018/12.jsonl'
   ]
   tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)

from_parquet_files

Crée un TabularDataset pour représenter les données tabulaires dans des fichiers Parquet.

static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)

Paramètres

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Obligatoire

Chemin d’accès aux fichiers sources, qui peuvent être une valeur unique ou une liste de chaîne d’URL (http[s]|abfs[s]|wasb[s]), DataPath objet ou tuple du chemin d’accès Datastore relatif. Notez que la liste des chemins d’accès ne peut pas inclure à la fois des URL et des magasins de banques.

validate
bool
Obligatoire

Valeur booléenne pour définir si les données peuvent être chargées à partir du jeu de données retourné. La valeur par défaut est True. La validation est possible uniquement si la source de données est accessible à partir de la cible de calcul actuelle.

include_path
bool
Obligatoire

Booléen pour conserver les informations de chemin d’accès sous forme de colonne dans le jeu de données. Valeur par défaut False. Cela est utile lors de la lecture de plusieurs fichiers et que vous souhaitez savoir de quel fichier provient un enregistrement particulier ou pour conserver des informations utiles dans le chemin du fichier.

set_column_types
dict[str, DataType]
Obligatoire

Dictionnaire pour définir le type de données de colonne, où la clé est le nom de la colonne et la valeur est DataType.

partition_format
str
Obligatoire

Spécifie le format de partition du chemin. La valeur par défaut est None. Les informations de partition de chaque chemin sont extraites en colonnes en fonction du format spécifié. La partie de format « {column_name} » crée une colonne de chaîne, et « {column_name:yyyy/MM/dd/HH/mm/ss} » crée une colonne DateHeure, où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, les minutes et les secondes pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier. Par exemple, étant donné le chemin « ../Accounts/2019/01/01/data.parquet » où la partition se fait par nom de service et par heure, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet crée une colonne de chaîne « Department » avec la valeur « Accounts » et une colonne DateHeure « PartitionDate » avec la valeur « 2019-01-01 ».

Retours

Retourne un objet TabularDataset.

Type de retour

Remarques

from_parquet_files crée un objet de classe TabularDataset, qui définit les opérations pour charger des données à partir de fichiers Parquet dans une représentation tabulaire.

Pour que les données soient accessibles par Azure Machine Learning, les fichiers Parquet spécifiés par le chemin d’accès doivent se trouver dans Datastore ou derrière des URL web publiques ou des URL d’Blob, ADLS Gen1 et ADLS Gen2. le jeton AAD des utilisateurs sera utilisé dans le notebook ou le programme Python local s’il appelle directement l’une de ces fonctions : FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l’identité de la cible de calcul sera utilisée dans les travaux soumis par Experiment.submit pour l’authentification d’accès aux données. En savoir plus : https://aka.ms/data-access

Les types de données de colonne sont lus à partir des types de données enregistrés dans les fichiers Parquet. Si vous fournissez set_column_types, le type de données pour les colonnes spécifiées est remplacé dans le TabularDataset retourné.


   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))

   # create tabular dataset from all parquet files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
   tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.parquet',
       'https://url/weather/2018/12.parquet'
   ]
   tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)

from_sql_query

Crée un TabularDataset pour représenter les données tabulaires dans des bases de données SQL.

static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)

Paramètres

query
Union[DataPath, (Datastore, str)]
Obligatoire

Magasin de données de type SQL et requête.

validate
bool
Obligatoire

Valeur booléenne pour définir si les données peuvent être chargées à partir du jeu de données retourné. La valeur par défaut est True. La validation est possible uniquement si la source de données est accessible à partir de la cible de calcul actuelle.

set_column_types
dict[str, DataType]
Obligatoire

Dictionnaire pour définir le type de données de la colonne, dans lequel la clé est le nom de la colonne et la valeur est DataType.

query_timeout
Obligatoire

Définit le délai d’attente (en secondes) avant de mettre fin à la tentative d’exécution d’une commande et de générer une erreur. La valeur par défaut est 30 secondes.

Retours

Retourne un objet TabularDataset.

Type de retour

Remarques

from_sql_query crée un objet de classe TabularDataset, qui définit les opérations pour charger des données à partir de bases de données SQL dans une représentation tabulaire. Seul MSSQLDataSource est pris en charge actuellement.

Pour que les données soient accessibles par Azure Machine Learning, la base de données SQL spécifiée par query doit se trouver dans Datastore et le type de magasin de données doit être de type SQL.

Les types de données de colonne sont lus à partir des types de données dans le résultat de la requête SQL. Si vous fournissez set_column_types, le type de données pour les colonnes spécifiées est remplacé dans le TabularDataset retourné.


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # create tabular dataset from a SQL database in datastore
   datastore = Datastore.get(workspace, 'mssql')
   query = DataPath(datastore, 'SELECT * FROM my_table')
   tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
   df = tabular.to_pandas_dataframe()

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)

register_dask_dataframe

Notes

Il s’agit d’une méthode expérimentale qui peut changer à tout moment. Pour plus d’informations, consultez https://aka.ms/azuremlexperimental.

Crée un jeu de données à partir d’un DataFrame dask.

static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Paramètres

dataframe
<xref:dask.dataframe.core.DataFrame>
Obligatoire

Obligatoire, DataFrame dask à charger.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Obligatoire

Obligatoire, chemin d’accès au magasin de données où les données Parquet de DataFrame sont chargées. Un dossier GUID est généré sous le chemin cible pour éviter tout conflit.

name
str
Obligatoire

Obligatoire, nom du jeu de données inscrit.

description
str
Obligatoire

facultatif. Texte de description du jeu de données. La valeur par défaut est None.

tags
dict[str, str]
Obligatoire

facultatif. Dictionnaire des étiquettes de valeur de clé à attribuer au jeu de données. La valeur par défaut est None.

show_progress
bool
Obligatoire

Facultatif, indique si la progression du chargement doit s’afficher dans la console. La valeur par défaut est True.

Retours

Jeu de données inscrit.

Type de retour

register_pandas_dataframe

Crée un jeu de données à partir d’un DataFrame pandas.

static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)

Paramètres

dataframe
DataFrame
Obligatoire

Obligatoire, DataFrame en mémoire à charger.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Obligatoire

Obligatoire, chemin d’accès au magasin de données où les données Parquet de dataframe sont chargées. Un dossier GUID est généré sous le chemin cible pour éviter tout conflit.

name
str
Obligatoire

Obligatoire, nom du jeu de données inscrit.

description
int
Obligatoire

facultatif. Texte de description du jeu de données. La valeur par défaut est None.

tags
dict[str, str]
Obligatoire

facultatif. Dictionnaire des étiquettes de valeur de clé à attribuer au jeu de données. La valeur par défaut est None.

show_progress
bool
Obligatoire

Facultatif, indique si la progression du chargement doit s’afficher dans la console. La valeur par défaut est True.

row_group_size
Obligatoire

facultatif. Taille maximale du groupe de lignes à utiliser lors de l’écriture d’un fichier parquet. La valeur par défaut est None.

make_target_path_unique
Obligatoire

Facultatif, indique si un sous-dossier unique doit être créé dans la cible. La valeur par défaut est True.

Retours

Jeu de données inscrit.

Type de retour

register_spark_dataframe

Notes

Il s’agit d’une méthode expérimentale qui peut changer à tout moment. Pour plus d’informations, consultez https://aka.ms/azuremlexperimental.

Crée un jeu de données à partir d’un DataFrame Spark.

static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Paramètres

dataframe
DataFrame
Obligatoire

Obligatoire, DataFrame en mémoire à charger.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Obligatoire

Obligatoire, chemin d’accès au magasin de données où les données Parquet de dataframe sont chargées. Un dossier GUID est généré sous le chemin cible pour éviter tout conflit.

name
str
Obligatoire

Obligatoire, nom du jeu de données inscrit.

description
str
Obligatoire

facultatif. Texte de description du jeu de données. La valeur par défaut est None.

tags
dict[str, str]
Obligatoire

facultatif. Dictionnaire des étiquettes de valeur de clé à attribuer au jeu de données. La valeur par défaut est None.

show_progress
bool
Obligatoire

Facultatif, indique si la progression du chargement doit s’afficher dans la console. La valeur par défaut est True.

Retours

Jeu de données inscrit.

Type de retour