TabularDatasetFactory Classe

Référence

Contient des méthodes pour créer un jeu de données tabulaire pour Azure Machine Learning.

Un TabularDataset est créé à l’aide des méthodes from_* de cette classe, par exemple avec la méthode from_delimited_files.

Pour plus d’informations sur l’utilisation des jeux de données tabulaires, consultez le notebook https://aka.ms/tabulardataset-samplenotebook.

Héritage: builtins.object

TabularDatasetFactory

Constructeur

TabularDatasetFactory()

Méthodes

from_delimited_files	Crée un TabularDataset pour représenter des données tabulaires dans des fichiers délimités (par exemple CSV et TSV).
from_json_lines_files	Crée un TabularDataset pour représenter les données tabulaires dans des fichiers de lignes JSON (http://jsonlines.org/).
from_parquet_files	Crée un TabularDataset pour représenter les données tabulaires dans des fichiers Parquet.
from_sql_query	Crée un TabularDataset pour représenter les données tabulaires dans des bases de données SQL.
register_dask_dataframe	Notes Il s’agit d’une méthode expérimentale qui peut changer à tout moment. Pour plus d’informations, consultez https://aka.ms/azuremlexperimental. Crée un jeu de données à partir d’un DataFrame dask.
register_pandas_dataframe	Crée un jeu de données à partir d’un DataFrame pandas.
register_spark_dataframe	Notes Il s’agit d’une méthode expérimentale qui peut changer à tout moment. Pour plus d’informations, consultez https://aka.ms/azuremlexperimental. Crée un jeu de données à partir d’un DataFrame Spark.

from_delimited_files

Crée un TabularDataset pour représenter des données tabulaires dans des fichiers délimités (par exemple CSV et TSV).

static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')

Paramètres

path: Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]

Obligatoire

Chemin d’accès aux fichiers sources, qui peuvent être une valeur unique ou une liste de chaîne d’URL (http[s]|abfs[s]|wasb[s]), DataPath objet ou tuple du chemin d’accès Datastore relatif. Notez que la liste des chemins d’accès ne peut pas inclure à la fois des URL et des magasins de banques.

validate: bool

Obligatoire

Valeur booléenne pour définir si les données peuvent être chargées à partir du jeu de données retourné. La valeur par défaut est True. La validation est possible uniquement si la source de données est accessible à partir de la cible de calcul actuelle. Pour désactiver la validation, « infer_column_types » doit également avoir la valeur False.

include_path: bool

Obligatoire

Booléen pour conserver les informations de chemin d’accès sous forme de colonne dans le jeu de données. Valeur par défaut False. Cela est utile lors de la lecture de plusieurs fichiers et que vous souhaitez savoir de quel fichier provient un enregistrement particulier ou pour conserver des informations utiles dans le chemin du fichier.

infer_column_types: bool

Obligatoire

Valeur booléenne pour déduire les types de données de colonne. La valeur par défaut est True. L’inférence de type nécessite que la source de données soit accessible à partir du calcul actuel. Actuellement, l’inférence de type extrait les 200 premières lignes uniquement. Si les données contiennent plusieurs types de valeurs, il est préférable de fournir le type souhaité en tant que remplacement via l’argument set_column_types. Consultez la section Remarques pour obtenir des exemples de codes sur set_column_types.

set_column_types: dict[str, DataType]

Obligatoire

Dictionnaire pour définir le type de données de colonne, où la clé est le nom de la colonne et la valeur est DataType.

separator: str

Obligatoire

Séparateur utilisé pour fractionner les colonnes.

header: bool ou PromoteHeadersBehavior

Obligatoire

Contrôle la façon dont les en-têtes de colonnes sont promus lors de la lecture à partir de fichiers. La valeur par défaut est True pour tous les fichiers ayant le même en-tête. Les fichiers sont lus comme n’ayant aucun en-tête quand header=False. D’autres options peuvent être spécifiées à l’aide de la valeur enum de PromoteHeadersBehavior.

partition_format: str

Obligatoire

Spécifie le format de partition du chemin. La valeur par défaut est None. Les informations de partition de chaque chemin sont extraites en colonnes en fonction du format spécifié. La partie de format « {column_name} » crée une colonne de chaîne, et « {column_name:yyyy/MM/dd/HH/mm/ss} » crée une colonne DateHeure, où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, les minutes et les secondes pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier. Par exemple, étant donné le chemin « ../Accounts/2019/01/01/data.csv » où la partition se fait par nom de service et par heure, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv crée une colonne de chaîne « Department » avec la valeur « Accounts » et une colonne DateHeure « PartitionDate » avec la valeur « 2019-01-01 ».

support_multi_line: bool

Obligatoire

Par défaut (support_multi_line=False), tous les sauts de ligne, notamment ceux contenus dans des valeurs de champ entre guillemets, sont interprétés comme une coupure d’enregistrement. La lecture de données de cette façon est plus rapide et plus optimisée pour une exécution en parallèle sur plusieurs cœurs de processeur. Toutefois, elle peut entraîner la production silencieuse de davantage d’enregistrements avec des valeurs de champ mal alignées. Elle doit être définie sur True quand les fichiers délimités sont connus pour contenir des sauts de ligne entre guillemets.

Étant donné cet exemple de fichier CSV, les données seront lues différemment en fonction de support_multi_line.

A,B,C A1,B1,C1 A2,"B 2",C2


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # default behavior: support_multi_line=False
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path)
   print(dataset.to_pandas_dataframe())
   #      A   B     C
   #  0  A1  B1    C1
   #  1  A2   B  None
   #  2  2"  C2  None

   # to handle quoted line breaks
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path,
                                                  support_multi_line=True)
   print(dataset.to_pandas_dataframe())
   #      A       B   C
   #  0  A1      B1  C1
   #  1  A2  B\r\n2  C2

empty_as_string: bool

Obligatoire

Spécifie si les valeurs de champ vides doivent être chargées en tant que chaînes vides. La valeur par défaut (False) lit les valeurs de champ vides en tant que valeurs Null. Si True est défini, les valeurs de champ vides sont lues en tant que chaînes vides. Si les valeurs sont converties en valeurs numériques ou DateHeure, cela n’a aucun effet, car les valeurs vides sont converties en valeurs Null.

encoding: str

Obligatoire

Spécifie l’encodage du fichier. Les encodages pris en charge sont « utf8 », « iso88591 », « latin1 », « ascii », « utf16 », « utf32 », « utf8bom » et « windows1252 »

Retours

Retourne un objet TabularDataset.

Type de retour

TabularDataset

Remarques

from_delimited_files crée un objet de classe TabularDataset, qui définit les opérations pour charger des données à partir de fichiers délimités dans une représentation tabulaire.

Pour que les données soient accessibles par Azure Machine Learning, les fichiers délimités spécifiés par le chemin d’accès doivent se trouver dans Datastore ou derrière des URL web publiques ou des URL d’Blob, ADLS Gen1 et ADLS Gen2. le jeton AAD des utilisateurs sera utilisé dans le notebook ou le programme Python local s’il appelle directement l’une de ces fonctions : FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l’identité de la cible de calcul sera utilisée dans les travaux soumis par Experiment.submit pour l’authentification d’accès aux données. En savoir plus : https://aka.ms/data-access

Par défaut, les types de données de colonne sont déduits à partir des données dans les fichiers délimités. Si vous fournissez set_column_types, le type de données pour les colonnes spécifiées est remplacé dans le TabularDataset retourné.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))

   # create tabular dataset from all csv files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
   tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.csv',
       'https://url/weather/2018/12.csv'
   ]
   tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)

from_json_lines_files

Crée un TabularDataset pour représenter les données tabulaires dans des fichiers de lignes JSON (http://jsonlines.org/).

static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')

Paramètres

path: Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]

Obligatoire

validate: bool

Obligatoire

include_path: bool

Obligatoire

set_column_types: dict[str, DataType]

Obligatoire

Dictionnaire pour définir le type de données de la colonne, dans lequel la clé est le nom de la colonne et la valeur est DataType

partition_format: str

Obligatoire

Spécifie le format de partition du chemin. La valeur par défaut est None. Les informations de partition de chaque chemin sont extraites en colonnes en fonction du format spécifié. La partie de format « {column_name} » crée une colonne de chaîne, et « {column_name:yyyy/MM/dd/HH/mm/ss} » crée une colonne DateHeure, où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, les minutes et les secondes pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier. Par exemple, étant donné le chemin « ../Accounts/2019/01/01/data.jsonl » où la partition se fait par nom de service et par heure, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl crée une colonne de chaîne « Department » avec la valeur « Accounts » et une colonne DateHeure « PartitionDate » avec la valeur « 2019-01-01 ».

invalid_lines: str

Obligatoire

Définit le traitement des lignes JSON invalides. Les valeurs prises en charge sont « error » et « drop ».

encoding: str

Obligatoire

Spécifie l’encodage du fichier. Les encodages pris en charge sont « utf8 », « iso88591 », « latin1 », « ascii », « utf16 », « utf32 », « utf8bom » et « windows1252 »

Retours

Retourne un objet TabularDataset.

Type de retour

TabularDataset

Remarques

from_json_lines_files crée un objet de classe TabularDataset, qui définit les opérations pour charger des données à partir de fichiers de lignes JSON dans une représentation tabulaire.

Pour que les données soient accessibles par Azure Machine Learning, les fichiers de lignes JSON spécifiés par chemin d’accès doivent se trouver dans Datastore ou derrière des URL web publiques ou des URL d’Blob, ADLS Gen1 et ADLS Gen2. le jeton AAD des utilisateurs sera utilisé dans le notebook ou le programme Python local s’il appelle directement l’une de ces fonctions : FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l’identité de la cible de calcul sera utilisée dans les travaux soumis par Experiment.submit pour l’authentification d’accès aux données. En savoir plus : https://aka.ms/data-access

Les types de données de colonne sont lus à partir des types de données enregistrés dans les fichiers de lignes JSON. Si vous fournissez set_column_types, le type de données pour les colonnes spécifiées est remplacé dans le TabularDataset retourné.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))

   # create tabular dataset from all jsonl files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
   tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.jsonl',
       'https://url/weather/2018/12.jsonl'
   ]
   tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)

from_parquet_files

Crée un TabularDataset pour représenter les données tabulaires dans des fichiers Parquet.

static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)

Paramètres

path: Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]

Obligatoire

validate: bool

Obligatoire

include_path: bool

Obligatoire

set_column_types: dict[str, DataType]

Obligatoire

Dictionnaire pour définir le type de données de colonne, où la clé est le nom de la colonne et la valeur est DataType.

partition_format: str

Obligatoire

Spécifie le format de partition du chemin. La valeur par défaut est None. Les informations de partition de chaque chemin sont extraites en colonnes en fonction du format spécifié. La partie de format « {column_name} » crée une colonne de chaîne, et « {column_name:yyyy/MM/dd/HH/mm/ss} » crée une colonne DateHeure, où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, les minutes et les secondes pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier. Par exemple, étant donné le chemin « ../Accounts/2019/01/01/data.parquet » où la partition se fait par nom de service et par heure, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet crée une colonne de chaîne « Department » avec la valeur « Accounts » et une colonne DateHeure « PartitionDate » avec la valeur « 2019-01-01 ».

Retours

Retourne un objet TabularDataset.

Type de retour

TabularDataset

Remarques

from_parquet_files crée un objet de classe TabularDataset, qui définit les opérations pour charger des données à partir de fichiers Parquet dans une représentation tabulaire.

Pour que les données soient accessibles par Azure Machine Learning, les fichiers Parquet spécifiés par le chemin d’accès doivent se trouver dans Datastore ou derrière des URL web publiques ou des URL d’Blob, ADLS Gen1 et ADLS Gen2. le jeton AAD des utilisateurs sera utilisé dans le notebook ou le programme Python local s’il appelle directement l’une de ces fonctions : FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l’identité de la cible de calcul sera utilisée dans les travaux soumis par Experiment.submit pour l’authentification d’accès aux données. En savoir plus : https://aka.ms/data-access

Les types de données de colonne sont lus à partir des types de données enregistrés dans les fichiers Parquet. Si vous fournissez set_column_types, le type de données pour les colonnes spécifiées est remplacé dans le TabularDataset retourné.


   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))

   # create tabular dataset from all parquet files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
   tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.parquet',
       'https://url/weather/2018/12.parquet'
   ]
   tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)

from_sql_query

Crée un TabularDataset pour représenter les données tabulaires dans des bases de données SQL.

static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)

Paramètres

query: Union[DataPath, (Datastore, str)]

Obligatoire

Magasin de données de type SQL et requête.

validate: bool

Obligatoire

set_column_types: dict[str, DataType]

Obligatoire

Dictionnaire pour définir le type de données de la colonne, dans lequel la clé est le nom de la colonne et la valeur est DataType.

query_timeout

Obligatoire

Définit le délai d’attente (en secondes) avant de mettre fin à la tentative d’exécution d’une commande et de générer une erreur. La valeur par défaut est 30 secondes.

Retours

Retourne un objet TabularDataset.

Type de retour

TabularDataset

Remarques

from_sql_query crée un objet de classe TabularDataset, qui définit les opérations pour charger des données à partir de bases de données SQL dans une représentation tabulaire. Seul MSSQLDataSource est pris en charge actuellement.

Pour que les données soient accessibles par Azure Machine Learning, la base de données SQL spécifiée par query doit se trouver dans Datastore et le type de magasin de données doit être de type SQL.

Les types de données de colonne sont lus à partir des types de données dans le résultat de la requête SQL. Si vous fournissez set_column_types, le type de données pour les colonnes spécifiées est remplacé dans le TabularDataset retourné.


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # create tabular dataset from a SQL database in datastore
   datastore = Datastore.get(workspace, 'mssql')
   query = DataPath(datastore, 'SELECT * FROM my_table')
   tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
   df = tabular.to_pandas_dataframe()

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)

register_dask_dataframe

Notes

Il s’agit d’une méthode expérimentale qui peut changer à tout moment. Pour plus d’informations, consultez https://aka.ms/azuremlexperimental.

Crée un jeu de données à partir d’un DataFrame dask.

static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Paramètres

dataframe: <xref:dask.dataframe.core.DataFrame>

Obligatoire

Obligatoire, DataFrame dask à charger.

target: Union[DataPath, Datastore, tuple(Datastore, str)]

Obligatoire

Obligatoire, chemin d’accès au magasin de données où les données Parquet de DataFrame sont chargées. Un dossier GUID est généré sous le chemin cible pour éviter tout conflit.

name: str

Obligatoire

Obligatoire, nom du jeu de données inscrit.

description: str

Obligatoire

facultatif. Texte de description du jeu de données. La valeur par défaut est None.

tags: dict[str, str]

Obligatoire

facultatif. Dictionnaire des étiquettes de valeur de clé à attribuer au jeu de données. La valeur par défaut est None.

show_progress: bool

Obligatoire

Facultatif, indique si la progression du chargement doit s’afficher dans la console. La valeur par défaut est True.

Retours

Jeu de données inscrit.

Type de retour

TabularDataset

register_pandas_dataframe

Crée un jeu de données à partir d’un DataFrame pandas.

static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)

Paramètres

dataframe: DataFrame

Obligatoire

Obligatoire, DataFrame en mémoire à charger.

target: Union[DataPath, Datastore, tuple(Datastore, str)]

Obligatoire

Obligatoire, chemin d’accès au magasin de données où les données Parquet de dataframe sont chargées. Un dossier GUID est généré sous le chemin cible pour éviter tout conflit.

name: str

Obligatoire

Obligatoire, nom du jeu de données inscrit.

description: int

Obligatoire

facultatif. Texte de description du jeu de données. La valeur par défaut est None.

tags: dict[str, str]

Obligatoire

facultatif. Dictionnaire des étiquettes de valeur de clé à attribuer au jeu de données. La valeur par défaut est None.

show_progress: bool

Obligatoire

Facultatif, indique si la progression du chargement doit s’afficher dans la console. La valeur par défaut est True.

row_group_size

Obligatoire

facultatif. Taille maximale du groupe de lignes à utiliser lors de l’écriture d’un fichier parquet. La valeur par défaut est None.

make_target_path_unique

Obligatoire

Facultatif, indique si un sous-dossier unique doit être créé dans la cible. La valeur par défaut est True.

Retours

Jeu de données inscrit.

Type de retour

TabularDataset

register_spark_dataframe

Notes

Il s’agit d’une méthode expérimentale qui peut changer à tout moment. Pour plus d’informations, consultez https://aka.ms/azuremlexperimental.

Crée un jeu de données à partir d’un DataFrame Spark.

static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Paramètres

dataframe: DataFrame

Obligatoire

Obligatoire, DataFrame en mémoire à charger.

target: Union[DataPath, Datastore, tuple(Datastore, str)]

Obligatoire

Obligatoire, chemin d’accès au magasin de données où les données Parquet de dataframe sont chargées. Un dossier GUID est généré sous le chemin cible pour éviter tout conflit.

name: str

Obligatoire

Obligatoire, nom du jeu de données inscrit.

description: str

Obligatoire

facultatif. Texte de description du jeu de données. La valeur par défaut est None.

tags: dict[str, str]

Obligatoire

facultatif. Dictionnaire des étiquettes de valeur de clé à attribuer au jeu de données. La valeur par défaut est None.

show_progress: bool

Obligatoire

Facultatif, indique si la progression du chargement doit s’afficher dans la console. La valeur par défaut est True.

Retours

Jeu de données inscrit.

Type de retour

TabularDataset

TabularDatasetFactory Classe

Constructeur

Méthodes

from_delimited_files

Paramètres

Retours

Type de retour

Remarques

from_json_lines_files

Paramètres

Retours

Type de retour

Remarques

from_parquet_files

Paramètres

Retours

Type de retour

Remarques

from_sql_query

Paramètres

Retours

Type de retour

Remarques

register_dask_dataframe

Paramètres

Retours

Type de retour

register_pandas_dataframe

Paramètres

Retours

Type de retour

register_spark_dataframe

Paramètres

Retours

Type de retour

Commentaires

Commentaires

Ressources supplémentaires