PipelineOutputFileDataset Classe

Représente les données de pipeline intermédiaires promues en jeu de données de fichier Azure Machine Learning.

Une fois que les données intermédiaires ont été promues en jeu de données Azure Machine Learning, elles sont également consommées en tant que jeu de données plutôt qu’en tant que référence de données dans les étapes suivantes.

Créez des données intermédiaires qui seront promues en jeu de données Azure Machine Learning.

Héritage
PipelineOutputFileDataset

Constructeur

PipelineOutputFileDataset(pipeline_data)

Paramètres

pipeline_data
PipelineData
Obligatoire

PipelineData représentant la sortie intermédiaire qui sera promue en jeu de données.

pipeline_data
PipelineData
Obligatoire

PipelineData représentant la sortie intermédiaire qui sera promue en jeu de données.

Méthodes

as_direct

Définissez le mode de consommation direct pour le jeu de données.

Ce mode va vous permettre d’obtenir l’ID du jeu de données et, dans votre script, vous pouvez appeler Dataset.get_by_id pour récupérer le jeu de données. run.input_datasets['{nom_jeu_de_données}'] va retourner le jeu de données.

as_download

Définissez le mode de consommation du jeu de données à télécharger.

as_mount

Définissez le mode de consommation du jeu de données à monter.

parse_delimited_files

Transformez le jeu de données de fichier intermédiaire en un jeu de données tabulaire.

Le jeu de données tabulaire est créé en analysant le ou les fichiers délimités vers lequel ou lesquels pointe la sortie intermédiaire.

parse_parquet_files

Transformez le jeu de données de fichier intermédiaire en un jeu de données tabulaire.

Le jeu de données tabulaire est créé en analysant le ou les fichiers parquet sur lesquels pointe la sortie intermédiaire.

as_direct

Définissez le mode de consommation direct pour le jeu de données.

Ce mode va vous permettre d’obtenir l’ID du jeu de données et, dans votre script, vous pouvez appeler Dataset.get_by_id pour récupérer le jeu de données. run.input_datasets['{nom_jeu_de_données}'] va retourner le jeu de données.

as_direct()

Retours

PipelineOutputDataset modifié.

Type de retour

as_download

Définissez le mode de consommation du jeu de données à télécharger.

as_download(path_on_compute=None)

Paramètres

path_on_compute
str
valeur par défaut: None

Chemin sur le calcul où télécharger le jeu de données. La valeur par défaut est None (Aucun), ce qui signifie qu’Azure Machine Learning choisit un chemin à votre place.

Retours

PipelineOutputDataset modifié.

Type de retour

as_mount

Définissez le mode de consommation du jeu de données à monter.

as_mount(path_on_compute=None)

Paramètres

path_on_compute
str
valeur par défaut: None

Chemin sur le calcul où monter le jeu de données. La valeur par défaut est None (Aucun), ce qui signifie qu’Azure Machine Learning choisit un chemin à votre place.

Retours

PipelineOutputDataset modifié.

Type de retour

parse_delimited_files

Transformez le jeu de données de fichier intermédiaire en un jeu de données tabulaire.

Le jeu de données tabulaire est créé en analysant le ou les fichiers délimités vers lequel ou lesquels pointe la sortie intermédiaire.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Paramètres

include_path
bool
valeur par défaut: False

Valeur booléenne pour conserver les informations de chemin sous forme de colonne dans le jeu de données. Valeur par défaut False. Cela est utile lors de la lecture de plusieurs fichiers et que vous souhaitez savoir de quel fichier provient un enregistrement particulier ou pour conserver des informations utiles dans le chemin du fichier.

separator
str
valeur par défaut: ,

Séparateur utilisé pour fractionner les colonnes.

header
PromoteHeadersBehavior
valeur par défaut: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Détermine la façon dont les en-têtes de colonne sont promus lors de la lecture des fichiers. La valeur par défaut suppose que tous les fichiers ont le même en-tête.

partition_format
str
valeur par défaut: None

Spécifie le format de partition du chemin. La valeur par défaut est None. Les informations de partition de chaque chemin sont extraites en colonnes en fonction du format spécifié. La partie de format « {column_name} » crée une colonne de chaîne, et « {column_name:yyyy/MM/dd/HH/mm/ss} » crée une colonne DateHeure, où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, les minutes et les secondes pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier. Par exemple, étant donné le chemin « ../Accounts/2019/01/01/data.csv » où la partition se fait par nom de service et par heure, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' « Department » avec la valeur « Accounts » et une colonne DateHeure « PartitionDate » avec la valeur « 2019-01-01 ».

file_extension
str
Obligatoire

Extension des fichiers à lire. Seuls les fichiers portant cette extension sont lus à partir du répertoire. La valeur par défaut est « .csv » lorsque le séparateur est « , » et « .tsv » lorsque le séparateur est une tabulation, et None dans le cas contraire. Si None est transmis, tous les fichiers sont lus quelle que soit leur extension (ou l’absence d’extension).

set_column_types
dict[str, DataType]
valeur par défaut: None

Dictionnaire pour définir le type de données de la colonne, dans lequel la clé est le nom de la colonne et la valeur est DataType. Les colonnes qui ne figurent pas dans le dictionnaire restent de type string. La transmission de la valeur None n’entraînera aucune conversion. Les entrées des colonnes introuvables dans les données sources ne provoquent pas d’erreur et seront ignorées.

quoted_line_breaks
bool
valeur par défaut: False

Indique de traiter ou non les caractères de nouvelle ligne mis entre guillemets. Cette option peut avoir un impact sur les performances.

Retours

Retourne des données intermédiaires qui seront un jeu de données tabulaires.

Type de retour

Remarques

Cette transformation est appliquée uniquement lorsque les données intermédiaires sont consommées comme entrée de l’étape suivante. Elle n’a aucun effet sur la sortie, même si elle est passée à la sortie.

parse_parquet_files

Transformez le jeu de données de fichier intermédiaire en un jeu de données tabulaire.

Le jeu de données tabulaire est créé en analysant le ou les fichiers parquet sur lesquels pointe la sortie intermédiaire.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Paramètres

include_path
bool
valeur par défaut: False

Valeur booléenne pour conserver les informations de chemin sous forme de colonne dans le jeu de données. Valeur par défaut False. Cela est utile lors de la lecture de plusieurs fichiers et que vous souhaitez savoir de quel fichier provient un enregistrement particulier ou pour conserver des informations utiles dans le chemin du fichier.

partition_format
str
valeur par défaut: None

Spécifie le format de partition du chemin. La valeur par défaut est None. Les informations de partition de chaque chemin sont extraites en colonnes en fonction du format spécifié. La partie de format « {column_name} » crée une colonne de chaîne, et « {column_name:yyyy/MM/dd/HH/mm/ss} » crée une colonne DateHeure, où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, les minutes et les secondes pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier. Par exemple, étant donné le chemin « ../Accounts/2019/01/01/data.parquet » où la partition se fait par nom de service et par heure, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crée une colonne de chaîne « Department » avec la valeur « Accounts » et une colonne DateHeure « PartitionDate » avec la valeur « 2019-01-01 ».

file_extension
str
valeur par défaut: .parquet

Extension des fichiers à lire. Seuls les fichiers portant cette extension sont lus à partir du répertoire. La valeur par défaut est « .parquet ». Si la valeur None est définie, tous les fichiers sont lus quelle que soit leur extension (ou l’absence d’extension).

set_column_types
dict[str, DataType]
valeur par défaut: None

Dictionnaire pour définir le type de données de la colonne, dans lequel la clé est le nom de la colonne et la valeur est DataType. Les colonnes qui ne figurent pas dans le dictionnaire restent de type chargé à partir du fichier parquet. La transmission de la valeur None n’entraînera aucune conversion. Les entrées des colonnes introuvables dans les données sources ne provoquent pas d’erreur et seront ignorées.

Retours

Retourne des données intermédiaires qui seront un jeu de données tabulaires.

Type de retour

Remarques

Cette transformation est appliquée uniquement lorsque les données intermédiaires sont consommées comme entrée de l’étape suivante. Elle n’a aucun effet sur la sortie, même si elle est passée à la sortie.