PipelineOutputFileDataset Classe
Représente les données de pipeline intermédiaires promues en jeu de données de fichier Azure Machine Learning.
Une fois que les données intermédiaires ont été promues en jeu de données Azure Machine Learning, elles sont également consommées en tant que jeu de données plutôt qu’en tant que référence de données dans les étapes suivantes.
Créez des données intermédiaires qui seront promues en jeu de données Azure Machine Learning.
- Héritage
-
PipelineOutputFileDataset
Constructeur
PipelineOutputFileDataset(pipeline_data)
Paramètres
- pipeline_data
- PipelineData
PipelineData représentant la sortie intermédiaire qui sera promue en jeu de données.
- pipeline_data
- PipelineData
PipelineData représentant la sortie intermédiaire qui sera promue en jeu de données.
Méthodes
as_direct |
Définissez le mode de consommation direct pour le jeu de données. Ce mode va vous permettre d’obtenir l’ID du jeu de données et, dans votre script, vous pouvez appeler Dataset.get_by_id pour récupérer le jeu de données. run.input_datasets['{nom_jeu_de_données}'] va retourner le jeu de données. |
as_download |
Définissez le mode de consommation du jeu de données à télécharger. |
as_mount |
Définissez le mode de consommation du jeu de données à monter. |
parse_delimited_files |
Transformez le jeu de données de fichier intermédiaire en un jeu de données tabulaire. Le jeu de données tabulaire est créé en analysant le ou les fichiers délimités vers lequel ou lesquels pointe la sortie intermédiaire. |
parse_parquet_files |
Transformez le jeu de données de fichier intermédiaire en un jeu de données tabulaire. Le jeu de données tabulaire est créé en analysant le ou les fichiers parquet sur lesquels pointe la sortie intermédiaire. |
as_direct
Définissez le mode de consommation direct pour le jeu de données.
Ce mode va vous permettre d’obtenir l’ID du jeu de données et, dans votre script, vous pouvez appeler Dataset.get_by_id pour récupérer le jeu de données. run.input_datasets['{nom_jeu_de_données}'] va retourner le jeu de données.
as_direct()
Retours
PipelineOutputDataset modifié.
Type de retour
as_download
Définissez le mode de consommation du jeu de données à télécharger.
as_download(path_on_compute=None)
Paramètres
- path_on_compute
- str
Chemin sur le calcul où télécharger le jeu de données. La valeur par défaut est None (Aucun), ce qui signifie qu’Azure Machine Learning choisit un chemin à votre place.
Retours
PipelineOutputDataset modifié.
Type de retour
as_mount
Définissez le mode de consommation du jeu de données à monter.
as_mount(path_on_compute=None)
Paramètres
- path_on_compute
- str
Chemin sur le calcul où monter le jeu de données. La valeur par défaut est None (Aucun), ce qui signifie qu’Azure Machine Learning choisit un chemin à votre place.
Retours
PipelineOutputDataset modifié.
Type de retour
parse_delimited_files
Transformez le jeu de données de fichier intermédiaire en un jeu de données tabulaire.
Le jeu de données tabulaire est créé en analysant le ou les fichiers délimités vers lequel ou lesquels pointe la sortie intermédiaire.
parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)
Paramètres
- include_path
- bool
Valeur booléenne pour conserver les informations de chemin sous forme de colonne dans le jeu de données. Valeur par défaut False. Cela est utile lors de la lecture de plusieurs fichiers et que vous souhaitez savoir de quel fichier provient un enregistrement particulier ou pour conserver des informations utiles dans le chemin du fichier.
- header
- PromoteHeadersBehavior
Détermine la façon dont les en-têtes de colonne sont promus lors de la lecture des fichiers. La valeur par défaut suppose que tous les fichiers ont le même en-tête.
- partition_format
- str
Spécifie le format de partition du chemin. La valeur par défaut est None. Les informations de partition de chaque chemin sont extraites en colonnes en fonction du format spécifié. La partie de format « {column_name} » crée une colonne de chaîne, et « {column_name:yyyy/MM/dd/HH/mm/ss} » crée une colonne DateHeure, où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, les minutes et les secondes pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier. Par exemple, étant donné le chemin « ../Accounts/2019/01/01/data.csv » où la partition se fait par nom de service et par heure, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' « Department » avec la valeur « Accounts » et une colonne DateHeure « PartitionDate » avec la valeur « 2019-01-01 ».
- file_extension
- str
Extension des fichiers à lire. Seuls les fichiers portant cette extension sont lus à partir du répertoire. La valeur par défaut est « .csv » lorsque le séparateur est « , » et « .tsv » lorsque le séparateur est une tabulation, et None dans le cas contraire. Si None est transmis, tous les fichiers sont lus quelle que soit leur extension (ou l’absence d’extension).
Dictionnaire pour définir le type de données de la colonne, dans lequel la clé est le nom de la colonne et la valeur est DataType. Les colonnes qui ne figurent pas dans le dictionnaire restent de type string. La transmission de la valeur None n’entraînera aucune conversion. Les entrées des colonnes introuvables dans les données sources ne provoquent pas d’erreur et seront ignorées.
- quoted_line_breaks
- bool
Indique de traiter ou non les caractères de nouvelle ligne mis entre guillemets. Cette option peut avoir un impact sur les performances.
Retours
Retourne des données intermédiaires qui seront un jeu de données tabulaires.
Type de retour
Remarques
Cette transformation est appliquée uniquement lorsque les données intermédiaires sont consommées comme entrée de l’étape suivante. Elle n’a aucun effet sur la sortie, même si elle est passée à la sortie.
parse_parquet_files
Transformez le jeu de données de fichier intermédiaire en un jeu de données tabulaire.
Le jeu de données tabulaire est créé en analysant le ou les fichiers parquet sur lesquels pointe la sortie intermédiaire.
parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)
Paramètres
- include_path
- bool
Valeur booléenne pour conserver les informations de chemin sous forme de colonne dans le jeu de données. Valeur par défaut False. Cela est utile lors de la lecture de plusieurs fichiers et que vous souhaitez savoir de quel fichier provient un enregistrement particulier ou pour conserver des informations utiles dans le chemin du fichier.
- partition_format
- str
Spécifie le format de partition du chemin. La valeur par défaut est None. Les informations de partition de chaque chemin sont extraites en colonnes en fonction du format spécifié. La partie de format « {column_name} » crée une colonne de chaîne, et « {column_name:yyyy/MM/dd/HH/mm/ss} » crée une colonne DateHeure, où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, les minutes et les secondes pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier. Par exemple, étant donné le chemin « ../Accounts/2019/01/01/data.parquet » où la partition se fait par nom de service et par heure, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crée une colonne de chaîne « Department » avec la valeur « Accounts » et une colonne DateHeure « PartitionDate » avec la valeur « 2019-01-01 ».
- file_extension
- str
Extension des fichiers à lire. Seuls les fichiers portant cette extension sont lus à partir du répertoire. La valeur par défaut est « .parquet ». Si la valeur None est définie, tous les fichiers sont lus quelle que soit leur extension (ou l’absence d’extension).
Dictionnaire pour définir le type de données de la colonne, dans lequel la clé est le nom de la colonne et la valeur est DataType. Les colonnes qui ne figurent pas dans le dictionnaire restent de type chargé à partir du fichier parquet. La transmission de la valeur None n’entraînera aucune conversion. Les entrées des colonnes introuvables dans les données sources ne provoquent pas d’erreur et seront ignorées.
Retours
Retourne des données intermédiaires qui seront un jeu de données tabulaires.
Type de retour
Remarques
Cette transformation est appliquée uniquement lorsque les données intermédiaires sont consommées comme entrée de l’étape suivante. Elle n’a aucun effet sur la sortie, même si elle est passée à la sortie.
Commentaires
https://aka.ms/ContentUserFeedback.
Bientôt disponible : Tout au long de 2024, nous allons supprimer progressivement GitHub Issues comme mécanisme de commentaires pour le contenu et le remplacer par un nouveau système de commentaires. Pour plus d’informations, consultezEnvoyer et afficher des commentaires pour