DataReference Classe

Représente une référence aux données dans un magasin de données.

Un élément DataReference représente un chemin d’accès dans un magasin de données et peut être utilisé pour décrire comment et où les données doivent être mises à disposition dans une exécution. Ce n’est plus l’approche recommandée pour l’accès aux données et leur livraison dans Azure Machine Learning. L’élément Dataset prend en charge l’accès aux données à partir du stockage Blob Azure, d’Azure Files, d’Azure Data Lake Storage Gen1, d’Azure Data Lake Storage Gen2, d’Azure SQL Database et d’Azure Database pour PostgreSQL via une interface unifiée avec des fonctionnalités de gestion de données supplémentaires. Il est recommandé d’utiliser le jeu de données pour lire les données dans vos projets Machine Learning.

Pour plus d’informations sur l’utilisation du jeu de données Azure ML dans deux scénarios courants, consultez les articles suivants :

Constructeur DataReference de classe.

Héritage
builtins.object
DataReference

Constructeur

DataReference(datastore, data_reference_name=None, path_on_datastore=None, mode='mount', path_on_compute=None, overwrite=False)

Paramètres

datastore
Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]
Obligatoire

Magasin de banques à référencer.

data_reference_name
str
valeur par défaut: None

Nom de la référence de données.

path_on_datastore
str
valeur par défaut: None

Chemin d’accès relatif dans le stockage de sauvegarde pour la référence de données.

mode
str
valeur par défaut: mount

Opération sur la référence de données. Les valeurs prises en charge sont « mount » (valeur par défaut) et « download ».

Utilisez le mode « download » quand votre script attend un chemin spécifique (par exemple codé en dur) pour les données d’entrée. Dans ce cas, spécifiez le chemin avec le paramètre path_on_compute quand vous déclarez DataReference. Azure Machine Learning télécharge les données spécifiées par ce chemin avant d’exécuter votre script.

Si vous utilisez le mode « mount », un répertoire temporaire est créé avec les données montées, et une variable d’environnement $AZUREML_DATAREFERENCE_<data_reference_name> est définie avec le chemin du répertoire temporaire. Si vous passez DataReference dans la liste d’arguments d’une étape de pipeline (par exemple PythonScriptStep), la référence est étendue au chemin de données local au moment de l’exécution.

path_on_compute
str
valeur par défaut: None

Chemin sur la cible de calcul pour la référence de données.

overwrite
bool
valeur par défaut: False

Indique si les données existantes doivent être remplacées.

datastore
Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]
Obligatoire

Magasin de banques à référencer.

data_reference_name
str
Obligatoire

Nom de la référence de données.

path_on_datastore
str
Obligatoire

Chemin d’accès relatif dans le stockage de sauvegarde pour la référence de données.

mode
str
Obligatoire

Opération sur la référence de données. Valeurs prises en charge « mount » (valeur par défaut) et « download ».

Utilisez le mode « download » quand votre script attend un chemin spécifique (par exemple codé en dur) pour les données d’entrée. Dans ce cas, spécifiez le chemin avec le paramètre path_on_compute quand vous déclarez DataReference. Azure Machine Learning télécharge les données spécifiées par ce chemin avant d’exécuter votre script.

Si vous utilisez le mode « mount », un répertoire temporaire est créé avec les données montées, et une variable d’environnement $AZUREML_DATAREFERENCE_<data_reference_name> est définie avec le chemin du répertoire temporaire. Si vous passez DataReference dans la liste d’arguments d’une étape de pipeline (par exemple PythonScriptStep), la référence est étendue au chemin de données local au moment de l’exécution.

path_on_compute
str
Obligatoire

Chemin sur la cible de calcul pour la référence de données.

overwrite
bool
Obligatoire

Indique s’il est nécessaire de remplacer les données existantes.

Remarques

DataReference définit à la fois l’emplacement des données et la façon dont ces données sont utilisées sur la liaison de calcul cible (montage ou chargement). Le chemin des données dans le magasin de données peut correspondre à la racine /, à un répertoire du magasin de données ou à un fichier du magasin de données.

Méthodes

as_download

Passe l’opération de référence de données en mode « download ».

Le téléchargement de DataReference prend uniquement en charge Azure Blob et le partage de fichiers Azure. Pour télécharger des données à partir d’Azure Blob, du partage de fichiers Azure, d’Azure Data Lake Gen1 et d’Azure Data Lake Gen2, nous vous recommandons d’utiliser le jeu de données Azure Machine Learning. Pour plus d’informations sur la création et l’utilisation d’un jeu de données, accédez à https://docs.microsoft.com/en-us/azure/machine-learning/how-to-train-with-datasets.

as_mount

Passe l’opération de référence de données en mode « mount ».

Le montage de DataReference prend uniquement en charge Azure Blob. Pour monter des données dans Azure Blob, le partage de fichiers Azure, Azure Data Lake Gen1 et Azure Data Lake Gen2, nous vous recommandons d’utiliser le jeu de données Azure Machine Learning. Pour plus d’informations sur la création et l’utilisation d’un jeu de données, accédez à https://docs.microsoft.com/en-us/azure/machine-learning/how-to-train-with-datasets.

as_upload

Passe l’opération de référence de données en mode « upload ».

Pour plus d’informations sur les cibles de calcul et les magasins de données qui prennent en charge le chargement des données, consultez : https://aka.ms/datastore-matrix.

create

Crée DataReference en utilisant DataPath et DataPathComputeBinding.

path

Crée une instance de DataReference en fonction du chemin donné.

to_config

Convertit l’objet DataReference en objet DataReferenceConfiguration.

as_download

Passe l’opération de référence de données en mode « download ».

Le téléchargement de DataReference prend uniquement en charge Azure Blob et le partage de fichiers Azure. Pour télécharger des données à partir d’Azure Blob, du partage de fichiers Azure, d’Azure Data Lake Gen1 et d’Azure Data Lake Gen2, nous vous recommandons d’utiliser le jeu de données Azure Machine Learning. Pour plus d’informations sur la création et l’utilisation d’un jeu de données, accédez à https://docs.microsoft.com/en-us/azure/machine-learning/how-to-train-with-datasets.

as_download(path_on_compute=None, overwrite=False)

Paramètres

path_on_compute
str
valeur par défaut: None

Chemin sur la cible de calcul pour la référence de données.

overwrite
bool
valeur par défaut: False

Indique s’il est nécessaire de remplacer les données existantes.

Retours

Nouvel objet de référence de données.

Type de retour

as_mount

Passe l’opération de référence de données en mode « mount ».

Le montage de DataReference prend uniquement en charge Azure Blob. Pour monter des données dans Azure Blob, le partage de fichiers Azure, Azure Data Lake Gen1 et Azure Data Lake Gen2, nous vous recommandons d’utiliser le jeu de données Azure Machine Learning. Pour plus d’informations sur la création et l’utilisation d’un jeu de données, accédez à https://docs.microsoft.com/en-us/azure/machine-learning/how-to-train-with-datasets.

as_mount()

Retours

Nouvel objet de référence de données.

Type de retour

as_upload

Passe l’opération de référence de données en mode « upload ».

Pour plus d’informations sur les cibles de calcul et les magasins de données qui prennent en charge le chargement des données, consultez : https://aka.ms/datastore-matrix.

as_upload(path_on_compute=None, overwrite=False)

Paramètres

path_on_compute
str
valeur par défaut: None

Chemin sur la cible de calcul pour la référence de données.

overwrite
bool
valeur par défaut: False

Indique s’il est nécessaire de remplacer les données existantes.

Retours

Nouvel objet de référence de données.

Type de retour

create

Crée DataReference en utilisant DataPath et DataPathComputeBinding.

static create(data_reference_name=None, datapath=None, datapath_compute_binding=None)

Paramètres

data_reference_name
str
valeur par défaut: None

Nom de la référence de données à créer.

datapath
DataPath
valeur par défaut: None

[Obligatoire] Chemin de données à utiliser.

datapath_compute_binding
DataPathComputeBinding
valeur par défaut: None

[Obligatoire] Liaison de calcul du chemin de données à utiliser.

Retours

Objet DataReference.

Type de retour

path

Crée une instance de DataReference en fonction du chemin donné.

path(path=None, data_reference_name=None)

Paramètres

path
str
valeur par défaut: None

Chemin dans le magasin de données.

data_reference_name
str
valeur par défaut: None

Nom de la référence de données.

Retours

Objet de référence de données.

Type de retour

to_config

Convertit l’objet DataReference en objet DataReferenceConfiguration.

to_config()

Retours

Nouvel objet DataReferenceConfiguration.

Type de retour