Configurer Azure Data Lake Storage

Article
04/24/2024

Cet article vous montre comment configurer votre compte Azure Data Lake Storage pour travailler avec les recommandations intelligentes.

Pour accorder à Recommandations intelligentes l’accès à votre compte Data Lake Storage, accédez d’abord au compte, puis définissez les autorisations d’accès.

Configurer un conteneur, un dossier racine et un dossier de journaux

Pour sélectionner le conteneur et les dossiers que le service Recommandations intelligentes utilise :

Connectez-vous à votre portail Azure et sélectionnez la section Stockage.
Sélectionnez l’abonnement et le compte de stockage que votre entreprise utilise pour partager des données avec le service Recommandations intelligentes, puis sélectionnez Conteneurs.
Créez ou choisissez un conteneur existant, puis créez ou sélectionnez un dossier racine.

Note

Les noms des dossiers racine, des dossiers de journaux et des conteneurs n’affecteront pas le service, mais doivent correspondre au moment d’indiquer les chemins d’accès lors de la configuration du compte Recommandations intelligentes. Dans l’exemple, notez que nous utilisons ircontainer comme nom de notre conteneur, ir_root comme nom de notre dossier racine, et ir_logs comme nom de notre dossier de journaux.
Vérifiez les noms et la structure des sous-dossiers dans le dossier ir_root.

Configurer la sécurité du conteneur

Pour configurer la sécurité de votre conteneur, vous devez accorder l’accès aux recommandations intelligentes pour lire/écrire des données à l’aide d’identités gérées attribuées par le système ou par l’utilisateur. Pour en savoir plus sur les types d’identités gérées disponibles et sur celle qui convient à votre scénario d’entreprise, consultez le Guide des types d’identités managées

Les identités managées peuvent être configurées de deux manières :

Identité affectée par le système – Une identité managée affectée par le système est limitée à une par ressource et liée au cycle de vie de cette ressource.
Identité affectée par l’utilisateur : les identités gérées attribuées par l’utilisateur permettent aux ressources Azure de s’authentifier auprès des services cloud (par exemple, Azure Key Vault) sans stocker les informations d’identification dans le code.

Avant de continuer, assurez-vous d’avoir votre ID d’abonnement et votre compte de stockage que l’entreprise utilisera pour partager des données avec Recommandations intelligentes.

Approche d’identité managée affectée par le système

Pour configurer la sécurité avec l’identité managée affectée par le système :

Ouvrez votre compte Recommandations intelligentes.
Dans le volet de gauche, sélectionnez Identité.
Sous l’onglet Affecté par le système, activez le Statut et sélectionnez Enregistrer.

Statut d’identité attribué par le système sur le compte IR.

Revenez à votre compte de stockage, sélectionnez Conteneurs dans le volet de navigation de gauche, puis sélectionnez votre ircontainer (ou le nom que vous avez donné à votre contenant).
Dans le volet de gauche, sélectionnez Contrôle d’accès (IAM).

IAM dans un container.

Pour permettre au service Recommandations intelligentes de lire les données des journaux, suivez les étapes suivantes pour attribuer le Lecteur de données Blob de stockage, puis répétez les étapes 1 à 6 pour les autorisations Contributeur de données Blob de stockage :
1. En dessous de Autoriser l’accès à cette ressource, sélectionnez Ajouter une attribution de rôle.
2. Dans Rôle, sélectionnez Lecteur de données d’objets blob de stockage, puis sélectionnez suivant.
3. Sur l’écran suivant, sous la section Attribuer l’accès à, sélectionnez Identité managée, puis sélectionnez + Certains membres.
1. Sous Identité managée, sélectionnez la catégorie Compte de recommandations intelligentes.
1. Ensuite, vous voyez une liste de comptes de Recommandations intelligentes. Choisissez le compte approprié qui a accès à ce compte de stockage, puis sélectionnez Sélectionner.
1. Finalisez votre décision en sélectionnant le bouton « Revoir + Attribuer ». Répétez ces étapes pour configurer également le Contributeur de données Blob de stockage.

Approche d’identité managée affectée par l’utilisateur

Si votre entreprise possède plusieurs comptes nécessitant un accès en lecture/écriture aux données dans le même conteneur, accordez des autorisations à une identité managée affectée à un utilisateur et associez-la à plusieurs comptes Recommandations intelligentes.

Note

Avant de continuer, vous devez avoir déjà créé une identité managée affectée par l’utilisateur. Si vous n’en avez pas déjà un, suivez les étapes décrites dans le Guide des identités managées affectées par l’utilisateur.

Les conditions préalables à la création d’une identité managée par l’utilisateur incluent :

Abonnement : choisissez l’abonnement sous lequel créer l’identité gérée affectée par l’utilisateur.

Groupe de ressources : choisissez un groupe de ressources dans lequel créer l’identité managée affectée par l’utilisateur, ou sélectionnez Créer nouveau pour créer un nouveau groupe de ressources.

Région : choisissez une région pour déployer l’identité gérée attribuée par l’utilisateur, par exemple, USA Ouest.

Nom : entrez un nom pour votre identité managée affectée par l’utilisateur. Notez que seuls les caractères alphanumériques (0-9, a-z et A-Z) et les traits d’union (-) sont pris en charge.

Copiez l’identité managée affectée par l’utilisateur que vous avez créée et que vous souhaitez utiliser. Si vous n’en avez pas, consultez la note sur la façon de créer votre identité managée affectée par l’utilisateur.
Dans votre compte de stockage, sélectionnez Conteneurs dans le volet de navigation de gauche, puis recherchez votre ircontainer (ou le conteneur qui contient votre contrat de données).
Dans le volet de gauche, sélectionnez Contrôle d’accès (IAM).

Trouvez le contrôle d’accès pour votre conteneur.

Pour permettre au service Recommendations ingtelligentes de lire les données des journaux, vous devez ajouter à la fois les autorisations Lecteur de données blob de stockage et Contributeur de données blob de stockage.
1. En dessous de Autoriser l’accès à cette ressource, sélectionnez Ajouter une attribution de rôle.
2. Dans Rôle, sélectionnez Lecteur de données d’objets blob de stockage.
3. Sous Attribuer l’accès à, sélectionnez Identité managée, puis sélectionnez + Certains membres.
4. Sélectionnez Identité managée affectée par l’utilisateur.
1. Choisissez les identités managées affectées par l’utilisateur qui sont liées aux comptes IR auxquels vous souhaitez accorder des autorisations, puis sélectionnez Sélectionner.
1. Enregistrez vos modifications en cliquant sur le bouton « Revoir + Attribuer » et fermez la boîte de dialogue.

Ensuite, vous devez connecter votre compte Recommendations intelligentes à votre identité managée affectée par l’utilisateur :

Accédez à votre compte Recommandations intelligentes.
Dans le volet de gauche, sélectionnez Identité.
Sous l’onglet Identité, sélectionnez Affecté par l’utilisateur, puis + Ajouter.

associez l’identité au compte IR.

Ajoutez l’identité attribuée par l’utilisateur au compte IR.

Sélectionnez votre identité managée affectée par l’utilisateur que vous souhaitez connecter au compte IR. Vous pouvez connecter plusieurs identités à votre compte IR si nécessaire.
Sélectionnez Ajouter pour enregistrer vos choix.

ajoutez l’identité au compte IR.

Vérifier vos attributions de rôle

Vérifiez que vous disposez du bon ensemble d’autorisations en revenant à votre compte de stockage et à ircontainer.

Dans votre ircontainer, sélectionnez Contrôle d’accès (IAM) dans le volet de gauche.
Sélectionnez Afficher dans la section Afficher l’accès à cette ressource.
Recherchez le service Recommandations intelligentes et vérifiez qu’il est répertorié dans la section Attributions de rôle avec Lecteur de données Blob de stockage et Contributeur de données Blob de stockage. Si ces rôles sont manquants, revenez en arrière et ajoutez-les à nouveau en suivant les étapes décrites précédemment.

Note

Il est également possible de configurer des autorisations au niveau du dossier (autorisations ACL). Pour plus d’informations sur les autorisations ACL, accédez à Listes de contrôle d’accès dans Azure Data Lake Storage Gen2.

Préparer les données

Recommandations intelligentes prend en charge plusieurs types de données. Pour de meilleurs résultats, placez chaque type de données dans un sous-dossier unique avec un nom spécifique reconnu par Recommandations intelligentes. Vous pouvez placer des fichiers CSV avec le schéma correct dans chaque dossier.

Gardez à l’esprit les conseils suivants à la préparation de fichiers CSV :

Les noms des dossiers inférieurs au niveau du dossier racine sont importants et doivent correspondre exactement à ce qui est attendu dans le fichier model.json.
Les noms des fichiers CSV ne sont pas importants.
Vous pouvez placer plusieurs fichiers CSV dans le dossier. Les recommandations intelligentes tenteront également de les lire.
La quantité de données n’a pas d’importance non plus. Vous pouvez partitionner les données comme vous le souhaitez.
Les scénarios tels que des recommandations personnalisées nécessitent des entités de données différentes.

Une entité de données est un ensemble d’un ou plusieurs fichiers texte de données. Chaque fichier a une liste de colonnes, ou les attributs, et les lignes contenant les données réelles. Recommandations intelligentes définit des groupes logiques d’entités de données, chacun ayant son propre objectif. Les entités de données sont facultatives (sauf indication contraire explicite), ce qui signifie que leurs données peuvent être vides ou entièrement manquantes.

En savoir plus sur les types de données pour les recommandations intelligentes dans Référence des contrats de données.

Pour préparer les données, vous devez ajouter trois entités de données :

Reco_ItemsAndVariants : ce fichier contient la liste complète des articles que le service Recommandations intelligentes recommande aux utilisateurs.
Reco_Interactions : ce fichier stocke chaque événement brut ou interaction utilisateur entre les utilisateurs et les articles. Les événements courants incluent les clics, les vues et les transactions.
Reco_Config : ce fichier n’est pas spécifiquement un dossier de données, mais est utilisé pour d’autres configurations de liste.

Ensuite, vous devez ajouter le schéma de données.

Téléchargez le fichier model.json et configurez le dossier racine

L’ensemble du schéma de données est décrit dans un fichier téléchargeable, model.json.

Sélectionnez ce lien pour télécharger le fichier model.json. Ce fichier JSON doit être placé dans le dossier racine et n’a pas besoin d’autres modifications.

Note

NE MODIFIEZ PAS le fichier model.json. La modification du fichier empêchera le service de recommandations intelligentes de démarrer le traitement des données.
Enregistrer ou déplacer model.json dans le dossier racine.
Créez trois sous-dossiers pour les entités de données : Reco_ItemsAndVariants, Reco_Interactions, et Reco_Config.
À l’aide d’un éditeur de texte, créez un fichier par défaut config.csv et déplacez-le vers le dossier Reco_Config.

La structure du fichier devrait maintenant ressembler à ce qui suit :

Dossier racine avec tous les objets de données correctement configurés.

Créer un fichier de catalogue de base

Un catalogue dans sa forme la plus basique n’est qu’une simple liste d’identifiants d’articles. Pour l’instant, vous utilisez le schéma d’entité de données ItemsAndVariants, qui n’a que cinq champs.

Le schéma complet se présente comme suit :

ItemId, ItemVariantId, Title, Description, ReleaseDate

Aux fins de démarrage rapide de votre service, seul ItemId est requis. Vous trouverez ci-dessous quelques exemples de lignes pour le fichier que vous devez créer :

0000394e,,,,
0000394f,,,,
0000394g,,,,

Créer un fichier d’interactions de base

Le schéma d’entité de données Interactions a 12 champs, mais vous pouvez définir la plupart des champs sur leurs valeurs par défaut pour le moment.

Définissez les valeurs suivantes :

Champ obligatoire	Description
InteractionsGroupingId	Peut être tout ce qui regroupe des articles. Vous pouvez le définir sur UserId, sur SessionId ou sur OrderId. Si vous ne savez pas quoi utiliser et que vous avez UserId, puis allez-y et réglez-le sur UserId.
ItemId	Le même ItemId mentionné dans Créer un fichier catalogue de base. Ces valeurs doivent correspondre à votre catalogue.
UserId	Chaque chaîne représentant un utilisateur. Recommandations intelligentes n’utilise pas ce champ pour interroger un système externe, donc cette valeur peut représenter tout ce qui correspond à un ID utilisateur réel.
Horodateur	Représente la date et l’heure d’un événement enregistré.

Le schéma des Interactions complet se présente comme suit :

InteractionsGroupingId, ItemId, ItemVariantId, UserId, InteractionType, Timestamp, RealtimeEventId, PaidPrice, Channel, Catalog, Strength, IsPositive

Pour l’instant, vous pouvez définir les autres champs sur leurs valeurs par défaut. Le fichier d’interactions doit avoir suffisamment de lignes de données pour permettre à l’instance de modélisation basée sur Machine Learning de calculer les résultats. Vous pouvez utiliser les rapports intégrés de la journalisation pour déterminer si vous en avez assez. Pour plus d’informations sur la journalisation, rendez-vous sur Configurer la journalisation des erreurs.

Vous trouverez ci-dessous quelques exemples de lignes pour le fichier que vous devez créer :

1,0000394e,,1,Transaction,2018-09-02T13:30:10.000Z,,,,,1,TRUE
1,0000394f,,1,Transaction,2018-09-01T03:48:38.000Z,,,,,1,TRUE
2,0000394e,,2,Transaction,2016-06-17T17:01:23.000Z,,,,,1,TRUE
2,0000394f,,2,Transaction,2017-04-19T07:15:53.000Z,,,,,1,TRUE
3,0000394e,,3,Transaction,2016-11-16T18:28:50.000Z,,,,,1,TRUE

Créer un fichier de configuration par défaut

Pour l’instant, copiez ce texte dans l’éditeur de texte de votre choix et enregistrez-le sous config.csv :

TrendingListMaxAgeDays,18250
TrendingListTransactionsIntervalDays,18250
BestSellingListTransactionsIntervalDays,36500
PersonalizationEnabled,False
ItemIdAsGuid,False

Voir aussi

Présentation du déploiement
Créer un nouveau compte Recommandations intelligentes
Utiliser des contrats de données pour partager des données