Démarrage rapide : Créer un espace de travail Azure Databricks dans votre propre réseau virtuel

Le déploiement par défaut d’Azure Databricks crée un réseau virtuel qui est géré par Databricks. Ce guide de démarrage rapide montre comment créer un espace de travail Azure Databricks dans votre propre réseau virtuel à la place. Vous allez également créer un cluster Apache Spark au sein de cet espace de travail.

Pour plus d’informations sur les raisons pour lesquelles vous pouvez choisir de créer un espace de travail Azure Databricks dans votre propre réseau virtuel, consultez Déployer Azure Databricks dans votre Réseau virtuel Microsoft Azure (Injection de réseau virtuel).

Prérequis

  • Si vous n’avez pas d’abonnement Azure, créez un compte gratuit. Ce tutoriel ne peut pas être suivi avec un abonnement d’essai gratuit Azure. Si vous avez un compte gratuit, accédez à votre profil et modifiez votre abonnement sur Paiement à l’utilisation. Pour plus d’informations, consultez la page Compte Azure gratuit. Ensuite, supprimez la limite de dépense, et demandez une augmentation du quota pour les processeurs virtuels dans votre région. Lorsque vous créez votre espace de travail Azure Databricks, vous pouvez sélectionner le tarif Version d’évaluation (Premium - 14 jours de DBU offerts) pour donner à l’accès de l’espace de travail un accès gratuit aux DBU d’Azure Databricks pendant 14 jours.

  • Vous devez être contributeur ou propriétaire Azure, ou le fournisseur de ressources Microsoft.ManagedIdentity doit être inscrit dans votre abonnement. Pour obtenir des instructions, consultez Inscrire le fournisseur de ressources.

Connectez-vous au portail Azure.

Connectez-vous au portail Azure.

Remarque

Si vous souhaitez créer un espace de travail Azure Databricks dans Cloud Commercial Azure qui détient des certifications de conformité du gouvernement américain comme FedRAMP High, contactez l’équipe en charge de votre compte Microsoft ou Databricks pour accéder à cette expérience.

Créez un réseau virtuel

  1. Dans le menu du Portail Azure, sélectionnez Créer une ressource. Sélectionnez ensuite Mise en réseau > Réseau virtuel.

    Créer un réseau virtuel dans le portail Azure

  2. Sous Créer un réseau virtuel, appliquez les paramètres suivants :

    Paramètre Valeur suggérée Description
    Abonnement <Votre abonnement> Sélectionnez l’abonnement Azure que vous souhaitez utiliser.
    Groupe de ressources databricks-quickstart Sélectionnez Créer et saisissez le nom du nouveau groupe de ressources pour votre compte.
    Nom databricks-quickstart Sélectionnez un nom pour votre réseau virtuel.
    Région <Sélectionnez la région la plus proche de vos utilisateurs> Sélectionnez l’emplacement géographique où vous pouvez héberger votre réseau virtuel. Utilisez l’emplacement le plus proche de vos utilisateurs.

    Notions de base d’un réseau virtuel sur portail Azure

  3. Sélectionnez Suivant : Adresses IP > et appliquez les paramètres suivants. Sélectionnez ensuite Passer en revue + créer .

    Paramètre Valeur suggérée Description
    Espace d’adressage IPv4 10.2.0.0/16 Plage d’adresses du réseau virtuel en notation CIDR. La plage CIDR doit être comprise entre /16 et /24
    Nom du sous-réseau default Sélectionnez un nom pour le sous-réseau par défaut de votre réseau virtuel.
    Plage d’adresses de sous-réseau 10.2.0.0/24 Plage d’adresses du sous-réseau en notation CIDR. Elle doit être contenue dans l’espace d’adressage du réseau virtuel. La plage d’adresses d’un sous-réseau qui est en cours d’utilisation ne peut pas être modifiée.

    Définir des configurations IP pour un réseau virtuel sur portail Azure

  4. Sous l’onglet Passer en revue + Créer, sélectionnez Créer des pour déployer le réseau virtuel. Une fois le déploiement terminé, accédez à votre réseau virtuel et sélectionnez Espace d’adressage sous Paramètres. Dans la zone intitulée Ajouter une plage d’adresses supplémentaires, insérez 10.179.0.0/16 et sélectionnez Enregistrer.

    Espace d’adressage de réseau virtuel Azure

Créer un espace de travail Azure Databricks

  1. Dans le menu du Portail Azure, sélectionnez Créer une ressource. Sélectionnez ensuite Analytics > Databricks.

    Créer un espace de travail Azure Databricks dans le portail Azure

  2. Sous Service Azure Databricks, appliquez les paramètres suivants :

    Paramètre Valeur suggérée Description
    Nom de l’espace de travail databricks-quickstart Sélectionnez un nom pour votre espace de travail Azure Databricks.
    Abonnement <Votre abonnement> Sélectionnez l’abonnement Azure que vous souhaitez utiliser.
    Groupe de ressources databricks-quickstart Sélectionnez le même groupe de ressources que celui que vous avez utilisé pour le réseau virtuel.
    Emplacement <Sélectionnez la région la plus proche de vos utilisateurs> Choisissez le même emplacement que pour votre réseau virtuel.
    Niveau tarifaire Choisissez entre Standard ou Premium. Pour plus d’informations sur les niveaux de tarification, consultez la page de tarification Databricks.

    Créer une notion de base de l’espace de travail Azure Databricks

  3. Une fois que vous avez fini de sélectionner les paramètres dans la page Notions de base, sélectionnez Suivant : Mise en réseau > et appliquez les paramètres suivants :

    Paramètre Valeur suggérée Description
    Déployer l’espace de travail Azure Databricks dans votre réseau virtuel Oui Ce paramètre vous permet de déployer un espace de travail Azure Databricks dans votre réseau virtuel.
    Réseau virtuel databricks-quickstart Sélectionnez le réseau virtuel créé dans la section précédente.
    Nom du sous-réseau public public-subnet Utilisez le nom de sous-réseau public par défaut.
    Plage CIDR du sous-réseau public 10.179.64.0/18 Utilisez une plage CIDR allant jusqu’à /26 inclus.
    Nom du sous-réseau privé private-subnet Utilisez le nom de sous-réseau privé par défaut.
    Plage CIDR du sous-réseau privé 10.179.0.0/18 Utilisez une plage CIDR allant jusqu’à /26 inclus.

    Créer un espace de travail Azure Databricks dans le portail Azure

  4. Une fois le déploiement terminé, accédez à la ressource Azure Databricks. Notez que le peering de réseau virtuel est désactivé. Notez également le groupe de ressources et le groupe de ressources managé dans la page de présentation.

    Présentation d’Azure Databricks dans le portail Azure

    Le groupe de ressources managé n’est pas modifiable et n’est pas utilisé pour créer des machines virtuelles. Vous pouvez uniquement créer des machines virtuelles dans le groupe de ressources que vous gérez.

    Groupe de ressources managé Azure Databricks

    Lorsque le déploiement d’un espace de travail échoue, l’espace de travail est malgré tout créé en état d’échec. Supprimez l’espace de travail défaillant et créez un espace de travail qui résout les erreurs de déploiement. Lorsque vous supprimez l’espace de travail défaillant, le groupe de ressources managé et toutes les ressources déployées correctement sont également supprimés.

Créer un cluster

Notes

Pour utiliser un compte gratuit pour créer le cluster Azure Databricks, avant de créer le cluster, accédez à votre profil et définissez votre abonnement sur paiement à l’utilisation. Pour plus d’informations, consultez la page Compte Azure gratuit.

  1. Revenez à votre service Azure Databricks et sélectionnez Lancer l’espace de travail sur la page Vue d’ensemble.

  2. Sélectionnez Clusters>+ Créer un cluster. Puis créez un nom de cluster, comme databricks-quickstart-clusteret acceptez les autres paramètres par défaut. Sélectionnez Créer un cluster.

    Créer un cluster Azure Databricks

  3. Une fois que le cluster est en cours d’exécution, revenez au groupe de ressources managé dans le portail Azure. Notez les nouveaux éléments : machines virtuelles, disques, adresse IP et interfaces réseau. Une interface réseau est créée dans les sous-réseaux public et privé avec des adresses IP.

    Groupe de ressources managé Azure Databricks après la création du cluster

  4. Revenez à votre espace de travail Azure Databricks et sélectionnez le cluster que vous avez créé. Puis accédez à l’onglet Exécuteurs sur la page Interface utilisateur Spark. Notez que les adresses pour le pilote et les exécuteurs sont dans la plage du sous-réseau privé. Dans cet exemple, l’adresse du pilote est 10.179.0.6 et les adresses des exécuteurs sont 10.179.0.4 et 10.179.0.5. Vos adresses IP peuvent être différentes.

    Exécuteurs IU Spark Azure Databricks

Nettoyer les ressources

Une fois l’article terminé, vous pouvez arrêter le cluster. Pour cela, dans l’espace de travail Azure Databricks, dans le volet gauche, sélectionnez Clusters. Pour le cluster que vous voulez arrêter, déplacez le curseur sur les points de suspension dans la colonne Actions, puis sélectionnez l’icône Arrêter. Cela arrête le cluster.

Si vous n’arrêtez pas le cluster manuellement, il s’arrêtera automatiquement, à condition d’avoir coché Arrêter après __ minutes d’inactivité lors de la création du cluster. Dans ce cas, le cluster s’arrête automatiquement s’il a été inactif pendant la période renseignée.

Si vous ne souhaitez pas réutiliser le cluster, vous pouvez supprimer le groupe de ressources que vous avez créé dans le portail Azure.

Étapes suivantes

Dans cet article, vous avez créé un cluster Spark dans Azure Databricks que vous avez déployé sur un réseau virtuel. Passez à l’article suivant pour découvrir comment interroger un conteneur Docker SQL Server Linux dans le réseau virtuel avec JDBC à partir d’un bloc-notes Azure Databricks.