Share via


Démarrage rapide : Configurer la machine virtuelle Science des données pour Linux (Ubuntu)

Démarrez avec l’instance Ubuntu 20.04 Data Science Virtual Machine (DSVM) et Azure DSVM pour PyTorch.

Prérequis

Pour créer une instance Data Science Virtual Machine Ubuntu 20.04 ou Azure DSVM pour PyTorch, vous devez avoir un abonnement Azure. Essayez Azure gratuitement.

Les comptes gratuits Azure ne prennent pas en charge les références SKU de machine virtuelle compatibles GPU.

Créer une machine virtuelle pour la science des données pour Linux

Pour créer une instance du DSVM Ubuntu 20.04 ou du DSVM Azure pour PyTorch :

  1. Accédez au portail Azure. Vous pouvez recevoir une invite pour vous connecter à votre compte Azure si vous n’êtes pas encore connecté.

  2. Recherchez la liste des machines virtuelles en entrant machine virtuelle de science des données. Puis sélectionnez Data Science Virtual Machine : Ubuntu 20.04 ou Azure DSVM pour PyTorch.

  3. Sélectionnez Créer.

  4. Dans le volet Créer une machine virtuelle, remplissez l'onglet Bases :

    • Abonnement: Si vous disposez de plusieurs abonnements, sélectionnez celui qui sera associé à la création et à la facturation de la machine. Vous devez disposer des privilèges de création de ressources pour cet abonnement.

    • Groupe de ressources : Créez un groupe ou sélectionnez-en un.

    • Nom de la machine virtuelle: entrez le nom de la machine virtuelle. Ce nom est utilisé dans votre portail Microsoft Azure.

    • Région : Sélectionnez le centre de données qui convient le mieux. Pour un accès réseau le plus rapide, le centre de données qui héberge la plupart de vos données ou qui est le plus proche de votre emplacement physique est le meilleur choix. Pour plus d’informations, consultez régions Azure.

    • Image : ne modifiez pas la valeur par défaut.

    • Taille : cette option doit être renseignée automatiquement avec une taille adaptée aux charges de travail générales. Pour plus d’informations, reportez-vous à tailles de machine virtuelle Linux dans Azure.

    • Type d’authentification : pour une configuration plus rapide, sélectionnez Mot de passe.

      Remarque

      Si vous envisagez d’utiliser JupyterHub, veillez à sélectionner Mot de passe, car JupyterHub n’est pas configuré pour utiliser des clés publiques du protocole Secure Shell (SSH).

    • Nom d’utilisateur : Entrez le nom d’utilisateur de l’administrateur. Vous utilisez ce nom d’utilisateur pour vous connecter à votre machine virtuelle. Il n’a pas besoin de correspondre à votre nom d’utilisateur Azure. N'utilisez pas de lettres majuscules.

      Important

      Si vous utilisez des lettres majuscules dans votre nom d’utilisateur, JupyterHub ne fonctionnera pas et vous rencontrerez une erreur 500 interne au serveur.

    • Mot de passe: entrez le mot de passe que vous prévoyez d’utiliser pour vous connecter à votre machine virtuelle.

  5. Sélectionnez Revoir + créer.

  6. Dans le volet Vérifier + créer :

    • Vérifiez que toutes les informations que vous avez saisies sont correctes.
    • Sélectionnez Créer.

    Le processus d'approvisionnement prend environ 5 minutes. Vous pouvez afficher l’état de votre machine virtuelle dans le Portail Microsoft Azure.

Accéder à la machine virtuelle Data Science Virtual Machine Ubuntu

Vous pouvez accéder à la machine DSVM Ubuntu de l’une des quatre manières suivantes:

  • SSH pour les sessions Terminal Server
  • xrdp pour les sessions graphiques
  • X2Go pour les sessions graphiques
  • JupyterHub et JupyterLab pour les blocs-notes Jupyter

SSH

Si vous avez configuré votre machine virtuelle avec l’authentification SSH, vous pouvez vous connecter à l’aide des informations d’identification de compte que vous avez créées dans la section Paramètres de base de l’étape 4 pour l’interface d’interpréteur de commandes texte. Pour plus d’informations, reportez-vous à En savoir plus sur la connexion à une machine virtuelle Linux.

xrdp

L’outil standard permettant d’accéder aux sessions graphiques Linux est xrdp. Bien que la distribution n’inclut pas cet outil par défaut, ces instructions expliquent comment l’installer.

X2Go

Remarque

Lors de tests, le client X2Go a obtenu de meilleures performances que le transfert X11. Nous recommandons d’utiliser le client X2Go pour une interface de bureau graphique.

La machine virtuelle Linux est déjà provisionnée avec le serveur X2Go et prête à accepter les connexions clientes. Pour vous connecter au bureau graphique de la machine virtuelle Linux, effectuez les opérations suivantes sur votre client :

  1. Téléchargez et installez le client X2Go pour votre plateforme cliente sur X2Go.

  2. Notez l’adresse IP publique de la machine virtuelle. Dans le Portail Microsoft Azure, ouvrez la machine virtuelle que vous avez créée pour trouver ces informations.

    Capture d’écran montrant l’adresse IP publique de la machine virtuelle.

  3. Exécutez le client X2Go. Si le volet Nouvelle session ne s’affiche pas automatiquement, sélectionnez Session>Nouvelle session.

  4. Dans le volet de configuration obtenue, entrez ces paramètres de configuration :

    • Session:
      • Host : entrez l’adresse IP de votre machine virtuelle, que vous avez notée précédemment.
      • Connexion : Entrez le nom d’utilisateur dans la machine virtuelle Linux.
      • Port SSH : conservez la valeur par défaut 22.
      • Session type : remplacez la valeur par XFCE. La machine virtuelle Linux prend uniquement en charge l’environnement de bureau XFCE.
    • Média : vous pouvez désactiver l’impression client et la prise en charge du son si vous n’en avez pas besoin.
    • Fichiers partagés : utilisez cet onglet pour ajouter le répertoire de l’ordinateur client que vous voulez monter sur la machine virtuelle.

    Capture d’écran qui montre les préférences d’une nouvelle session X2Go.

  5. Cliquez sur OK.

  6. Sélectionnez la zone dans le volet droit du volet X2Go pour accéder au volet de connexion de votre machine virtuelle.

  7. Entrez le mot de passe de votre machine virtuelle.

  8. Cliquez sur OK.

  9. Vous devrez peut-être accorder à X2Go l’autorisation de contourner votre pare-feu pour terminer le processus de connexion.

  10. Vous devez maintenant voir l’interface graphique de votre machine DSVM Ubuntu.

JupyterHub et JupyterLab

La machine DSVM Ubuntu exécute JupyterHub, qui est un serveur multi-utilisateur Jupyter. Pour vous connecter aux données, procédez comme suit :

  1. Notez l’adresse IP publique de votre machine virtuelle. Pour trouver cette valeur, recherchez et sélectionnez votre machine virtuelle dans le Portail Microsoft Azure, comme illustré dans cette capture d’écran.

    Capture d’écran montrant l’adresse IP publique de votre machine virtuelle.

  2. À partir de votre ordinateur local, ouvrez un navigateur web et accédez à https://your-vm-ip:8000. Remplacez votre adresse IP par l’adresse IP que vous avez notée précédemment.

  3. Votre navigateur vous empêchera probablement d’ouvrir le volet directement. Cela peut vous indiquer qu’il existe une erreur de certificat. La DSVM fournit une sécurité avec un certificat auto-signé. La plupart des navigateurs vous permettent de cliquer après cet avertissement. De nombreux navigateurs maintiennent un genre d’avertissement visuel par rapport au certificat tout au long de votre session web.

    Si vous voyez le message d’erreur ERR_EMPTY_RESPONSE dans votre navigateur, assurez-vous d’accéder à l’ordinateur en utilisant explicitement le protocole HTTPS. HTTP ou simplement l’adresse web ne fonctionne pas pour cette étape. Comme la plupart des navigateurs utilisent par défaut http, si vous entrez l’adresse web sans https:// dans la ligne d’adresse, vous verrez cette erreur.

  4. Entrez le nom d’utilisateur et le mot de passe que vous avez utilisés pour créer la machine virtuelle, puis connectez-vous, comme illustré dans cette capture d’écran.

    Capture d’écran montrant le volet de connexion JupyterHub.

    Si vous recevez une erreur 500 à ce stade, vous avez probablement utilisé des lettres majuscules dans votre nom d’utilisateur. Ce problème est une interaction connue entre JupyterHub et le module authentificateur PAM qu’il utilise.

    Si vous recevez une erreur « Impossible d’atteindre cette page », vous devrez probablement ajuster vos autorisations de groupe de sécurité réseau (NSG). Dans le Portail Microsoft Azure, recherchez la ressource NSG dans votre groupe de ressources. Pour accéder à JupyterHub à partir de l’internet public, le port 8000 doit être ouvert. (L’image montre que cette machine virtuelle est configurée pour un accès juste-à-temps, ce que nous recommandons fortement. Pour plus d’informations, reportez-vous à Sécuriser vos ports de gestion avec un accès juste-à-temps.)

    Capture d’écran montrant les valeurs de configuration NSG.

  5. Parcourez les exemples de notebooks disponibles.

JupyterLab, nouvelle génération de blocs-notes Jupyter, et JupyterHub, sont également disponibles. Pour y accéder, connectez-vous à JupyterHub. Accédez ensuite à l'URL https://your-vm-ip:8000/user/your-username/lab. Remplacez votre nom d’utilisateur par le nom d’utilisateur que vous avez choisi lorsque vous avez configuré la machine virtuelle. Là encore, les erreurs de certificat potentielles peuvent initialement vous empêcher d’accéder au site.

Pour définir JupyterLab comme serveur de notebooks par défaut, ajoutez cette ligne à /etc/jupyterhub/jupyterhub_config.py :

c.Spawner.default_url = '/lab'

Étapes suivantes

  • Consultez la procédure Science des données sur la machine virtuelle pour la science des données pour Linux pour apprendre comment effectuer plusieurs tâches courantes relatives à la science des données avec la machine virtuelle DSVM Linux provisionnée ici.
  • Essayez les outils décrits dans cet article pour explorer les différents outils de science des données sur la DSVM. Vous pouvez également exécuter dsvm-more-info dans l’interpréteur de commandes sur la machine virtuelle pour accéder à une présentation de base et à des liens vers des informations supplémentaires concernant les outils installés sur la machine virtuelle.
  • Découvrez comment créer systématiquement des solutions analytiques à l’aide du processus TDSP (Team Data Science Process).
  • Pour des exemples d’apprentissage automatique et d’analytique données utilisant les services d’intelligence artificielle d'Azure, consultez Azure AI Gallery.
  • Consultez la documentation de référence appropriée pour cette machine virtuelle.