Tutoriel : Chargement d’un exemple de données dans un cluster Big Data SQL Server

S’applique à : SQL Server 2019 (15.x)

Important

Le module complémentaire Clusters Big Data Microsoft SQL Server 2019 sera mis hors service. La prise en charge de la plateforme Clusters Big Data Microsoft SQL Server 2019 se terminera le 28 février 2025. Tous les utilisateurs existants de SQL Server 2019 avec Software Assurance seront entièrement pris en charge sur la plateforme, et le logiciel continuera à être maintenu par les mises à jour cumulatives SQL Server jusqu’à ce moment-là. Pour plus d’informations, consultez le billet de blog d’annonce et les Options Big Data sur la plateforme Microsoft SQL Server.

Ce tutoriel explique comment utiliser un script pour charger un exemple de données dans un Clusters de Big Data SQL Server 2019. La plupart des autres tutoriels de la documentation utilisent cet exemple de données.

Conseil

Vous trouverez d’autres exemples pour Clusters de Big Data SQL Server 2019 dans le dépôt GitHub sql-server-samples. Le chemin de ce dépôt est le suivant : sql-server-samples/samples/features/sql-big-data-cluster/.

Prérequis

Charger un exemple de données

Les étapes suivantes utilisent un script d’amorçage pour télécharger une sauvegarde de base de données SQL Server et charger les données dans votre cluster Big Data. Pour faciliter les choses, ces étapes sont réparties en deux sections : Windows et Linux. Si vous souhaitez utiliser le nom d’utilisateur/mot de passe de base comme mécanisme d’authentification, définissez les variables d’environnement AZDATA_USERNAME et AZDATA_PASSWORD avant d’exécuter le script. Dans le cas contraire, le script utilisera l’authentification intégrée pour se connecter à l’instance maître SQL Server et à la passerelle Knox. En outre, le nom DNS doit être spécifié pour les points de terminaison afin d’utiliser l’authentification intégrée.

Windows

Les étapes suivantes décrivent comment utiliser un client Windows pour charger l’exemple de données dans votre cluster Big Data.

  1. Ouvrez une nouvelle invite de commandes Windows.

    Important

    N’utilisez pas Windows PowerShell pour ces étapes. Dans PowerShell, le script échoue car il utilise la version PowerShell de curl.

  2. Utilisez curl pour télécharger le script d’amorçage pour l’exemple de données.

    curl -o bootstrap-sample-db.cmd "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.cmd"
    
  3. Téléchargez le script Transact-SQL bootstrap-sample-db.sql. Ce script est appelé par le script d’amorçage.

    curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
    
  4. Le script d’amorçage nécessite les paramètres positionnels suivants pour votre cluster Big Data :

    Paramètre Description
    <CLUSTER_NAMESPACE> Nom que vous avez donné à votre cluster Big Data.
    <SQL_MASTER_ENDPOINT> Nom DNS ou adresse IP de votre instance maître.
    <KNOX_ENDPOINT> Le nom DNS ou l’adresse IP de la passerelle HDFS/Spark.

    Conseil

    Utilisez kubectl pour rechercher les adresses IP de l’instance maître de SQL Server et de Knox. Exécutez kubectl get svc -n <your-big-data-cluster-name> et examinez les adresses EXTERNAL-IP de l’instance maître (master-svc-external) et de Knox (gateway-svc-external). Le nom par défaut d’un cluster est mssql-cluster.

  5. Exécutez le script d’amorçage.

    .\bootstrap-sample-db.cmd <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
    

Linux

Les étapes suivantes décrivent comment utiliser un client Linux pour charger l’exemple de données dans votre cluster Big Data.

  1. Téléchargez le script d’amorçage et affectez-lui les autorisations d’un exécutable.

    curl -o bootstrap-sample-db.sh "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sh"
    chmod +x bootstrap-sample-db.sh
    
  2. Téléchargez le script Transact-SQL bootstrap-sample-db.sql. Ce script est appelé par le script d’amorçage.

    curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
    
  3. Le script d’amorçage nécessite les paramètres positionnels suivants pour votre cluster Big Data :

    Paramètre Description
    <CLUSTER_NAMESPACE> Nom que vous avez donné à votre cluster Big Data.
    <SQL_MASTER_ENDPOINT> Nom DNS ou adresse IP de votre instance maître.
    <KNOX_ENDPOINT> Le nom DNS ou l’adresse IP de la passerelle HDFS/Spark.

    Conseil

    Utilisez kubectl pour rechercher les adresses IP de l’instance maître de SQL Server et de Knox. Exécutez kubectl get svc -n <your-big-data-cluster-name> et examinez les adresses EXTERNAL-IP de l’instance maître (master-svc-external) et de Knox (gateway-svc-external). Le nom par défaut d’un cluster est mssql-cluster.

  4. Exécutez le script d’amorçage.

    ./bootstrap-sample-db.sh <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
    

Étapes suivantes

Après l’exécution du script d’amorçage., votre cluster Big Data contient les exemples de bases de données et de données HDFS. Les tutoriels suivants utilisent l’exemple de données pour illustrer les fonctionnalités du cluster Big Data :

Virtualisation de données :

Ingestion des données :

Notebooks :