Tutorial: Carga de datos de ejemplo en un clúster de macrodatos de SQL Server.

Se aplica a: síSQL Server 2019 (15.x)

En este tutorial se explica cómo usar un script para cargar datos de ejemplo en un Clústeres de macrodatos de SQL Server 2019. Muchos de los otros tutoriales de la documentación usan estos datos de ejemplo.

Sugerencia

Puede encontrar más ejemplos para el Clústeres de macrodatos de SQL Server 2019 en el repositorio de GitHub sql-server-samples. Se encuentran en la ruta de acceso sql-server-samples/samples/features/sql-big-data-cluster/.

Prerrequisitos

Carga de los datos de ejemplo

En los pasos siguientes se usa un script de arranque para descargar una copia de seguridad de base de datos de SQL Server y cargar los datos en el clúster de macrodatos. Para facilitar su uso, estos pasos se han dividido en las secciones de Windows y Linux. Si desea usar el nombre de usuario y la contraseña básicos como mecanismo de autenticación, establezca las variables de entorno AZDATA_USERNAME y AZDATA_PASSWORD antes de ejecutar el script. De lo contrario, el script usará la autenticación integrada para conectarse a la instancia maestra de SQL Server y a la puerta de enlace Knox. Además, se debe especificar el nombre DNS de los puntos de conexión con el fin de usar la autenticación integrada.

Windows

En los pasos siguientes se describe cómo usar un cliente Windows para cargar los datos de ejemplo en el clúster de macrodatos.

  1. Abra un nuevo símbolo del sistema de Windows.

    Importante

    No use Windows PowerShell para realizar estos pasos. En PowerShell, el script producirá un error, ya que usará la versión de PowerShell de curl.

  2. Use curl para descargar el script de arranque de los datos de ejemplo.

    curl -o bootstrap-sample-db.cmd "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.cmd"
    
  3. Descargue el script de Transact-SQL bootstrap-sample-db.sql. El script de arranque llama a este script.

    curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
    
  4. El script de arranque requiere los siguientes parámetros posicionales para el clúster de macrodatos:

    Parámetro Descripción
    <CLUSTER_NAMESPACE> Nombre que ha asignado al clúster de macrodatos.
    <SQL_MASTER_ENDPOINT> El nombre DNS o la dirección IP de la instancia maestra.
    <KNOX_ENDPOINT> El nombre DNS o la dirección IP de la puerta de enlace de HDFS/Spark.

    Sugerencia

    Use kubectl para buscar las direcciones IP de la instancia maestra de SQL Server y Knox. Ejecute kubectl get svc -n <your-big-data-cluster-name> y busque la instancia maestra (master-svc-external) y Knox (gateway-svc-external) en las direcciones de EXTERNAL-IP. El nombre predeterminado de un clúster es mssql-cluster.

  5. Ejecute el script de arranque.

    .\bootstrap-sample-db.cmd <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
    

Linux

En los pasos siguientes se describe cómo usar un cliente Linux para cargar los datos de ejemplo en el clúster de macrodatos.

  1. Descargue el script de arranque y asígnele permisos de ejecutable.

    curl -o bootstrap-sample-db.sh "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sh"
    chmod +x bootstrap-sample-db.sh
    
  2. Descargue el script de Transact-SQL bootstrap-sample-db.sql. El script de arranque llama a este script.

    curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
    
  3. El script de arranque requiere los siguientes parámetros posicionales para el clúster de macrodatos:

    Parámetro Descripción
    <CLUSTER_NAMESPACE> Nombre que ha asignado al clúster de macrodatos.
    <SQL_MASTER_ENDPOINT> El nombre DNS o la dirección IP de la instancia maestra.
    <KNOX_ENDPOINT> El nombre DNS o la dirección IP de la puerta de enlace de HDFS/Spark.

    Sugerencia

    Use kubectl para buscar las direcciones IP de la instancia maestra de SQL Server y Knox. Ejecute kubectl get svc -n <your-big-data-cluster-name> y busque la instancia maestra (master-svc-external) y Knox (gateway-svc-external) en las direcciones de EXTERNAL-IP. El nombre predeterminado de un clúster es mssql-cluster.

  4. Ejecute el script de arranque.

    ./bootstrap-sample-db.sh <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
    

Pasos siguientes

Una vez que se ejecute el script de arranque, el clúster de macrodatos tiene las bases de datos de ejemplo y los datos de HDFS. En los siguientes tutoriales se usan los datos de ejemplo para mostrar las capacidades de los clústeres de macrodatos:

Virtualización de datos:

Ingesta de datos:

Cuadernos: