教程:将示例数据加载到 SQL Server 大数据群集中

适用于: SQL Server 2019 (15.x)

重要

Microsoft SQL Server 2019 大数据群集附加产品将停用。 对 SQL Server 2019 大数据群集的支持将于 2025 年 2 月 28 日结束。 具有软件保障的 SQL Server 2019 的所有现有用户都将在平台上获得完全支持,在此之前,该软件将继续通过 SQL Server 累积更新进行维护。 有关详细信息,请参阅公告博客文章Microsoft SQL Server 平台上的大数据选项

本教程介绍如何使用脚本将示例数据加载到 SQL Server 2019 大数据群集 中。 文档中的许多其他教程也使用此示例数据。

提示

可在 sql-server-samples GitHub 存储库中找到 SQL Server 2019 大数据群集 的其他示例。 它们位于 sql-server-samples/samples/features/sql-big-data-cluster/ 路径中。

先决条件

加载示例数据

以下步骤使用启动脚本下载 SQL Server 数据库备份并将数据加载到大数据群集中。 为了便于使用,这些步骤已划分为 WindowsLinux 部分。 若要将基本用户名/密码用作身份验证机制,请先设置 AZDATA_USERNAME 和 AZDATA_PASSWORD 环境变量,再执行脚本。 否则,脚本会使用集成身份验证连接到 SQL Server 主实例和 Knox 网关。 此外,若要使用集成身份验证,还应为终结点指定 DNS 名称。

Windows

以下步骤介绍如何使用 Windows 客户端将示例数据加载到大数据群集中。

  1. 打开新的 Windows 命令提示符。

    重要

    不要使用 Windows PowerShell 执行这些步骤。 在 PowerShell 中,脚本将失败,因为它将使用 PowerShell 的 curl 版本。

  2. 使用 curl 下载示例数据的启动脚本。

    curl -o bootstrap-sample-db.cmd "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.cmd"
    
  3. 下载 bootstrap-sample-db.sql Transact-SQL 脚本。 此脚本由启动脚本调用。

    curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
    
  4. 启动脚本需要大数据群集的以下位置参数:

    参数 说明
    <CLUSTER_NAMESPACE> 为大数据群集提供的名称。
    <SQL_MASTER_ENDPOINT> 主实例的 DNS 名称或 IP 地址。
    <KNOX_ENDPOINT> HDFS/Spark 网关的 DNS 名称或 IP 地址。

    提示

    使用 kubectl 查找 SQL Server 主实例和 Knox 的 IP 地址。 运行 kubectl get svc -n <your-big-data-cluster-name> 并查看主实例 (master-svc-external) 和 Knox (gateway-svc-external) 的外部 IP 地址。 群集的默认名称为 mssql-cluster

  5. 运行启动脚本。

    .\bootstrap-sample-db.cmd <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
    

Linux

以下步骤介绍如何使用 Linux 客户端将示例数据加载到大数据群集中。

  1. 下载启动脚本并为其分配可执行权限。

    curl -o bootstrap-sample-db.sh "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sh"
    chmod +x bootstrap-sample-db.sh
    
  2. 下载 bootstrap-sample-db.sql Transact-SQL 脚本。 此脚本由启动脚本调用。

    curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
    
  3. 启动脚本需要大数据群集的以下位置参数:

    参数 说明
    <CLUSTER_NAMESPACE> 为大数据群集提供的名称。
    <SQL_MASTER_ENDPOINT> 主实例的 DNS 名称或 IP 地址。
    <KNOX_ENDPOINT> HDFS/Spark 网关的 DNS 名称或 IP 地址。

    提示

    使用 kubectl 查找 SQL Server 主实例和 Knox 的 IP 地址。 运行 kubectl get svc -n <your-big-data-cluster-name> 并查看主实例 (master-svc-external) 和 Knox (gateway-svc-external) 的外部 IP 地址。 群集的默认名称为 mssql-cluster

  4. 运行启动脚本。

    ./bootstrap-sample-db.sh <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
    

后续步骤

运行启动脚本后,大数据群集具有示例数据库和 HDFS 数据。 以下教程使用示例数据来演示大数据群集功能:

数据虚拟化:

数据引入:

笔记本: