教程：将示例数据加载到 SQL Server 大数据群集中

项目
03/22/2023

适用于： SQL Server 2019 (15.x)

重要

Microsoft SQL Server 2019 大数据群集附加产品将停用。对 SQL Server 2019 大数据群集的支持将于 2025 年 2 月 28 日结束。具有软件保障的 SQL Server 2019 的所有现有用户都将在平台上获得完全支持，在此之前，该软件将继续通过 SQL Server 累积更新进行维护。有关详细信息，请参阅公告博客文章和 Microsoft SQL Server 平台上的大数据选项。

本教程介绍如何使用脚本将示例数据加载到 SQL Server 2019 大数据群集中。文档中的许多其他教程也使用此示例数据。

提示

可在 sql-server-samples GitHub 存储库中找到 SQL Server 2019 大数据群集的其他示例。它们位于 sql-server-samples/samples/features/sql-big-data-cluster/ 路径中。

先决条件

已部署的大数据群集
大数据工具
- azdata
- kubectl
- sqlcmd
- curl

加载示例数据

以下步骤使用启动脚本下载 SQL Server 数据库备份并将数据加载到大数据群集中。为了便于使用，这些步骤已划分为 Windows 和 Linux 部分。若要将基本用户名/密码用作身份验证机制，请先设置 AZDATA_USERNAME 和 AZDATA_PASSWORD 环境变量，再执行脚本。否则，脚本会使用集成身份验证连接到 SQL Server 主实例和 Knox 网关。此外，若要使用集成身份验证，还应为终结点指定 DNS 名称。

Windows

以下步骤介绍如何使用 Windows 客户端将示例数据加载到大数据群集中。

打开新的 Windows 命令提示符。

重要

不要使用 Windows PowerShell 执行这些步骤。在 PowerShell 中，脚本将失败，因为它将使用 PowerShell 的 curl 版本。

使用 curl 下载示例数据的启动脚本。

curl -o bootstrap-sample-db.cmd "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.cmd"

下载 bootstrap-sample-db.sql Transact-SQL 脚本。此脚本由启动脚本调用。

curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"

启动脚本需要大数据群集的以下位置参数：

参数	说明
<CLUSTER_NAMESPACE>	为大数据群集提供的名称。
<SQL_MASTER_ENDPOINT>	主实例的 DNS 名称或 IP 地址。
<KNOX_ENDPOINT>	HDFS/Spark 网关的 DNS 名称或 IP 地址。

提示

使用 kubectl 查找 SQL Server 主实例和 Knox 的 IP 地址。运行 kubectl get svc -n <your-big-data-cluster-name> 并查看主实例 (master-svc-external) 和 Knox (gateway-svc-external) 的外部 IP 地址。群集的默认名称为 mssql-cluster。

运行启动脚本。

.\bootstrap-sample-db.cmd <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>

Linux

以下步骤介绍如何使用 Linux 客户端将示例数据加载到大数据群集中。

下载启动脚本并为其分配可执行权限。

curl -o bootstrap-sample-db.sh "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sh"
chmod +x bootstrap-sample-db.sh

下载 bootstrap-sample-db.sql Transact-SQL 脚本。此脚本由启动脚本调用。

curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"

启动脚本需要大数据群集的以下位置参数：

参数	说明
<CLUSTER_NAMESPACE>	为大数据群集提供的名称。
<SQL_MASTER_ENDPOINT>	主实例的 DNS 名称或 IP 地址。
<KNOX_ENDPOINT>	HDFS/Spark 网关的 DNS 名称或 IP 地址。

提示

运行启动脚本。

./bootstrap-sample-db.sh <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>

后续步骤

运行启动脚本后，大数据群集具有示例数据库和 HDFS 数据。以下教程使用示例数据来演示大数据群集功能：

数据虚拟化：

数据引入：

笔记本：

教程：在 SQL Server 2019 大数据群集上运行示例笔记本