자습서: SQL Server 빅 데이터 클러스터에 샘플 데이터 로드

아티클
03/19/2024

적용 대상: SQL Server 2019(15.x)

중요

Microsoft SQL Server 2019 빅 데이터 클러스터 추가 기능이 사용 중지됩니다. SQL Server 2019 빅 데이터 클러스터에 대한 지원은 2025년 2월 28일에 종료됩니다. Software Assurance를 사용하는 SQL Server 2019의 모든 기존 사용자는 플랫폼에서 완전히 지원되며, 소프트웨어는 지원 종료 시점까지 SQL Server 누적 업데이트를 통해 계속 유지 관리됩니다. 자세한 내용은 공지 블로그 게시물 및 Microsoft SQL Server 플랫폼의 빅 데이터 옵션을 참조하세요.

이 자습서에서는 SQL Server 2019 빅 데이터 클러스터에 샘플 데이터를 로드하여 스크립트를 사용하는 방법을 설명합니다. 설명서의 다른 많은 자습서에서는 이 샘플 데이터를 사용합니다.

팁

sql-server-samples GitHub 리포지토리에서 SQL Server 2019 빅 데이터 클러스터의 추가 샘플을 찾을 수 있습니다. 샘플들은 sql-server-samples/samples/features/sql-big-data-cluster/ 경로에 있습니다.

필수 조건

배포된 빅 데이터 클러스터
빅 데이터 도구
- azdata
- kubectl
- sqlcmd
- curl

샘플 데이터 로드

다음 단계에서는 부트스트랩 스크립트를 사용하여 SQL Server 데이터베이스 Backup을 다운로드하고 빅 데이터 클러스터에 데이터를 로드합니다. 이러한 단계는 간편하게 Windows 및 Linux 섹션으로 구분되어 있습니다. 기본 사용자 이름/비밀번호를 인증 메커니즘으로 사용하려는 경우 스크립트를 실행하기 전에 AZDATA_USERNAME 및 AZDATA_PASSWORD 환경 변수를 설정합니다. 그렇지 않으면 스크립트는 통합 인증을 사용하여 SQL Server 마스터 인스턴스 및 Knox 게이트웨이에 연결합니다. 또한 통합 인증을 사용하려면 끝점에 대해 DNS 이름을 지정해야 합니다.

Windows

다음 단계에서는 Windows 클라이언트를 사용하여 빅 데이터 클러스터에 샘플 데이터를 로드하는 방법을 설명합니다.

Windows에서 새 명령 프롬프트를 엽니다.

중요

이 단계에서는 Windows PowerShell을 사용하지 마세요. PowerShell에서 스크립트는 PowerShell 버전의 curl을 사용하므로 실패합니다.

curl을 사용하여 샘플 데이터에 대한 부트스트랩 스크립트를 다운로드합니다.

curl -o bootstrap-sample-db.cmd "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.cmd"

bootstrap-sample-db.sql Transact-SQL 스크립트를 다운로드합니다. 이 스크립트는 부트스트랩 스크립트에서 호출됩니다.

curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"

부트스트랩 스크립트는 사용자의 빅 데이터 클러스터에 대해 다음과 같은 위치 매개 변수를 필요로 합니다.

매개 변수	설명
<CLUSTER_NAMESPACE>	빅 데이터 클러스터에 부여한 이름입니다.
<SQL_MASTER_ENDPOINT>	사용자의 마스터 인스턴스의 DNS 이름 또는 IP 주소입니다.
<KNOX_ENDPOINT>	HDFS/Spark 게이트웨이의 DNS 이름 또는 IP 주소입니다.

팁

kubectl을 사용하여 SQL Server 마스터 인스턴스 및 Knox에 대한 IP 주소를 찾습니다. 마스터 인스턴스(master-svc-external) 및 Knox(gateway-svc-external)에 대한 EXTERNAL-IP 주소를 확인하고 kubectl get svc -n <your-big-data-cluster-name>을 실행합니다. 클러스터의 기본 이름은 mssql-cluster입니다.

부트스트랩 스크립트를 실행합니다.

.\bootstrap-sample-db.cmd <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>

Linux

다음 단계에서는 Linux 클라이언트를 사용하여 샘플 데이터를 빅 데이터 클러스터에 로드하는 방법을 설명합니다.

부트스트랩 스크립트를 다운로드하고 실행 권한을 할당합니다.

curl -o bootstrap-sample-db.sh "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sh"
chmod +x bootstrap-sample-db.sh

bootstrap-sample-db.sql Transact-SQL 스크립트를 다운로드합니다. 이 스크립트는 부트스트랩 스크립트에서 호출됩니다.

curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"

부트스트랩 스크립트는 사용자의 빅 데이터 클러스터에 대해 다음과 같은 위치 매개 변수를 필요로 합니다.

매개 변수	설명
<CLUSTER_NAMESPACE>	빅 데이터 클러스터에 부여한 이름입니다.
<SQL_MASTER_ENDPOINT>	사용자의 마스터 인스턴스의 DNS 이름 또는 IP 주소입니다.
<KNOX_ENDPOINT>	HDFS/Spark 게이트웨이의 DNS 이름 또는 IP 주소입니다.

팁

부트스트랩 스크립트를 실행합니다.

./bootstrap-sample-db.sh <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>

다음 단계

부트스트랩 스크립트가 실행되면 빅 데이터 클러스터에 샘플 데이터베이스 및 HDFS 데이터가 있습니다. 다음 자습서에서는 샘플 데이터를 사용하여 빅 데이터 클러스터 기능을 보여 줍니다.

데이터 가상화:

데이터 수집:

Notebooks:

자습서: SQL Server 2019 빅 데이터 클러스터에서 샘플 Notebook 실행