자습서: SQL Server 빅 데이터 클러스터에 샘플 데이터 로드

적용 대상: 예SQL Server 2019 (15.x)

이 자습서에서는 스크립트를 사용하여 SQL Server 2019 빅 데이터 클러스터에 샘플 데이터를 로드하는 방법을 설명합니다. 설명서의 다른 자습서는 대부분은 이 샘플 데이터를 사용합니다.

sql-server-samples GitHub 리포지토리에서 SQL Server 2019 빅 데이터 클러스터의 추가 샘플을 찾을 수 있습니다. 샘플은 sql-server-samples/samples/features/sql-big-data-cluster/ 경로에 있습니다.

사전 요구 사항

샘플 데이터 로드

다음 단계에서는 부트스트랩 스크립트를 사용하여 SQL Server 데이터베이스 백업을 다운로드하고 빅 데이터 클러스터에 데이터를 로드합니다. 이러한 단계는 간편하게 WindowsLinux 섹션으로 구분되어 있습니다. 기본 사용자 이름/암호를 인증 메커니즘으로 사용하려면 스크립트를 실행하기 전에 AZDATA_USERNAME 및 AZDATA_PASSWORD 환경 변수를 설정합니다. 그러지 않으면 스크립트는 통합 인증을 사용하여 SQL Server 마스터 인스턴스 및 Knox 게이트웨이에 연결합니다. 또한 통합 인증을 사용하기 위해 엔드포인트에 DNS 이름을 지정해야 합니다.

Windows

다음 단계에서는 Windows 클라이언트를 사용하여 빅 데이터 클러스터에 샘플 데이터를 로드하는 방법을 설명합니다.

  1. 새 Windows 명령 프롬프트를 엽니다.

    중요

    Windows PowerShell에서 이 단계를 수행하면 안 됩니다. PowerShell에서는 스크립트가 PowerShell 버전의 curl 을 사용하기 때문에 오류가 발생합니다.

  2. curl 을 사용하여 샘플 데이터의 부트스트랩 스크립트를 다운로드합니다.

    curl -o bootstrap-sample-db.cmd "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.cmd"
    
  3. bootstrap-sample-db.sql Transact-SQL 스크립트를 다운로드합니다. 이 스크립트는 부트스트랩 스크립트에서 호출됩니다.

    curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
    
  4. 부트스트랩 스크립트에는 빅 데이터 클러스터에 대한 다음과 같은 위치 매개 변수가 필요합니다.

    매개 변수 설명
    <CLUSTER_NAMESPACE> 빅 데이터 클러스터에 지정한 이름입니다.
    <SQL_MASTER_ENDPOINT> 마스터 인스턴스의 DNS 이름 또는 IP 주소입니다.
    <KNOX_ENDPOINT> HDFS/Spark 게이트웨이의 DNS 이름 또는 IP 주소입니다.

    kubectl을 사용하여 SQL Server 마스터 인스턴스 및 Knox의 IP 주소를 찾습니다. kubectl get svc -n <your-big-data-cluster-name>을 실행하고 마스터 인스턴스(master-svc-external) 및 Knox(gateway-svc-external)의 EXTERNAL-IP 주소를 확인합니다. 클러스터의 기본 이름은 mssql-cluster 입니다.

  5. 부트스트랩 스크립트를 실행합니다.

    .\bootstrap-sample-db.cmd <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
    

Linux

다음 단계에서는 Linux 클라이언트를 사용하여 빅 데이터 클러스터에 샘플 데이터를 로드하는 방법을 설명합니다.

  1. 부트스트랩 스크립트를 다운로드하고 이 스크립트에 실행 파일 권한을 할당합니다.

    curl -o bootstrap-sample-db.sh "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sh"
    chmod +x bootstrap-sample-db.sh
    
  2. bootstrap-sample-db.sql Transact-SQL 스크립트를 다운로드합니다. 이 스크립트는 부트스트랩 스크립트에서 호출됩니다.

    curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
    
  3. 부트스트랩 스크립트에는 빅 데이터 클러스터에 대한 다음과 같은 위치 매개 변수가 필요합니다.

    매개 변수 설명
    <CLUSTER_NAMESPACE> 빅 데이터 클러스터에 지정한 이름입니다.
    <SQL_MASTER_ENDPOINT> 마스터 인스턴스의 DNS 이름 또는 IP 주소입니다.
    <KNOX_ENDPOINT> HDFS/Spark 게이트웨이의 DNS 이름 또는 IP 주소입니다.

    kubectl을 사용하여 SQL Server 마스터 인스턴스 및 Knox의 IP 주소를 찾습니다. kubectl get svc -n <your-big-data-cluster-name>을 실행하고 마스터 인스턴스(master-svc-external) 및 Knox(gateway-svc-external)의 EXTERNAL-IP 주소를 확인합니다. 클러스터의 기본 이름은 mssql-cluster 입니다.

  4. 부트스트랩 스크립트를 실행합니다.

    ./bootstrap-sample-db.sh <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
    

다음 단계

부트스트랩 스크립트 실행이 완료되면 빅 데이터 클러스터에 샘플 데이터베이스와 HDFS 데이터가 있습니다. 다음 자습서에서는 샘플 데이터를 사용하여 빅 데이터 클러스터 기능을 보여 줍니다.

데이터 가상화:

데이터 수집:

Notebook: