SQL Server 빅 데이터 클러스터 소개

적용 대상: SQL Server 2019(15.x)

중요

Microsoft SQL Server 2019 빅 데이터 클러스터 추가 기능이 사용 중지됩니다. SQL Server 2019 빅 데이터 클러스터에 대한 지원은 2025년 2월 28일에 종료됩니다. Software Assurance를 사용하는 SQL Server 2019의 모든 기존 사용자는 플랫폼에서 완전히 지원되며, 소프트웨어는 지원 종료 시점까지 SQL Server 누적 업데이트를 통해 계속 유지 관리됩니다. 자세한 내용은 공지 블로그 게시물Microsoft SQL Server 플랫폼의 빅 데이터 옵션을 참조하세요.

SQL Server 2019(15.x)에서 SQL Server 빅 데이터 클러스터에서는 Kubernetes에서 실행되는 SQL Server, Spark 및 HDFS 컨테이너의 스케일링 가능한 클러스터를 배포할 수 있습니다. 이러한 구성 요소는 동시에 실행되므로 Transact-SQL 또는 Spark에서 빅 데이터 읽기, 쓰기 및 처리할 수 있으며, 대용량의 빅 데이터를 사용하여 가치 높은 관계형 데이터를 쉽게 조합하고 분석할 수 있습니다.

시작하기

빅 데이터 클러스터 아키텍처

다음 다이어그램은 SQL Server 빅 데이터 클러스터의 구성 요소를 보여줍니다.

Big data clusters architecture overview

컨트롤러

컨트롤러는 클러스터에 대한 관리 및 보안을 제공합니다. 여기에는 컨트롤 서비스, 구성 저장소 및 기타 클러스터 수준 서비스(예: Kibana, Grafana, 탄력적 검색)가 포함됩니다.

풀 컴퓨팅

컴퓨팅 풀은 클러스터에 컴퓨팅 리소스를 제공합니다. 여기에는 SQL Server on Linux pod를 실행하는 노드가 포함됩니다. 컴퓨팅 풀의 Pod는 특정 처리 작업을 위한 SQL 컴퓨팅 인스턴스로 나뉩니다.

데이터 풀

데이터 풀은 데이터 지속성에 사용됩니다. 데이터 풀은 Linux에서 SQL Server를 실행하는 하나 이상의 pod로 구성됩니다. SQL 쿼리 또는 Spark 작업에서 데이터를 수집하는 데 사용됩니다.

스토리지 풀

스토리지 풀은 Linux의 SQL Server, Spark 및 HDFS로 이루어진 스토리지 풀 pod로 구성됩니다. SQL Server 빅 데이터 클러스터의 모든 스토리지 노드는 HDFS 클러스터의 멤버입니다.

빅 데이터 클러스터 아키텍처 및 설치를 자세히 알아보려면 워크숍: Microsoft SQL Server 빅 데이터 클러스터 아키텍처를 참조하세요.

앱 풀

애플리케이션 배포는 애플리케이션을 만들고 관리 및 실행하기 위한 인터페이스를 제공하여 SQL Server 빅 데이터 클러스터에 애플리케이션을 배포할 수 있도록 합니다.

시나리오 및 기능

SQL Server 빅 데이터 클러스터는 빅 데이터와 상호 작용하는 유연한 방법을 제공합니다. 외부 데이터 원본을 쿼리하거나, SQL Server에서 관리하는 HDFS에 빅 데이터를 저장하거나, 클러스터를 통해 여러 외부 데이터 원본에서 데이터를 쿼리할 수 있습니다. 그다음 AI, 기계 학습 및 기타 분석 작업에 데이터를 사용할 수 있습니다.

SQL Server 빅 데이터 클러스터를 사용하여 다음을 수행합니다.

  • Kubernetes에서 실행되는 SQL Server, Spark 및 HDFS 컨테이너의 확장 가능한 클러스터를 배포합니다.
  • Transact-SQL 또는 Spark에서 빅 데이터 읽기, 쓰기 및 처리
  • 고부가가치 관계형 데이터를 대용량 빅 데이터와 쉽게 결합하고 분석합니다.
  • 외부 데이터 원본을 쿼리합니다.
  • SQL Server에서 관리하는 HDFS에 빅 데이터를 저장합니다.
  • 클러스터를 통해 여러 외부 데이터 원본에서 데이터 쿼리
  • AI, 기계 학습 및 기타 분석 작업에 데이터 사용
  • 빅 데이터 클러스터에서 애플리케이션 배포 및 실행
  • PolyBase를 사용하여 데이터를 가상화합니다. 외부 테이블을 사용하여 외부 SQL Server, Oracle, Teradata, MongoDB 및 일반 ODBC 데이터 원본의 데이터를 쿼리합니다.
  • Always On 가용성 그룹 기술을 사용하여 SQL Server 마스터 인스턴스 및 모든 데이터베이스에 대해 고가용성을 제공합니다.

다음 섹션에서는 이러한 시나리오에 대한 자세한 정보를 제공합니다.

데이터 가상화

PolyBase를 활용하므로 SQL Server 빅 데이터 클러스터는 데이터를 이동하거나 복사하지 않고도 외부 데이터 원본을 쿼리할 수 있습니다. SQL Server 2019(15.x)에는 데이터 원본에 대한 새로운 커넥터가 추가되었습니다. 자세한 내용은 PolyBase 2019의 새로운 기능을 참조하세요.

Data virtualization

데이터 레이크

SQL Server 빅 데이터 클러스터에는 확장 가능한 HDFS 스토리지 풀이 포함되어 있습니다. 이는 여러 외부 원본에서 수집될 수 있는 빅 데이터를 저장하는 데 사용할 수 있습니다. 빅 데이터가 빅 데이터 클러스터의 HDFS에 저장되면 데이터를 분석 및 쿼리하고 관계형 데이터와 결합할 수 있습니다.

Data lake

통합 AI 및 Machine Learning

SQL Server 빅 데이터 클러스터는 HDFS 스토리지 풀 및 데이터 풀에 저장된 데이터에 대해 AI 및 Machine Learning 작업을 지원합니다. R, Python, Scala 또는 Java를 사용하여 SQL Server에서 Spark 및 기본 제공 AI 도구를 사용할 수 있습니다.

AI and ML

관리 및 모니터링

관리 및 모니터링은 명령줄 도구, API, 포털 및 동적 관리 뷰를 조합하여 제공됩니다.

Azure Data Studio를 사용하여 빅 데이터 클러스터에서 다양한 작업을 수행할 수 있습니다.

  • 일반적인 관리 작업에 대한 기본 제공 코드 조각입니다.
  • HDFS를 찾아보고, 파일을 업로드하고, 파일을 미리 보고, 디렉터리를 만드는 기능
  • Jupyter 호환 Notebook을 만들고, 열고, 실행할 수 있습니다.
  • 외부 데이터 원본(데이터 가상화 확장으로 사용 설정)만들기를 간소화하기 위한 데이터 가상화 마법사

Kubernetes 개념

SQL Server 빅 데이터 클러스터는 Kubernetes에서 오케스트레이션된 Linux 컨테이너의 클러스터입니다.

Kubernetes는 필요에 따라 컨테이너 배포의 크기를 조정할 수 있는 오픈 소스 컨테이너 오케스트레이터입니다. 다음 표에서는 몇 가지 중요한 Kubernetes 용어를 정의합니다.

용어 설명
Cluster Kubernetes 클러스터는 노드라고 하는 컴퓨터 집합입니다. 하나의 노드가 클러스터를 제어하고 마스터 노드로 지정됩니다. 나머지 노드는 작업자 노드입니다. Kubernetes 마스터는 작업자 간에 작업을 분산하고 클러스터의 상태를 모니터링하는 일을 담당합니다.
Node 노드는 컨테이너화된 애플리케이션을 실행합니다. 물리적 컴퓨터 또는 VM(가상 컴퓨터)일 수 있습니다. Kubernetes 클러스터에는 물리적 컴퓨터와 가상 컴퓨터 노드가 혼합되어 포함될 수 있습니다.
Pod Pod는 Kubernetes의 원자성 배포 단위입니다. Pod는 애플리케이션을 실행하는 데 필요한 하나 이상의 컨테이너 및 연결된 리소스의 논리적 그룹입니다. 각 Pod는 노드에서 실행됩니다. 노드는 하나 이상의 Pod를 실행할 수 있습니다. Kubernetes 마스터는 클러스터의 노드에 Pod를 자동으로 할당합니다.

SQL Server 빅 데이터 클러스터에서 Kubernetes는 클러스터의 상태를 처리합니다. Kubernetes는 클러스터 노드를 빌드 및 구성하고, 노드에 Pod를 할당하고, 클러스터의 상태를 모니터링합니다.

다음 단계

자세한 정보

관련 기술에 대한 모듈을 알아봅니다.