Azure Synapse Data Explorer란? (미리 보기)

아티클
09/25/2023

Azure Synapse Data Explorer는 로그 및 원격 분석 데이터를 통해 인사이트를 확보할 수 있는 대화형 쿼리 환경을 고객에게 제공합니다. 기존 SQL 및 Apache Spark 분석 런타임 엔진을 보완하기 위해 Data Explorer 분석 런타임은 강력한 인덱싱 기술을 사용하여 효율적인 로그 분석에 최적화되어 원격 분석 데이터에서 일반적으로 제공되는 자유 텍스트 및 반구조적 데이터를 자동으로 인덱싱합니다.

Diagram showing the Azure Synapse architecture.

자세한 내용은 다음 동영상을 참조하세요.

Azure Synapse Data Explorer만의 특성은 무엇인가요?

간편한 수집 - Data Explorer는 코드 없음/낮은 코드, 높은 처리량의 데이터 수집 및 실시간 원본으로부터의 데이터 캐싱을 위한 통합을 기본 제공합니다. Azure Event Hubs, Kafka, Azure Data Lake, 오픈 소스 에이전트(예: Fluentd/Fluent Bit), 다양한 클라우드 및 온-프레미스 데이터 원본과 같은 원본에서 데이터를 수집할 수 있습니다.
복잡한 데이터 모델링 없음 - Data Explorer를 사용하면 복잡한 데이터 모델을 빌드할 필요가 없으며, 데이터를 소비하기 전에 복잡한 스크립팅을 사용하여 데이터를 변환할 필요가 없습니다.
인덱스 유지 관리 없음 - 쿼리 성능 향상을 목적으로 데이터를 최적화하기 위한 유지 관리 작업이 필요하지 않으며 인덱스 유지 관리가 필요하지 않습니다. Data Explorer를 사용하면 모든 원시 데이터를 즉시 사용할 수 있어 스트리밍 및 영구 데이터에 대해 성능 및 동시성이 높은 쿼리를 실행할 수 있습니다. 이러한 쿼리를 사용하여 거의 실시간에 가까운 대시보드 및 경고를 빌드하고 운영 분석 데이터를 나머지 데이터 분석 플랫폼과 연결할 수 있습니다.
데이터 분석 보편화 - Data Explorer는 SQL의 표현력과 강력한 기능에 Excel의 단순성을 더해주는 직관적인 KQL(Kusto 쿼리 언어)을 사용하여 셀프 서비스 빅 데이터 분석을 보편화합니다. KQL은 효율적인 자유 텍스트 및 regex 검색을 위한 업계 최고의 Data Explorer 텍스트 인덱싱 기술과 배열 및 중첩 구조를 포함한 traces\text 데이터 및 JSON 반구조적 데이터를 쿼리하는 포괄적인 구문 분석 기능을 활용하여 원시 원격 분석 및 시계열 데이터를 탐색하는 데 고도로 최적화되어 있습니다. KQL은 모델 채점용 엔진 내 Python 실행 지원을 통해 여러 시계열을 생성, 조작, 분석하기 위한 고급 시계열 지원을 제공합니다.
페타바이트 규모의 입증된 기술 - Data Explorer는 독립적으로 스케일 인할 수 있는 컴퓨팅 리소스 및 스토리지가 있는 분산 시스템으로, 기가바이트 또는 페타바이트 단위의 데이터를 분석할 수 있습니다.
통합 - Azure Synapse Analytics는 데이터 엔지니어, 데이터 과학자 및 데이터 분석가가 데이터 레이크의 동일한 데이터에 쉽고 안전하게 액세스하고 그를 이용해 협업할 수 있도록 Data Explorer, Apache Spark 및 SQL 엔진 사이의 데이터 간 상호 운용성을 제공합니다.

Azure Synapse Data Explorer를 사용하는 경우

거의 실시간으로 로그 분석 및 IoT 분석 솔루션을 빌드하기 위한 데이터 플랫폼으로 Data Explorer를 사용하여 다음을 수행합니다.

온-프레미스, 클라우드, 타사 데이터 원본에서 로그 및 이벤트 데이터를 통합하고 상관 관계를 설정합니다.
AI Ops 경험(패턴 인식, 변칙 검색, 예측 등)을 가속화합니다.
인프라 기반 로그 검색 솔루션을 대체하여 비용을 절감하고 생산성을 높입니다.
IoT 데이터를 위한 IoT 분석 솔루션을 빌드합니다.
분석 SaaS 솔루션을 빌드하여 내부 및 외부 고객에게 서비스를 제공합니다.

Data Explorer 풀 아키텍처

Data Explorer 풀은 컴퓨팅 리소스와 스토리지 리소스를 분리하여 스케일 아웃 아키텍처를 구현합니다. 이를 통해 각 리소스의 규모를 독립적으로 조정하고, 예를 들어, 동일한 데이터에 대해 여러 읽기 전용 컴퓨팅을 실행할 수 있습니다. 데이터 탐색기 풀은 자동 인덱싱, 압축, 캐싱 및 분산 쿼리 제공을 담당하는 엔진을 실행하는 일련의 컴퓨팅 리소스로 구성됩니다. 또한 백그라운드 시스템 작업과 관리되는 데이터 및 큐에 대기 중인 데이터 수집을 담당하는 데이터 관리 서비스를 실행하는 두 번째 컴퓨팅 집합도 있습니다. 모든 데이터는 압축된 열 형식을 사용하여 관리되는 Blob Storage 계정에 유지됩니다.

Data Explorer 풀은 커넥터, SDK, REST API 및 기타 관리되는 기능을 사용하여 데이터를 수집하는 데 도움이 되는 풍부한 에코시스템을 지원합니다. 임시 쿼리, 보고서, 대시보드, 경고, REST API 및 SDK의 데이터를 사용하는 다양한 방법을 제공합니다.

Data Explorer pools architecture

Data Explorer에는 Azure에서 로그 및 시계열 분석을 수행하기에 가장 적합한 분석 엔진이 Data Explorer임을 알 수 있는 고유한 기능이 많이 있습니다.

다음 섹션에서는 주요 차별화 요인을 중점적으로 살펴봅니다.

자유 텍스트 및 반구조화된 데이터 인덱싱을 사용하면 거의 실시간으로 성능 및 동시성이 높은 쿼리를 사용할 수 있습니다.

데이터 탐색기는 반구조화된 데이터(JSON)와 구조화되지 않은 데이터(자유 텍스트)를 인덱스화하여 실행 중인 쿼리가 이러한 형식의 데이터에 대해 잘 수행되도록 합니다. 기본적으로 모든 필드는 낮은 수준의 인코딩 정책을 사용하여 특정 필드에 대한 인덱스를 미세 조정 또는 사용하지 않도록 설정할 수 있는 옵션을 통해 데이터 수집 중에 인덱싱됩니다. 인덱스의 범위는 단일 데이터 분할입니다.

인덱스의 구현은 다음과 같이 필드의 형식에 따라 달라집니다.

필드 유형	인덱싱 구현
String	엔진은 문자열 열 값에 대해 반전된 용어 인덱스를 작성합니다. 각 문자열 값은 분석되어 정규화된 용어로 분할되며, 순서가 지정된 논리적 위치 목록(레코드 서수 포함)이 각 용어별로 기록됩니다. 정렬된 용어 목록 결과와 해당 위치는 변경 불가능한 B-트리로 저장됩니다.
숫자 DateTime TimeSpan	엔진은 단순한 범위 기반 포워드 인덱스를 작성합니다. 인덱스는 각 블록, 블록 그룹 및 데이터 분할 내 전체 열에 대한 최소/최대값을 기록합니다.
동적	수집 프로세스는 속성 이름, 값 및 배열 요소와 같은 동적 값 내의 모든 "atomic" 요소를 열거하고 인덱스 작성기로 전달합니다. 동적 필드는 문자열 필드와 동일한 반전된 용어 인덱스입니다.

이러한 효율적인 인덱싱 기능을 사용하면 Data Explorer에서 성능 및 동시성이 높은 쿼리에 거의 실시간으로 데이터를 사용할 수 있습니다. 이 시스템은 데이터 분할을 자동으로 최적화하여 성능을 더욱 향상시킵니다.

Kusto 쿼리 언어

KQL에는 Azure Monitor Log Analytics 및 Application Insights, Microsoft Sentinel, Azure Data Explore 및 기타 Microsoft 제품을 빠르게 채택하여 성장하고 있는 대규모 커뮤니티가 있습니다. 읽기 쉬운 구문으로 잘 설계된 이 언어는 간단한 한 줄짜리에서 복잡한 데이터 처리 쿼리로 원활하게 전환할 수 있습니다. 이를 통해 Data Explorer는 다양한 Intellisense 지원과 다양한 언어 구문 및 원격 분석 데이터의 신속한 탐색을 위해 SQL에서는 사용할 수 없는 집계, 시계열 및 사용자 분석 기능을 기본 제공합니다.