Share via


AKS의 HDInsight에서 Apache Spark™란? (미리 보기)

Important

이 기능은 현지 미리 보기로 제공됩니다. Microsoft Azure 미리 보기에 대한 보충 사용 약관에는 베타 또는 미리 보기로 제공되거나 아직 일반 공급으로 릴리스되지 않은 Azure 기능에 적용되는 더 많은 약관이 포함되어 있습니다. 이 특정 미리 보기에 대한 자세한 내용은 Azure HDInsight on AKS 미리 보기 정보를 참조하세요. 질문이나 기능 제안이 있는 경우 AskHDInsight에서 세부 정보와 함께 요청을 제출하고 Azure HDInsight 커뮤니티에서 더 많은 업데이트를 확인하세요.

Apache Spark™는 메모리 내 처리를 지원하여 빅 데이터 분석 애플리케이션의 성능을 향상하는 병렬 처리 프레임워크입니다.

Apache Spark™는 메모리 내 클러스터 컴퓨팅을 위한 기본 형식을 제공합니다. Spark 작업은 메모리로 데이터를 로드하고 캐시하여 반복적으로 쿼리할 수 있습니다. 메모리 내 컴퓨팅은 HDFS(Hadoop 분산 파일 시스템)를 통해 데이터를 공유하는 Hadoop 같은 디스크 기반 애플리케이션보다 더 빠릅니다. Apache Spark는 Scala 및 Python 프로그래밍 언어와 통합을 허용하여 로컬 컬렉션과 같은 분산 데이터 세트를 조작할 수 있습니다. 매핑 및 reduce 작업으로 모든 것을 구조화하지 않아도 됩니다.

HDInsight on AKS의 Spark 개요를 보여 주는 다이어그램.

HDInsight on AKS의 Apache Spark 클러스터

Azure HDInsight는 엔터프라이즈를 위한 관리형의 전체 스펙트럼 오픈 소스 분석 서비스입니다.

Azure HDInsight on AKS의 Apache Spark™는 Microsoft Azure의 관리되는 Spark 서비스입니다. Azure HDInsight on AKS의 Apache Spark를 사용하면 Azure 내에서 데이터를 모두 저장하고 처리할 수 있습니다. HDInsight의 Spark 클러스터는 Azure Data Lake Storage Gen2와 호환되므로 기존 데이터 저장소에 Spark 처리를 적용할 수 있습니다.

HDInsight on AKS용 Apache Spark 프레임워크에서는 메모리 내 처리 기능을 사용하여 데이터 분석 및 클러스터 컴퓨팅을 신속하게 처리할 수 있습니다. Jupyter Notebook을 사용하면 데이터와 상호 작용하고, 코드를 markdown 텍스트와 결합하고, 간단한 시각화를 수행할 수 있습니다.

HDInsight on AKS의 Apache Spark를 Pod인 여러 구성 요소로 구성되어 있습니다.

클러스터 컨트롤러

클러스터 컨트롤러는 각 서비스를 설치 및 관리하는 역할을 담당합니다. 다양한 컨트롤러가 Spark 클러스터에서 설치되어 관리됩니다.

Apache Spark 서비스 구성 요소

Zookeeper 서비스: 3개 노드 Zookeeper 클러스터는 다른 서비스에 대한 분산 코디네이터 또는 고가용성 스토리지 역할을 합니다.

Yarn 서비스: Hadoop Yarn 클러스터, Spark 작업은 클러스터에서 Yarn 애플리케이션으로 예약됩니다.

클라이언트 인터페이스: HDInsight on AKS의 Apache Spark 클러스터에서는 다양한 클라이언트 인터페이스를 제공합니다. Livy Server, Jupyter Notebook, Spark History Server는 HDInsight on AKS 사용자에게 Spark 서비스를 제공합니다.

참조