AKS의 HDInsight에서 Apache Spark™란? (미리 보기)
Important
이 기능은 현지 미리 보기로 제공됩니다. Microsoft Azure 미리 보기에 대한 보충 사용 약관에는 베타 또는 미리 보기로 제공되거나 아직 일반 공급으로 릴리스되지 않은 Azure 기능에 적용되는 더 많은 약관이 포함되어 있습니다. 이 특정 미리 보기에 대한 자세한 내용은 Azure HDInsight on AKS 미리 보기 정보를 참조하세요. 질문이나 기능 제안이 있는 경우 AskHDInsight에서 세부 정보와 함께 요청을 제출하고 Azure HDInsight 커뮤니티에서 더 많은 업데이트를 확인하세요.
Apache Spark™는 메모리 내 처리를 지원하여 빅 데이터 분석 애플리케이션의 성능을 향상하는 병렬 처리 프레임워크입니다.
Apache Spark™는 메모리 내 클러스터 컴퓨팅을 위한 기본 형식을 제공합니다. Spark 작업은 메모리로 데이터를 로드하고 캐시하여 반복적으로 쿼리할 수 있습니다. 메모리 내 컴퓨팅은 HDFS(Hadoop 분산 파일 시스템)를 통해 데이터를 공유하는 Hadoop 같은 디스크 기반 애플리케이션보다 더 빠릅니다. Apache Spark는 Scala 및 Python 프로그래밍 언어와 통합을 허용하여 로컬 컬렉션과 같은 분산 데이터 세트를 조작할 수 있습니다. 매핑 및 reduce 작업으로 모든 것을 구조화하지 않아도 됩니다.
HDInsight on AKS의 Apache Spark 클러스터
Azure HDInsight는 엔터프라이즈를 위한 관리형의 전체 스펙트럼 오픈 소스 분석 서비스입니다.
Azure HDInsight on AKS의 Apache Spark™는 Microsoft Azure의 관리되는 Spark 서비스입니다. Azure HDInsight on AKS의 Apache Spark를 사용하면 Azure 내에서 데이터를 모두 저장하고 처리할 수 있습니다. HDInsight의 Spark 클러스터는 Azure Data Lake Storage Gen2와 호환되므로 기존 데이터 저장소에 Spark 처리를 적용할 수 있습니다.
HDInsight on AKS용 Apache Spark 프레임워크에서는 메모리 내 처리 기능을 사용하여 데이터 분석 및 클러스터 컴퓨팅을 신속하게 처리할 수 있습니다. Jupyter Notebook을 사용하면 데이터와 상호 작용하고, 코드를 markdown 텍스트와 결합하고, 간단한 시각화를 수행할 수 있습니다.
HDInsight on AKS의 Apache Spark를 Pod인 여러 구성 요소로 구성되어 있습니다.
클러스터 컨트롤러
클러스터 컨트롤러는 각 서비스를 설치 및 관리하는 역할을 담당합니다. 다양한 컨트롤러가 Spark 클러스터에서 설치되어 관리됩니다.
Apache Spark 서비스 구성 요소
Zookeeper 서비스: 3개 노드 Zookeeper 클러스터는 다른 서비스에 대한 분산 코디네이터 또는 고가용성 스토리지 역할을 합니다.
Yarn 서비스: Hadoop Yarn 클러스터, Spark 작업은 클러스터에서 Yarn 애플리케이션으로 예약됩니다.
클라이언트 인터페이스: HDInsight on AKS의 Apache Spark 클러스터에서는 다양한 클라이언트 인터페이스를 제공합니다. Livy Server, Jupyter Notebook, Spark History Server는 HDInsight on AKS 사용자에게 Spark 서비스를 제공합니다.
참조
- Apache, Apache Spark, Spark 및 관련 오픈 소스 프로젝트 이름은 ASF(Apache Software Foundation)의 상표입니다.
피드백
https://aka.ms/ContentUserFeedback
출시 예정: 2024년 내내 콘텐츠에 대한 피드백 메커니즘으로 GitHub 문제를 단계적으로 폐지하고 이를 새로운 피드백 시스템으로 바꿀 예정입니다. 자세한 내용은 다음을 참조하세요.다음에 대한 사용자 의견 제출 및 보기