Share via


AKS의 HDInsight에서 Spark 클러스터 만들기(미리 보기)

Important

이 기능은 현지 미리 보기로 제공됩니다. Microsoft Azure 미리 보기에 대한 보충 사용 약관에는 베타 또는 미리 보기로 제공되거나 아직 일반 공급으로 릴리스되지 않은 Azure 기능에 적용되는 더 많은 약관이 포함되어 있습니다. 이 특정 미리 보기에 대한 자세한 내용은 Azure HDInsight on AKS 미리 보기 정보를 참조하세요. 질문이나 기능 제안이 있는 경우 AskHDInsight에서 세부 정보와 함께 요청을 제출하고 Azure HDInsight 커뮤니티에서 더 많은 업데이트를 확인하세요.

구독 필수 구성 요소리소스 필수 구성 요소 단계가 완료되고 클러스터 풀이 배포되면 Azure Portal을 사용하여 Spark 클러스터를 계속 만듭니다. Azure Portal을 사용하여 클러스터 풀에서 Apache Spark 클러스터를 만들 수 있습니다. 그런 다음, Jupyter Notebook을 만들고 사용하여 Apache Hive 테이블에 대해 Spark SQL 쿼리를 실행할 수 있습니다.

  1. Azure Portal에서 클러스터 풀을 입력하고 클러스터 풀을 선택하여 클러스터 풀 페이지로 이동합니다. 클러스터 풀 페이지에서 새 Spark 클러스터를 추가할 수 있는 클러스터 풀을 선택합니다.

  2. 특정 클러스터 풀 페이지에서 + 새 클러스터를 클릭합니다.

    새 Spark 클러스터를 만드는 방법을 보여 주는 스크린샷.

    이 단계에서는 클러스터 만들기 페이지를 엽니다.

    클러스터 기본 만들기 페이지를 보여 주는 스크린샷.

    속성 Description
    Subscription 미리 채워진 필수 구성 요소 섹션의 HDInsight on AKS와 함께 사용하기 위해 등록된 Azure 구독
    리소스 그룹 클러스터 풀과 동일한 리소스 그룹이 미리 채워집니다.
    지역 클러스터 풀 및 가상과 동일한 리전이 미리 채워집니다.
    클러스터 풀 클러스터 풀 이름이 미리 채워집니다.
    HDInsight 풀 버전 클러스터 풀 버전은 풀 만들기 선택에서 미리 채워집니다.
    HDInsight on AKS 버전 HDI on AKS 버전을 지정합니다.
    클러스터 유형 드롭다운 목록에서 Spark를 선택합니다.
    클러스터 버전 사용할 이미지 버전의 버전을 선택합니다.
    클러스터 이름 새 클러스터 이름을 입력합니다.
    사용자 할당 관리 ID 스토리지에서 연결 문자열로 작동할 사용자가 할당한 관리 ID를 선택합니다.
    스토리지 계정 클러스터의 기본 스토리지로 사용할 미리 만든 스토리지 계정을 선택합니다.
    컨테이너 이름 미리 만든 경우 컨테이너 이름(고유)을 선택하거나 새 컨테이너를 만듭니다.
    Hive 카탈로그(선택 사항) 미리 만든 Hive 메타스토어(Azure SQL DB)를 선택합니다.
    Hive용 SQL Database 드롭다운 목록에서 hive-metastore 테이블을 추가할 SQL Database를 선택합니다.
    SQL 관리자 사용자 이름 SQL 관리자 사용자 이름을 입력합니다.
    주요 자격 증명 모음 드롭다운 목록에서 SQL 관리 사용자 이름의 암호와 함께 비밀이 포함된 Key Vault를 선택합니다.
    SQL 암호 비밀 이름 SQL DB 암호가 저장된 Key Vault의 비밀 이름을 입력합니다.

    참고 항목

    • 현재 HDInsight는 MS SQL Server 데이터베이스만 지원합니다.
    • Hive 제한으로 인해 메타스토어 데이터베이스 이름에 “-”(하이픈) 문자는 지원되지 않습니다.
  3. 다음: 구성 + 가격 책정을 선택하여 계속 진행합니다.

    가격 책정 탭 1을 보여 주는 스크린샷.

    가격 책정 탭 2를 보여 주는 스크린샷.

    SSH 탭을 보여 주는 스크린샷.

    속성 설명
    노드 크기 Spark 노드에 사용할 노드 크기를 선택합니다.
    작업자 노드의 수 Spark 클러스터의 노드 수를 선택합니다. 이 중 노드 3개는 코디네이터와 시스템 서비스를 위해 예약되어 있고 나머지 노드는 Spark 작업자 전용으로, 노드당 작업자 하나입니다. 예를 들어 5노드 클러스터에는 작업자 두 명이 있습니다.
    Autoscale 자동 크기 조정을 사용하도록 설정하려면 토글 단추를 클릭합니다.
    자동 크기 조정 형식 로드 기반 또는 일정 기반 자동 스케일링 중에서 선택합니다.
    정상 해제 제한 시간 정상 해제 제한 시간을 지정합니다.
    기본 작업자 노드 수 자동 크기 조정에 사용되는 노드 수를 선택합니다.
    표준 시간대 표준 시간대를 선택합니다.
    자동 크기 조정 규칙 날짜, 시작 시간, 종료 시간, 작업자 노드 수를 선택합니다.
    SSH 사용 사용하도록 설정하면 접두사와 SSH 노드 수를 정의할 수 있습니다.
  4. 다음: 통합을 클릭하여 로깅용 Log Analytics를 사용하도록 설정하고 선택합니다.

    클러스터를 만든 후에 모니터링 및 메트릭용 Azure Prometheus를 사용하도록 설정할 수 있습니다.

    통합 탭을 보여 주는 스크린샷.

  5. 다음: 태그를 클릭하여 다음 페이지로 계속 진행합니다.

    태그 탭을 보여 주는 스크린샷.

  6. 태그 페이지에서 리소스에 추가할 태그를 입력합니다.

    속성 설명
    이름 선택 사항. 리소스와 연결된 모든 리소스를 쉽게 식별하려면 HDInsight on AKS 프라이빗 미리 보기와 같은 이름을 입력합니다.
    이 항목을 비워둡니다.
    리소스 선택한 모든 리소스를 선택합니다.
  7. 다음: 검토 + 만들기를 클릭합니다.

  8. 검토 + 만들기 페이지 맨 위에서 유효성 검사 성공 메시지를 찾은 다음, 만들기를 클릭합니다.

  9. 클러스터가 만들어지는 배포 진행 중 페이지가 표시됩니다. 클러스터를 만드는 데 5~10분 정도 걸립니다. 클러스터가 생성되면 배포가 완료되었습니다 메시지가 표시됩니다. 페이지에서 벗어나면 상태 알림을 확인할 수 있습니다.

  10. 클러스터 개요 페이지이동합니다. 그러면 엔드포인트 링크를 확인할 수 있습니다.

    클러스터 개요 페이지를 보여 주는 스크린샷.