Share via


Delta Lake 형식으로 Event Hubs에서 데이터 캡처

이 문서에서는 코드 없는 편집기를 사용하여 Delta Lake 형식으로 Azure Data Lake Storage Gen2 계정에서 Event Hubs의 스트리밍 데이터를 자동으로 캡처하는 방법을 설명합니다.

필수 조건

  • Azure Event Hubs 및 Azure Data Lake Storage Gen2 리소스는 공개적으로 액세스할 수 있어야 하며 방화벽 뒤에 있거나 Azure Virtual Network에서 보호될 수 없습니다.
  • Event Hubs의 데이터는 JSON, CSV 또는 Avro 형식으로 직렬화되어야 합니다.

데이터를 캡처하도록 작업 구성

다음 단계를 사용하여 Azure Data Lake Storage Gen2에서 데이터를 캡처하도록 Stream Analytics 작업을 구성합니다.

  1. Azure Portal에서 이벤트 허브로 이동합니다.

  2. 기능>데이터 처리를 선택하고 Delta Lake 형식으로 ADLS Gen2로 데이터 캡처 카드에서 시작을 선택합니다.
    Event Hubs 데이터 시작 카드 프로세스를 보여 주는 스크린샷.

    또는 기능>캡처를 선택하고 "출력 이벤트 serialization 형식"에서 Delta Lake 옵션을 선택한 다음 데이터 캡처 구성 시작을 선택합니다. 캡처 데이터 만들기의 진입점을 보여 주는 스크린샷

  3. Stream Analytics 작업을 식별하는 이름을 입력합니다. 만들기를 실행합니다.
    작업 이름을 입력하는 새 Stream Analytics 창을 보여 주는 스크린샷.

  4. Event Hubs에서 데이터의 Serialization 형식 및 작업이 Event Hubs에 연결하는 데 사용할 인증 방법을 지정합니다. 그런 다음 연결을 선택합니다. Event Hubs 연결 구성을 보여주는 스크린샷.

  5. 연결이 성공적으로 설정되면 다음이 표시됩니다.

    • 입력 데이터에 나타나는 필드입니다. 필드 추가를 선택하거나 필요에 따라 필드 옆에 있는 세 개의 점 기호를 선택하여 해당 이름을 제거, 이름 바꾸기 또는 변경할 수 있습니다.
    • 다이어그램 뷰 아래 데이터 미리 보기 테이블에 있는 들어오는 데이터의 라이브 샘플. 주기적으로 새로 고칩니다. 스트리밍 미리 보기 일시 중지를 선택하여 샘플 입력의 정적 뷰를 볼 수 있습니다.
      데이터 미리 보기 아래의 샘플 데이터를 보여 주는 스크린샷.
  6. Azure Data Lake Storage Gen2 타일을 선택하여 구성을 편집합니다.

  7. Azure Data Lake Storage Gen2 구성 페이지에서 다음 단계를 수행합니다.

    1. 드롭다운 메뉴에서 구독, 스토리지 계정 이름 및 컨테이너를 선택합니다.

    2. 구독을 선택하면 인증 방법 및 스토리지 계정 키가 자동으로 채워집니다.

    3. 델타 테이블 경로의 경우 이는 Azure Data Lake Storage Gen2에 저장된 Delta Lake 테이블의 위치와 이름을 지정하는 데 사용됩니다. 하나 이상의 경로 세그먼트를 사용하여 델타 테이블에 대한 경로와 델타 테이블 이름을 정의하도록 선택할 수 있습니다. 자세한 내용은 Delta Lake 테이블에 쓰기를 참조하세요.

    4. 연결을 선택합니다.

      Blob의 연결 구성을 편집하는 Blob 창을 보여 주는 첫 번째 스크린샷.

  8. 연결이 설정되면 출력 데이터에 있는 필드가 표시됩니다.

  9. 명령 모음에서 저장을 선택하여 구성을 저장합니다.

  10. 명령 모음에서 시작을 선택하여 스트리밍 흐름을 시작하여 데이터를 캡처합니다. 그런 다음 Stream Analytics 시작 작업 창에서 다음을 수행합니다.

    1. 출력 시작 시간을 선택합니다.
    2. 작업을 실행할 SU(스트리밍 단위) 수를 선택합니다. SU는 Stream Analytics 작업을 실행하도록 할당된 컴퓨팅 리소스를 나타냅니다. 자세한 내용은 Azure Stream Analytics의 스트리밍 단위를 참조하세요.
      출력 시작 시간, 스트리밍 단위 및 오류 처리를 설정하는 Stream Analytics 시작 작업 창을 보여 주는 스크린샷.
  11. 시작을 선택하면 작업이 2분 이내에 실행되기 시작하고 메트릭이 다음 이미지에 표시된 대로 탭 섹션에서 열립니다. 메트릭 차트를 보여주는 스크린샷

  12. 새 작업은 Stream Analytics 작업 탭에서 볼 수 있습니다. 선택된 Open Metrics 링크를 보여주는 스크린샷.

출력 확인

Parquet 파일이 Delta lake 형식으로 Azure Data Lake Storage 컨테이너에 생성되었는지 확인합니다.

ADLS(Azure Data Lake Storage) 컨테이너에서 생성된 Parquet 파일을 보여 주는 스크린샷

다음 단계

이제 Stream Analytics 코드 없는 편집기를 사용하여 Event Hubs 데이터를 Delta lake 형식으로 Azure Data Lake Storage Gen2에 캡처하는 작업을 만드는 방법을 배웠습니다. 다음으로 Azure Stream Analytics 및 직접 만든 작업을 모니터링하는 방법에 관해 자세히 알아봅니다.