다음을 통해 공유


자습서: Apache Spark와 함께 Notebook을 사용하여 KQL 데이터베이스 쿼리

Notebook은 데이터 분석 설명과 결과를 포함하는 읽을 수 있는 문서뿐만 아니라 데이터 분석을 수행하기 위해 실행할 수 있는 실행 가능한 문서입니다. 이 문서에서는 Microsoft Fabric Notebook을 사용하여 Apache Spark를 사용하여 KQL 데이터베이스에 데이터를 읽고 쓰는 방법을 알아봅니다. 이 자습서에서는 실시간 인텔리전스 및 Microsoft Fabric의 데이터 엔지니어 환경 모두에서 미리 생성된 데이터 세트 및 Notebook을 사용합니다. Notebook에 대한 자세한 내용은 Microsoft Fabric Notebook을 사용하는 방법을 참조 하세요.

특히 다음 방법을 알아봅니다.

  • KQL 데이터베이스 만들기
  • Notebook 가져오기
  • Apache Spark를 사용하여 KQL 데이터베이스에 데이터 쓰기
  • KQL 데이터베이스에서 데이터 쿼리

필수 조건

1- KQL 데이터베이스 만들기

  1. 탐색 창 아래쪽에서 환경 전환기를 열고 실시간 인텔리전스를 선택합니다.

  2. KQL 데이터베이스 타일을 선택합니다.

    실시간 인텔리전스의 새 KQL 데이터베이스 타일 스크린샷

  3. KQL 데이터베이스 이름 필드에 nycGreenTaxi를 입력한 다음 만들기를 선택합니다.

    이제 KQL 데이터베이스가 선택한 작업 영역의 컨텍스트 내에서 만들어졌습니다.

  4. 데이터베이스 대시보드의 카드 데이터베이스 세부 정보에서 쿼리 URI를 복사하고 메모장과 같은 위치에 붙여넣어 이후 단계에서 사용합니다.

    데이터베이스 세부 정보를 보여 주는 데이터베이스 세부 정보 카드 스크린샷 복사 URI라는 쿼리 URI 옵션이 강조 표시됩니다.

2- NYC GreenTaxi Notebook 다운로드

Spark 커넥터를 사용하여 데이터베이스에 데이터를 로드하는 데 필요한 모든 단계를 안내하는 샘플 Notebook을 만들었습니다.

  1. GitHub에서 Fabric 샘플 리포지토리를 열어 NYC GreenTaxi KQL Notebook다운로드합니다.

    NYC GreenTaxi Notebook을 보여 주는 GitHub 리포지토리의 스크린샷. 원시 옵션이 강조 표시됩니다.

  2. 전자 필기장을 장치에 로컬로 저장합니다.

    참고 항목

    Notebook을 파일 형식으로 .ipynb 저장해야 합니다.

3- Notebook 가져오기

이 워크플로의 나머지 부분은 제품의 데이터 엔지니어 섹션에서 발생하며 Spark Notebook을 사용하여 KQL 데이터베이스에서 데이터를 로드하고 쿼리합니다.

  1. 탐색 창 아래쪽에서 환경 전환기를 열고 데이터 엔지니어 선택합니다.

  2. 전자 필기장 가져오기를 선택합니다.

    데이터 엔지니어 항목 옵션의 스크린샷 Import Notebook이라는 항목이 강조 표시되어 있습니다.

  3. 가져오기 상태 창에서 업로드를 선택합니다.

    가져오기 상태 창의 스크린샷 업로드라는 단추가 강조 표시됩니다.

  4. 이전 단계에서 다운로드한 NYC GreenTaxi Notebook을 선택합니다.

  5. 가져오기가 완료되면 작업 영역으로 돌아가서 이 Notebook을 엽니다.

4- 데이터 가져오기

Spark 커넥터를 사용하여 데이터베이스를 쿼리하려면 NYC GreenTaxi Blob 컨테이너에 대한 읽기 및 쓰기 권한을 부여해야 합니다.

재생 단추를 선택하여 다음 셀을 실행하거나 셀을 선택하고 Shift+ Enter를 누릅니. 각 코드 셀에 대해 이 단계를 반복합니다.

참고 항목

다음 셀을 실행하기 전에 완료 검사 표시가 나타날 때까지 기다립니다.

  1. 다음 셀을 실행하여 NYC GreenTaxi Blob 컨테이너에 액세스할 수 있도록 합니다.

    스토리지 액세스 정보를 보여 주는 첫 번째 코드 셀의 스크린샷

  2. KustoURI에서 자리 표시자 텍스트 대신 이전에 복사한 쿼리 URI를 붙여습니다.

  3. 자리 표시자 데이터베이스 이름을 nycGreenTaxi변경합니다.

  4. 자리 표시자 테이블 이름을 GreenTaxiData변경합니다.

    대상 데이터베이스 정보를 보여 주는 두 번째 코드 셀의 스크린샷 쿼리 URI, 데이터베이스 이름 및 테이블 이름이 강조 표시됩니다.

  5. 셀을 실행합니다.

  6. 다음 셀을 실행하여 데이터베이스에 데이터를 씁니다. 이 단계를 완료하는 데 몇 분 정도 걸릴 수 있습니다.

    테이블 매핑 및 수집 명령을 보여 주는 세 번째 코드 셀의 스크린샷

이제 데이터베이스에 GreenTaxiData라는 테이블에 데이터가 로드되었습니다.

5- Notebook 실행

두 셀을 순차적으로 기본 다시 실행하여 테이블의 데이터를 쿼리합니다. 결과는 연도별로 기록된 상위 20개의 가장 높고 가장 낮은 택시 요금 및 거리를 보여줍니다.

쿼리 결과를 보여 주는 네 번째 및 다섯 번째 코드 셀의 스크린샷

6- 리소스 정리

만든 작업 영역으로 이동하여 만든 항목을 정리합니다.

  1. 작업 영역에서 삭제할 전자 필기장 위로 마우스를 가져가고 [...] > 메뉴를 선택합니다.삭제합니다.

    NYC GreenTaxi Notebook의 드롭다운 메뉴를 보여 주는 작업 영역의 스크린샷 삭제라는 옵션이 강조 표시되어 있습니다.

  2. 삭제를 선택합니다. 전자 필기장을 삭제한 후에는 복구할 수 없습니다.