자습서: Apache Spark와 함께 Notebook을 사용하여 KQL 데이터베이스 쿼리

아티클
05/21/2024

Notebook은 데이터 분석 설명과 결과를 포함하는 읽을 수 있는 문서뿐만 아니라 데이터 분석을 수행하기 위해 실행할 수 있는 실행 가능한 문서입니다. 이 문서에서는 Microsoft Fabric Notebook을 사용하여 Apache Spark를 사용하여 KQL 데이터베이스에 데이터를 읽고 쓰는 방법을 알아봅니다. 이 자습서에서는 실시간 인텔리전스 및 Microsoft Fabric의 데이터 엔지니어 환경 모두에서 미리 생성된 데이터 세트 및 Notebook을 사용합니다. Notebook에 대한 자세한 내용은 Microsoft Fabric Notebook을 사용하는 방법을 참조 하세요.

특히 다음 방법을 알아봅니다.

KQL 데이터베이스 만들기
Notebook 가져오기
Apache Spark를 사용하여 KQL 데이터베이스에 데이터 쓰기
KQL 데이터베이스에서 데이터 쿼리

필수 조건

Microsoft Fabric 지원 용량 작업 영역

1- KQL 데이터베이스 만들기

탐색 창 아래쪽에서 환경 전환기를 열고 실시간 인텔리전스를 선택합니다.
KQL 데이터베이스 타일을 선택합니다.
KQL 데이터베이스 이름 필드에 nycGreenTaxi를 입력한 다음 만들기를 선택합니다.

이제 KQL 데이터베이스가 선택한 작업 영역의 컨텍스트 내에서 만들어졌습니다.
데이터베이스 대시보드의 카드 데이터베이스 세부 정보에서 쿼리 URI를 복사하고 메모장과 같은 위치에 붙여넣어 이후 단계에서 사용합니다.

2- NYC GreenTaxi Notebook 다운로드

Spark 커넥터를 사용하여 데이터베이스에 데이터를 로드하는 데 필요한 모든 단계를 안내하는 샘플 Notebook을 만들었습니다.

GitHub에서 Fabric 샘플 리포지토리를 열어 NYC GreenTaxi KQL Notebook을 다운로드합니다.
전자 필기장을 장치에 로컬로 저장합니다.

참고 항목

Notebook을 파일 형식으로 .ipynb 저장해야 합니다.

3- Notebook 가져오기

이 워크플로의 나머지 부분은 제품의 데이터 엔지니어 섹션에서 발생하며 Spark Notebook을 사용하여 KQL 데이터베이스에서 데이터를 로드하고 쿼리합니다.

탐색 창 아래쪽에서 환경 전환기를 열고 데이터 엔지니어 선택합니다.
전자 필기장 가져오기를 선택합니다.
가져오기 상태 창에서 업로드를 선택합니다.
이전 단계에서 다운로드한 NYC GreenTaxi Notebook을 선택합니다.
가져오기가 완료되면 작업 영역으로 돌아가서 이 Notebook을 엽니다.

4- 데이터 가져오기

Spark 커넥터를 사용하여 데이터베이스를 쿼리하려면 NYC GreenTaxi Blob 컨테이너에 대한 읽기 및 쓰기 권한을 부여해야 합니다.

재생 단추를 선택하여 다음 셀을 실행하거나 셀을 선택하고 Shift+ Enter를 누릅니다. 각 코드 셀에 대해 이 단계를 반복합니다.

참고 항목

다음 셀을 실행하기 전에 완료 검사 표시가 나타날 때까지 기다립니다.

다음 셀을 실행하여 NYC GreenTaxi Blob 컨테이너에 액세스할 수 있도록 합니다.
KustoURI에서 자리 표시자 텍스트 대신 이전에 복사한 쿼리 URI를 붙여넣습니다.
자리 표시자 데이터베이스 이름을 nycGreenTaxi로 변경합니다.
자리 표시자 테이블 이름을 GreenTaxiData로 변경합니다.
셀을 실행합니다.
다음 셀을 실행하여 데이터베이스에 데이터를 씁니다. 이 단계를 완료하는 데 몇 분 정도 걸릴 수 있습니다.

이제 데이터베이스에 GreenTaxiData라는 테이블에 데이터가 로드되었습니다.

5- Notebook 실행

두 셀을 순차적으로 기본 다시 실행하여 테이블의 데이터를 쿼리합니다. 결과는 연도별로 기록된 상위 20개의 가장 높고 가장 낮은 택시 요금 및 거리를 보여줍니다.

6- 리소스 정리

만든 작업 영역으로 이동하여 만든 항목을 정리합니다.

작업 영역에서 삭제할 전자 필기장 위로 마우스를 가져가고 [...] > 메뉴를 선택합니다.삭제합니다.
삭제를 선택합니다. 전자 필기장을 삭제한 후에는 복구할 수 없습니다.

피드백

출시 예정: 2024년 내내 콘텐츠에 대한 피드백 메커니즘으로 GitHub 문제를 단계적으로 폐지하고 이를 새로운 피드백 시스템으로 바꿀 예정입니다. 자세한 내용은 다음을 참조하세요. https://aka.ms/ContentUserFeedback

다음에 대한 사용자 의견 제출 및 보기

이 제품 이 페이지

모든 페이지 피드백 보기