다음을 통해 공유


Spark DataFrames에서 데이터 랭글러를 사용하는 방법(미리 보기)

예비 데이터 분석을 위한 Notebook 기반 도구인 데이터 랭글러는 이제 Spark DataFrames와 pandas DataFrames를 모두 지원하여 Python 코드 외에도 PySpark 코드를 생성합니다. pandas DataFrames를 탐색하고 변환하는 방법을 다루는 Data Wrangler에 대한 일반적인 개요는 기본 자습서를 참조하세요. 다음 자습서에서는 데이터 랭글러를 사용하여 Spark 데이터 프레임을 탐색하고 변환하는 방법을 보여 줍니다.

Important

이 기능은 미리 보기로 제공됩니다.

필수 조건

  • Microsoft Fabric 구독가져옵니다. 또는 무료 Microsoft Fabric 평가판에 등록합니다.

  • Microsoft Fabric에 로그인합니다.

  • 홈페이지 왼쪽의 환경 전환기를 사용하여 Synapse 데이터 과학 환경으로 전환합니다.

    Screenshot of the experience switcher menu, showing where to select Data Science.

Spark DataFrame을 사용하여 데이터 랭글러 시작

사용자는 Pandas DataFrame이 표시되는 동일한 드롭다운 프롬프트로 이동하여 Microsoft Fabric Notebook에서 직접 데이터 랭글러의 Spark DataFrames를 열 수 있습니다. 활성 Spark 데이터 프레임 목록은 활성 pandas 변수 목록 아래의 드롭다운에 표시됩니다.

다음 코드 조각은 pandas Data Wrangler 자습서에서 사용되는 것과 동일한 샘플 데이터를 사용하여 Spark DataFrame을 만듭니다.

import pandas as pd

# Read a CSV into a Spark DataFrame
df = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(df)

전자 필기장 리본 "데이터" 탭 아래에서 데이터 랭글러 드롭다운 프롬프트를 사용하여 편집할 수 있는 활성 데이터 프레임을 찾아봅니다. 데이터 랭글러에서 열려는 항목을 선택합니다.

Notebook 커널이 사용 중인 동안에는 데이터 랭글러를 열 수 없습니다. 데이터 랭글러를 실행하려면 실행 중인 셀이 실행을 완료해야 합니다.

Screenshot showing a Fabric notebook with the Data Wrangler dropdown prompt.

사용자 지정 샘플 선택

데이터 랭글러는 성능상의 이유로 Spark DataFrames를 pandas 샘플로 자동으로 변환합니다. 그러나 도구에서 생성된 모든 코드는 궁극적으로 Notebook으로 다시 내보낼 때 PySpark로 변환됩니다. Pandas DataFrame과 마찬가지로 데이터 랭글러 드롭다운 메뉴에서 "사용자 지정 샘플 선택"을 선택하여 기본 샘플을 사용자 지정할 수 있습니다. 이렇게 하면 원하는 샘플의 크기(행 수) 및 샘플링 방법(첫 번째 레코드, 마지막 레코드 또는 임의 집합)을 지정하는 옵션이 포함된 팝업이 시작됩니다.

Screenshot showing the Data Wrangler dropdown prompt with the custom sample option outlined.

Screenshot showing the Data Wrangler custom sample prompt.

요약 통계 보기

데이터 랭글러가 로드되면 미리 보기 그리드 위의 정보 배너는 Spark DataFrames가 일시적으로 pandas 샘플로 변환되지만 생성된 모든 코드는 궁극적으로 PySpark로 변환됨을 알려 줍니다. Spark DataFrames에서 데이터 랭글러를 사용하는 것은 pandas DataFrames에서 데이터 랭글러를 사용하는 경우와 다르지 않습니다. 요약 패널의 설명 개요에는 샘플의 차원, 누락된 값 등에 대한 정보가 표시됩니다. 데이터 랭글러 그리드에서 열을 선택하면 요약 패널에 해당 특정 열에 대한 설명 통계를 업데이트하고 표시하라는 메시지가 표시됩니다. 모든 열에 대한 빠른 인사이트는 헤더에서도 사용할 수 있습니다.

열별 통계 및 시각적 개체(요약 패널 및 열 머리글 모두)는 열 데이터 형식에 따라 달라집니다. 예를 들어 열이 숫자 형식으로 캐스팅되는 경우에만 숫자 열의 범주화된 히스토그램이 열 머리글에 표시됩니다. 작업 패널을 사용하여 가장 정확한 표시를 위해 열 형식을 다시 캐스팅합니다.

Screenshot showing the Data Wrangler display grid and Summary panel.

데이터 클린 작업 찾아보기

데이터 클린 단계의 검색 가능한 목록은 작업 패널에서 찾을 수 있습니다. (동일한 작업의 더 작은 선택은 각 열의 상황에 맞는 메뉴에서도 사용할 수 있습니다.) 작업 패널에서 데이터 클린 단계를 선택하면 단계를 완료하는 데 필요한 매개 변수와 함께 대상 열 또는 열을 제공하라는 메시지가 표시됩니다. 예를 들어 열 크기를 숫자로 조정하라는 프롬프트에는 새 값 범위가 필요합니다.

Screenshot showing the Data Wrangler Operations panel.

작업 미리 보기 및 적용

선택한 작업의 결과는 데이터 랭글러 표시 표에서 자동으로 미리 보기되며 해당 코드는 표 아래 패널에 자동으로 표시됩니다. 미리 보기 코드를 커밋하려면 어느 위치에서든 "적용"을 선택합니다. 미리 보기 코드를 제거하고 새 작업을 시도하려면 "Dis카드"를 선택합니다.

Screenshot showing a Data Wrangler operation in progress.

작업이 적용되면 데이터 랭글러는 결과를 반영하도록 그리드 및 요약 통계를 업데이트합니다. 코드는 정리 단계 패널에 있는 커밋된 작업의 실행 목록에 표시됩니다.

Screenshot showing an applied Data Wrangler operation.

휴지통 아이콘 옆에 있는 가장 최근에 적용된 단계를 항상 실행 취소할 수 있습니다. 이 단계는 정리 단계 패널에서 해당 단계 위로 커서를 가져가면 나타납니다.

Screenshot showing a Data Wrangler operation that can be undone.

다음 표에서는 Data Wrangler가 현재 Spark DataFrames에 대해 지원하는 작업을 요약합니다.

연산 설명
Sort 열을 오름차순 또는 내림차순으로 정렬
Filter 하나 이상의 조건에 따라 행 필터링
원 핫 인코딩 기존 열의 각 고유 값에 대한 새 열을 만들어 행당 해당 값의 존재 여부 또는 없음을 나타냅니다.
구분 기호를 사용하여 원 핫 인코딩 구분 기호를 사용하여 범주 데이터 분할 및 원 핫 인코딩
열 형식 변경 열의 데이터 형식 변경
열 삭제 하나 이상의 열 삭제
열 선택 유지할 열을 하나 이상 선택하고 나머지는 삭제합니다.
열 이름 바꾸기 열 이름 바꾸기
누락된 값 삭제 누락된 값이 있는 행 제거
중복 행 삭제 하나 이상의 열에 중복 값이 있는 모든 행 삭제
누락된 값 채우기 셀을 누락된 값으로 새 값으로 바꾸기
찾기 및 바꾸기 셀을 정확히 일치하는 패턴으로 바꾸기
열 및 집계별로 그룹화 열 값 및 집계 결과별로 그룹화
공백 제거 텍스트의 시작과 끝에서 공백 제거
텍스트 분할 사용자 정의 구분 기호에 따라 열을 여러 열로 분할
텍스트를 소문자로 변환 텍스트를 소문자로 변환
텍스트를 대문자로 변환 텍스트를 대문자로 변환
최소/최대값 크기 조정 최소값과 최대값 사이의 숫자 열 크기 조정
빠른 채우기 기존 열에서 파생된 예제를 기반으로 새 열을 자동으로 만듭니다.

코드 저장 및 내보내기

데이터 랭글러 표시 그리드 위의 도구 모음은 생성된 코드를 저장하는 옵션을 제공합니다. 코드를 클립보드에 복사하거나 Notebook으로 함수로 내보낼 수 있습니다. Spark DataFrames의 경우 pandas 샘플에서 생성된 모든 코드는 Notebook에 다시 배치되기 전에 PySpark로 변환됩니다. 데이터 랭글러가 닫히기 전에 이 도구는 번역된 PySpark 코드의 미리 보기를 표시하고 중간 pandas 코드도 내보내는 옵션을 제공합니다.

데이터 랭글러에서 생성된 코드는 새 셀을 수동으로 실행할 때까지 적용되지 않으며 원래 DataFrame을 덮어쓰지 않습니다.

Screenshot showing the options to export code in Data Wrangler.

Screenshot showing the PySpark preview in the export code prompt in Data Wrangler.

Screenshot showing the code generated by Data Wrangler back in the notebook.