FSCK REPAIR TABLE

적용 대상:check marked yes Databricks SQL check marked yes Databricks 런타임

기본 파일 시스템에서 더 이상 찾을 수 없는 델타 테이블의 트랜잭션 로그에서 파일 항목을 제거합니다. 이러한 파일이 수동으로 삭제된 경우에 발생할 수 있습니다.

구문

FSCK REPAIR TABLE table_name [DRY RUN]

매개 변수

  • table_name

    기존 델타 테이블을 식별합니다. 이름에는 임시 사양이 포함되지 않아야 합니다.

  • DRY 실행

    기본 파일 시스템에서 더 이상 찾을 수 없으므로 델타 테이블 FSCK REPAIR TABLE의 트랜잭션 로그에서 제거될 파일 항목에 대한 정보를 표시합니다. 이러한 파일이 수동으로 삭제된 경우에 발생할 수 있습니다. 파일 항목은 데이터 파일 경로 또는 데이터 파일 경로와 삭제 벡터 파일 경로의 조합입니다. 데이터 파일이 누락되거나 삭제 벡터 파일이 누락되거나 둘 다 누락된 경우 파일 항목이 출력에 포함됩니다.

    기본적으로 DRY RUN 처음 1000개의 파일만 반환합니다. Notebook에서 명령을 실행하기 전에 SparkSession 변수 spark.databricks.delta.fsck.maxNumEntriesInResult 를 더 높은 값으로 설정하여 이 임계값을 늘릴 수 있습니다.

반환

DRY RUN 양식의 보고서:

  • dataFilePath STRING NOT NULL
  • dataFileMissing BOOLEAN NOT NULL
  • deletionVectorPath STRING
  • deletionVectorFileMissing BOOLEAN NOT NULL

예제

— Assume file1.parquet is missing and no DV is expected.
> FSCK REPAIR TABLE t DRY RUN;
  dataFilePath dataFileMissing deletionVectorPath deletionVectorFileMissing
 ------------- --------------- ------------------ -------------------------
 file1.parquet            true               null                     false

— Assume dv1.bin is missing.
> FSCK REPAIR TABLE t DRY RUN;
  dataFilePath dataFileMissing deletionVectorPath deletionVectorFileMissing
 ------------- --------------- ------------------ -------------------------
 file1.parquet           false            dv1.bin                      true