다음을 통해 공유


Azure Data Lake Storage에서 델타 테이블에 연결

델타 테이블의 데이터에 연결하고 이를 Dynamics 365 Customer Insights - Data로 가져옵니다.

델타는 Databricks Lakehouse 플랫폼에 데이터와 테이블을 저장하기 위한 기반인 델타 레이크에서 도입된 용어입니다. 델타 레이크는 빅 데이터 워크로드에 ACID(원자성, 일관성, 격리 및 내구성) 트랜잭션을 제공하는 오픈 소스 스토리지 레이어입니다. 자세한 내용은 델타 레이크 설명서 페이지를 참조하십시오.

델타 형식으로 저장된 데이터에 연결해야 하는 주요 이유:

  • 델타 형식의 데이터를 직접 가져와 시간과 노력을 절약하세요.
  • 레이크하우스 데이터의 사본을 변환하고 저장하는 데 드는 컴퓨팅 및 스토리지 비용을 줄이세요.
  • 델타 버전 관리에서 제공하는 Customer Insights - Data에 대한 데이터 수집의 신뢰성을 자동으로 향상합니다.

전제 조건

  • Azure Data Lake Storage는 Customer Insights - Data와 동일한 테넌트 및 Azure 지역에 있어야 합니다.

  • Customer Insights - Data 서비스 주체에는 스토리지 계정에 액세스할 수 있는 Storage Blob 데이터 기여자 권한이 있어야 합니다. 자세한 내용은 서비스 주체에 스토리지 계정에 액세스할 수 있는 권한 부여를 참조하세요.

  • 데이터 원본을 설정하거나 업데이트하는 사용자는 Azure Data Lake Storage 계정에 대한 Storage Blob 데이터 리더 이상의 권한이 필요합니다.

  • 온라인 서비스에 저장된 데이터는 데이터가 처리되거나 저장되는 위치와 다른 위치에 저장될 수 있습니다. 온라인 서비스에서 저장된 데이터를 가져오거나 이에 연결하면 데이터가 전송될 수 있다는 데 동의하는 것입니다. Microsoft 보안 센터에서 자세히 알아보세요.

  • 델타 테이블은 스토리지 컨테이너의 폴더에 있어야 하고 컨테이너 루트 디렉터리에 있을 수 없습니다. 예:

    storageaccountcontainer/
        DeltaDataRoot/
           ADeltaTable/
                 _delta_log/
                     0000.json
                     0001.json
                 part-0001-snappy.parquet
                 part-0002-snappy.parquet
    
  • Azure Data Lake Storage의 데이터는 델타 테이블이어야 합니다. Customer Insights - Data는 증분 처리에 대한 최신 변경 사항을 식별하기 위해 테이블 기록의 버전 속성을 사용합니다.

Azure Data Lake Storage에서 델타 데이터에 연결

  1. 데이터>데이터 원본으로 이동.

  2. 데이터 원본 추가를 선택합니다.

  3. Azure Data Lake 델타 테이블을 선택합니다.

    델타 레이크의 연결 세부 정보를 입력하는 대화 상자입니다.

  4. 데이터 소스 이름과 선택적 설명을 입력합니다. 이 이름은 다운스트림 프로세스에서 참조되며 데이터 원본을 만든 후에는 변경할 수 없습니다.

  5. 다음을 사용하여 스토리지 연결에 대해 다음 옵션 중 하나를 선택합니다.

    • Azure 구독: 구독을 선택한 다음 리소스 그룹스토리지 계정을 선택합니다.
    • Azure 리소스: 리소스 ID를 입력합니다.
  6. 선택적으로 Azure Private Link를 통해 스토리지 계정에서 데이터를 수집하려는 경우 프라이빗 링크 사용을 선택합니다. 자세한 내용은 프라이빗 링크를 참조하세요.

  7. 데이터 폴더가 포함된 컨테이너의 이름을 선택하고 다음을 선택합니다.

  8. 델타 테이블의 데이터가 포함된 폴더로 이동하여 선택합니다. 그런 후에 다음을 선택합니다. 사용 가능한 테이블이 표시됩니다.

  9. 포함할 테이블을 선택합니다.

  10. 기본 키가 정의되지 않은 선택된 테이블의 경우 기본 키 아래에 필수가 표시됩니다. 이러한 각 테이블에 대해 다음을 수행합니다.

    1. 필수를 선택합니다. 테이블 편집 패널이 표시됩니다.
    2. 기본 키를 선택합니다. 기본 키는 테이블에 고유한 특성입니다. 특성이 유효한 기본 키가 되려면 중복 값, 누락 된 값 또는 null 값을 포함하지 않아야 합니다. 문자열, 정수 및 GUID 데이터 유형 특성은 기본 키로 지원됩니다.
    3. 닫기를 선택하여 패널을 저장하고 닫습니다.

    기본 키에 필수를 표시하는 대화 상자

  11. 열에 대해 데이터 프로파일링을 활성화하려면 테이블에 대해 수를 선택합니다. 특성 관리 페이지가 표시됩니다.

    데이터 프로파일링을 선택하는 대화 상자입니다.

    1. 전체 테이블 또는 특정 열에 대해 데이터 프로파일링을 선택합니다. 기본적으로 데이터 프로파일링에 대해 활성화된 테이블이 없습니다.
    2. 완료를 선택합니다.
  12. 저장을 선택합니다. 데이터 원본 페이지가 열리고 새로 고침 중 상태의 새 데이터 원본이 표시됩니다.

    작업 및 프로세스에 대한 상태가 있습니다. 대부분의 프로세스는 데이터 원본 및 데이터 프로파일링 새로 고침과 같은 다른 업스트림 프로세스에 의존합니다.

    상태를 선택하여 진행 세부 정보 창을 열고 작업 진행 상황을 봅니다. 작업을 취소하려면 창 하단에서 작업 취소를 선택합니다.

    각 작업 아래에서 처리 시간, 마지막 처리 날짜, 작업 또는 프로세스와 관련된 해당 오류 및 경고와 같은 자세한 진행 정보를 보려면 세부 정보 보기를 선택합니다. 시스템의 다른 프로세스를 보려면 패널 하단에서 시스템 상태 보기를 선택합니다.

데이터를 로드하는 데 시간이 걸릴 수 있습니다. 새로 고침이 완료되면, 수집된 데이터를 테이블 페이지에서 검토할 수 있습니다.

스키마 변경 관리

델타 폴더 데이터 원본의 스키마에서 열이 추가되거나 제거되면 시스템은 데이터의 전체 새로 고침을 실행합니다. 전체 새로 고침은 증분 새로 고침보다 모든 데이터를 처리하는 데 시간이 더 오래 걸립니다.

열 추가

데이터 원본에 열이 추가되면 새로 고침이 발생하면 해당 정보가 Customer Insights - Data의 데이터에 자동으로 추가됩니다. 테이블에 대한 통합을 이미 구성한 경우 통합 프로세스에 새 열을 추가해야 합니다.

  1. 고객 데이터 단계에서 테이블 및 열 선택을 선택하고 새 열을 선택합니다.

  2. 통합 데이터 보기 단계에서 열이 고객 프로필에서 제외되지 않았는지 확인하세요. 제외됨을 선택하고 열을 읽습니다.

  3. 통합 프로필에 업데이트 실행 단계에서 고객 프로필 및 종속성 통합을 선택합니다.

열 변경 또는 제거

데이터 원본에서 열이 제거되면 시스템은 다른 프로세스의 종속성을 확인합니다. 열에 종속성이 있는 경우 시스템에서 새로 고침을 중지하고 종속성을 제거해야 한다는 오류를 표시합니다. 이러한 종속성은 알림에 표시되어 이를 찾아서 제거하는 데 도움이 됩니다.

스키마 변경 유효성 검사

데이터 원본를 새로 고친 후 데이터>테이블 페이지로 이동합니다. 데이터 원본에 대한 테이블을 선택하고 스키마를 확인합니다.

델타 레이크 시간 이동 및 데이터 새로 고침

델타 레이크 시간 이동은 타임스탬프 또는 버전 번호를 기준으로 테이블 버전을 쿼리하는 기능입니다. 델타 폴더의 변경 사항은 버전이 지정되고, Customer Insights - Data은 델타 폴더 버전을 사용하여 처리할 데이터를 추적합니다. 정기적인 델타 테이블 새로 고침에서는 마지막 새로 고침 이후의 모든 데이터 테이블 버전에서 데이터를 가져옵니다. 모든 버전이 존재한다면 Customer Insights - Data은 변경된 요소만 처리하여 더 빠른 결과를 제공할 수 있습니다. 시간 이동에 대해 자세히 알아보세요.

예를 들어 Customer Insights – Data가 델타 폴더 데이터의 버전 23과 마지막으로 동기화된 경우, 버전 23 및 사용 가능한 후속 버전을 찾을 것으로 예상합니다. 예상 데이터 버전을 사용할 수 없는 경우 데이터 동기화에 실패하고 수동으로 전체 데이터를 새로 고쳐야 합니다. 델타 폴더 데이터를 삭제했다가 다시 생성한 경우 데이터 동기화가 실패할 수 있습니 또는 버전이 업그레이드되는 동안 Customer Insights - Data가 델타 폴더에 장시간 연결할 수 없는 경우에도 실패할 수 있습니다.

전체 데이터 새로 고침의 필요성을 피하려면 15일과 같은 적절한 기록 백로그를 유지하는 것을 권장합니다.

델타 테이블 폴더에서 전체 데이터 새로 고침을 수동으로 실행하기

전체 새로 고침은 델타 형식의 테이블에서 모든 데이터를 가져와서 델타 테이블 버전 0에서 다시 로드합니다. 델타 폴더 스키마가 변경되면 자동으로 전체 새로 고침이 실행됩니다. 전체 새로 고침을 수동으로 트리거하려면 다음 단계를 수행하세요.

  1. 데이터>데이터 원본으로 이동.

  2. Azure Data Lake 델타 테이블 데이터 원본을 선택합니다.

  3. 새로 고침할 테이블을 선택합니다. 테이블 편집 창이 표시됩니다.

    테이블 창을 편집하여 일회성 전체 새로 고침을 선택하세요.

  4. 일회성 전체 새로 고침 실행을 선택합니다.

  5. 저장을 선택하여 새로 고침을 실행합니다. 데이터 원본 페이지가 열리고 새로 고침 중 상태의 새 데이터 원본이 표시되지만 선택한 테이블만 새로 고쳐지고 있습니다.

  6. 해당하는 경우 다른 테이블에 대해서도 이 과정을 반복합니다.

데이터 동기화 실패

델타 폴더 데이터를 삭제했다가 다시 생성한 경우 데이터 동기화가 실패할 수 있습니 또는 버전이 업그레이드되는 동안 Customer Insights - Data가 델타 폴더에 장시간 연결할 수 없는 경우에도 실패할 수 있습니다. 간헐적인 데이터 파이프라인 오류로 인해 전체 새로 고침이 필요한 영향을 최소화하려면 15일과 같은 합리적인 기록 백로그를 유지하는 것이 좋습니다.

다음 단계