Share via


Azure용 WANdisco LiveData Platform을 사용하여 온-프레미스 Hadoop 데이터를 Azure Data Lake Storage Gen2로 마이그레이션

WANdisco LiveData Platform for Azure는 데이터 작업을 중단하거나 가동 중지 시간 없이 페타바이트 규모의 온-프레미스 Hadoop 데이터를 Azure Data Lake Storage Gen2 파일 시스템으로 마이그레이션합니다. 플랫폼의 지속적인 점검은 데이터가 변경되는 동안에도 전송의 양쪽 끝에서 일관성을 유지하면서 데이터가 손실되는 것을 방지합니다.

플랫폼은 두 가지 서비스로 구성됩니다. LiveData Migrator for Azure는 활발히 사용되는 데이터를 온-프레미스 환경에서 Azure Storage로 마이그레이션하고 LiveData Plane for Azure는 수정되거나 수집된 모든 데이터가 일관되게 복제되도록 합니다.

라이브 데이터 플랫폼 개요 설명

Azure Portal 및 Azure CLI를 사용하여 두 서비스를 모두 관리합니다. 각 서비스는 다른 모든 Azure 서비스와 동일한 종량제 청구 모델을 따릅니다. LiveData Platform for Azure의 데이터 사용량은 사용 현황 메트릭을 제공하는 월간 Azure 청구서에 표시됩니다.

정적 정보를 Azure Data Box로 복사하거나 DistCp와 같은 Hadoop 도구를 사용하여 오프라인으로 데이터를 마이그레이션하는 것과는 달리, WANdisco LiveData for Azure를 사용하여 온라인 마이그레이션 중에 비즈니스 시스템의 전체 작업을 유지할 수 있습니다. 데이터를 Azure로 이동하는 동안에도 빅 데이터 환경이 계속 작동하도록 합니다.

WANdisco LiveData Platform for Azure의 주요 이점

WANdisco LiveData Platform for Azure의 광역 네트워크 가능 합의 엔진은 데이터 일관성을 달성하고 대규모로 실시간 데이터 복제를 수행합니다. 자세한 내용은 다음 동영상을 참조하세요.

플랫폼의 주요 이점은 다음과 같습니다.

  • 데이터 정확도: 데이터의 엔드투엔드 유효성 검사는 데이터 손실을 방지하고 전송된 데이터가 사용하기에 적합한지 유효성을 검사합니다.

  • 데이터 일관성: 환경이 지속적으로 변경되더라도 데이터 볼륨을 자동으로 일관성 있게 유지합니다.

  • 데이터 효율성: 대역폭 소비를 완벽하게 제어하여 대용량 데이터를 지속적으로 전송합니다.

  • 가동 중지 시간 제거: Azure로 데이터를 전송하는 동안 비즈니스 운영을 중단할 필요 없이 마이그레이션 중에 다른 애플리케이션으로 데이터를 자유롭게 만들기, 수정, 읽기 및 삭제할 수 있습니다. 애플리케이션, 분석 인프라, 수집 작업 및 기타 처리를 계속 수행합니다.

  • 간단한 사용: 플랫폼의 Azure 통합을 사용하여 자동화된 마이그레이션을 만들기, 구성, 예약 및 추적할 수 있습니다. 또한 필요에 따라 선택적 데이터 복제, Hive 메타데이터, 데이터 보안 및 기밀성을 구성합니다.

WANdisco LiveData Platform for Azure의 주요 기능

플랫폼의 주요 기능에는 다음이 포함됩니다.

  • 메타데이터 마이그레이션: HDFS 데이터 외에도 LiveData Migrator for Azure를 사용하여 Hive 및 기타 스토리지에서 메타데이터를 마이그레이션합니다.

  • 예약된 전송: LiveData Migrator for Azure를 사용하여 데이터 전송이 시작되는 시기를 제어하고 자동화하여 데이터 변경 내용을 수동으로 마이그레이션할 필요가 없습니다.

  • Kerberos: LiveData Migrator for Azure는 Kerberos화된 클러스터를 지원합니다.

  • 제외 템플릿: LiveData Migrator for Azure에서 규칙을 만들어 특정 파일 크기 또는 파일 이름(glob 패턴을 사용하여 정의)이 대상 스토리지로 마이그레이션되지 않도록 합니다. Azure Portal 또는 CLI에서 제외 템플릿을 만들고 여러 마이그레이션에 적용합니다.

  • 경로 매핑: 전송된 데이터를 지정한 디렉터리로 자동으로 전송하는 특정 대상 파일 시스템에 대한 대체 대상 경로를 정의합니다.

  • 대역폭 관리: LiveData Migrator for Azure가 대역폭 초과 소비를 방지하는 데 사용할 수 있는 최대 네트워크 대역폭을 구성합니다.

  • 제외: 기준을 충족하는 파일 및 디렉터리의 마이그레이션을 방지하는 템플릿 쿼리를 정의하여 원본 시스템에서 데이터를 선택적으로 마이그레이션할 수 있습니다.

  • 메트릭: 시간 경과에 따라 전송된 파일, 제외된 경로, 전송에 실패한 항목 등 LiveData Migrator for Azure의 데이터 전송에 대한 세부 정보를 봅니다.

    LiveData

위험 없이 빅 데이터를 더 빠르게 마이그레이션

WANdisco LiveData Platform for Azure에 포함된 첫 번째 서비스는 온-프레미스 환경에서 Azure Storage로 데이터를 마이그레이션하는 LiveData Migrator for Azure입니다. LiveData Migrator를 온-프레미스 Hadoop 클러스터에 배포하면 파일 시스템에 가장 적합한 구성이 자동으로 만들어집니다. 여기에서 시스템에 대한 Kerberos 세부 정보를 제공합니다. 그러면 LiveData Migrator for Azure가 Azure Storage로 데이터를 마이그레이션할 준비가 됩니다.

LiveData Migrator for Azure 아키텍처

LiveData Migrator for Azure를 시작하기 전에 다음 필수 조건을 검토합니다.

마이그레이션을 수행하려면:

  1. Azure CLI에서:

    • az provider register --namespace Wandisco.Fusion --consent-to-permissions를 실행하여 Azure CLI에서 WANdisco 리소스 공급자에 등록합니다.
    • az vm image terms accept --offer ldma --plan metered-v1 --publisher Wandisco --subscription <subscriptionID>를 실행하여 LiveData 플랫폼의 측정된 청구 조건에 동의합니다.
  2. Azure Portal에서 온-프레미스 Hadoop 클러스터로 LiveData Migrator 인스턴스를 배포합니다. (클러스터를 변경하거나 다시 시작할 필요가 없습니다.)

    LiveData Migrator 인스턴스 만들기

    참고 항목

    WANdisco LiveData Migrator for Azure는 Hadoop 테스트 클러스터를 만드는 옵션을 제공합니다.

  3. 해당하는 경우 Kerberos 세부 정보를 구성합니다.

  4. Azure Data Lake Storage Gen2를 사용하도록 설정한 대상 스토리지 계정을 정의합니다.

    LiveData Migrator 대상 만들기

  5. 마이그레이션할 데이터의 위치를 정의합니다(예: /user/hive/warehouse).

    LiveData Migrator 마이그레이션 만들기

  6. 마이그레이션 시작

Azure CLI 및 Azure Portal을 포함한 표준 Azure 도구를 통해 마이그레이션 진행 상황을 모니터링합니다.

LiveData Plane for Azure를 사용하여 활성 변경 시 데이터를 양방향으로 복제

LiveData 플랫폼에 포함된 두 번째 서비스는 LiveData Plane for Azure입니다. LiveData Plane은 WANdisco의 조정 엔진을 사용하여 모든 시스템의 데이터에 변경 내용을 지능적으로 적용하여 다양한 사용 지점에서 데이터 충돌 위험을 제거함으로써 많은 온-프레미스 Hadoop 클러스터 및 Azure Storage에서 데이터 일관성을 유지합니다.

LiveData Plane for Azure 아키텍처

초기 마이그레이션 후 LiveData Plane for Azure와 데이터의 일관성을 유지합니다.

  1. Azure Portal에서 시작하여 Azure 온-프레미스 및 Azure에 LiveData Plane을 배포합니다. 애플리케이션을 변경할 필요가 없습니다.

  2. 일관성을 유지하려는 데이터 위치를 포괄하는 복제 규칙을 구성합니다(예: /user/contoso/sales/region/WA).

  3. 필요에 따라 어느 위치에서든 데이터에 액세스하고 데이터를 수정하는 애플리케이션을 실행합니다.

LiveData Plane for Azure는 클러스터 운영이나 애플리케이션 성능에 큰 영향을 미치지 않고 모든 환경에서 데이터 변경 내용을 일관되게 복제합니다.

테스트 드라이브 또는 평가판

LiveData Platform for Azure의 Marketplace 페이지에는 다음 두 가지 옵션이 있습니다.

  • 지금 다운로드 단추는 구독에서 서비스를 시작합니다. 거기에서 자체 Hadoop 클러스터 또는 WANdisco의 평가판 클러스터를 사용할 수 있습니다.

  • 시험 사용을 선택하여 미리 구성되고 호스팅되는 환경에서 LiveData Migrator for Azure를 테스트합니다. 이를 통해 데이터에 대한 비용이나 위험 없이 LiveData Migrator for Azure를 구독에 추가하기 전에 사용해 볼 수 있습니다.

다음 단계

참고 항목