Azure Data Lake Storage の移行のガイドラインとパターン

[アーティクル]
03/17/2024

データ、ワークロード、アプリケーションを、Azure Data Lake Storage Gen1 から Azure Data Lake Storage Gen2 に移行することができます。この記事では、推奨される移行方法について説明し、さまざまな移行パターンと、それぞれを使用するタイミングについて説明します。読みやすくするため、この記事では、Azure Data Lake Storage Gen1 を Gen1 と呼び、Azure Data Lake Storage Gen2 を Gen2 と呼びます。

Note

Azure Data Lake Storage Gen1 は廃止されました。廃止の通知についての詳細は、こちらを参照してください。 Data Lake Storage Gen1 リソースにアクセスできなくなりました。特別なサポートが必要な場合は、お問い合わせください。

Azure Data Lake Storage Gen2 は Azure Blob Storage を基にして構築されており、ビッグデータ分析専用の機能セットを提供します。 Data Lake Storage Gen2 では、ファイルシステムセマンティクス、ディレクトリ、ファイルレベルのセキュリティおよびスケーリングなどの Azure Data Lake Storage Gen1 の機能が、Azure Blob Storage の低コスト、階層型ストレージ、高可用性およびディザスターリカバリー機能と組み合わされています。

Note

Gen1 と Gen2 は異なるサービスであり、インプレースアップグレードのエクスペリエンスはありません。 Azure portal を使用して Gen2 への移行を簡略化するには、「Azure portal を使用して、Gen1 から Gen2 に Azure Data Lake Storage を移行する」を参照してください。

推奨される方法

Gen1 から Gen2 に移行するには、次の方法が推奨されます。

手順 1:適応性を評価する

手順 2:移行を準備する

手順 3: データとアプリケーションワークロードを移行する

手順 4:Gen1 から Gen2 に切り替える

手順 1:適応性を評価する

Data Lake Storage Gen2 のオファリング (利点、コスト、一般的なアーキテクチャ) について確認します。
Gen1 と Gen2 の機能を比較します。
既知の問題の一覧を確認して、機能のギャップを評価します。
Gen2 では、診断ログ、アクセスレベル、Blob Storage ライフサイクル管理ポリシーなどの Blob Storage の機能がサポートされています。これらの機能を使用することに興味がある場合は現在のサポートレベルを確認してください。
Azure エコシステムのサポートの現状を確認し、ソリューションが依存するすべてのサービスが Gen2 でサポートされていることを確認します。

手順 2:移行を準備する

移行するデータセットを明らかにします。

この機会を利用して、使用しなくなったデータセットをクリーンアップします。すべてのデータを一度に移行することを計画しているのでない限り、この時間を使って、段階的に移行できるデータの論理グループを明らかにします。

Gen1 アカウントで時系列分析 (または似たようなもの) を実行して、インベントリに長時間保存されているファイルやフォルダー、またはおそらく古くなったファイルやフォルダーを特定します。
移行がビジネスに与える影響を決定します。

たとえば、移行の実行中にダウンタイムを許容できるかどうかを検討します。これらの考慮事項は、適切な移行パターンを特定し、最適なツールを選択するのに役立ちます。
移行計画を作成します。

これらの移行パターンをお勧めします。これらのパターンのいずれかを選択するか、これらを組み合わせるか、独自のカスタムパターンを設計することができます。

手順 3:データ、ワークロード、アプリケーションを移行する

好みのパターンを使用して、データ、ワークロード、アプリケーションを移行します。シナリオを段階的に検証することをお勧めします。

ストレージアカウントを作成し、階層型名前空間の機能を有効にします。
データを移行します。
Gen2 エンドポイントを指し示すように、ワークロード内のサービスを構成します。

HDInsight クラスターの場合は、%HADOOP_HOME%/conf/core-site.xml ファイルにストレージアカウントの構成設定を追加できます。外部 Hive テーブルを Gen1 から Gen2 に移行する場合は、ストレージアカウント設定を %HIVE_CONF_DIR%/hive-site.xml ファイルにも追加してください。

各ファイルの設定は、Apache Ambari を使用して変更できます。ストレージアカウントの設定については、「Hadoop Azure サポート: ABFS — Azure Data Lake Storage Gen2」を参照してください。この例では、設定 fs.azure.account.key を使用して、共有キーの承認を有効にします。
```
<property>
  <name>fs.azure.account.key.abfswales1.dfs.core.windows.net</name>
  <value>your-key-goes-here</value>
</property>
```
HDInsight、Azure Databricks、およびその他の Azure サービスを構成して Gen2 を使用するようにするために役立つ記事へのリンクについては、「Azure Data Lake Storage Gen2 がサポートされている Azure のサービス」を参照してください。
Gen2 API を使用するようにアプリケーションを更新します。これらのガイドを参照してください。

環境	[アーティクル]
Azure Storage Explorer	Azure Storage Explorer を使用して Azure Data Lake Storage Gen2 のディレクトリとファイルを管理する
.NET	.NET を使用して Azure Data Lake Storage Gen2 でディレクトリとファイルを管理する
Java	Java を使用して Azure Data Lake Storage Gen2 のディレクトリとファイルを管理する
Python	Python を使用して Azure Data Lake Storage Gen2 でディレクトリとファイルを管理する
JavaScript (Node.js)	Node.js の JavaScript SDK を使用して Azure Data Lake Storage Gen2 でディレクトリとファイルを管理する
REST API	Azure Data Lake Store REST API

Data Lake Storage Gen2 の PowerShell コマンドレットおよび Azure CLI コマンドを使用するようにスクリプトを更新します。
コードファイル、Databricks ノートブック、Apache Hive HQL ファイル、またはワークロードの一部として使用されるその他のファイルで、文字列 adl:// が含まれる URI 参照を検索します。これらの参照を、新しいストレージアカウントの Gen2 形式の URI に置き換えます。たとえば、Gen1 の URI adl://mydatalakestore.azuredatalakestore.net/mydirectory/myfile は、abfss://myfilesystem@mydatalakestore.dfs.core.windows.net/mydirectory/myfile になる可能性があります。
Azure ロール、ファイルとフォルダーレベルのセキュリティ、および Azure Storage ファイアウォールと仮想ネットワークを含むように、アカウントのセキュリティを構成します。

手順 4:Gen1 から Gen2 に切り替える

Gen2 でアプリケーションとワークロードが安定していることを確認したら、Gen2 を使用してビジネスシナリオを満たすことができます。 Gen1 で実行されている残りのパイプラインをオフにし、Gen1 アカウントの使用を停止します。

Gen1 と Gen2 の機能の比較

次の表は、Gen1 の機能と Gen2 の機能を比較したものです。

領域	Gen1	Gen2
データの編成	階層構造の名前空間ファイルとフォルダーのサポート	階層構造の名前空間コンテナー、ファイル、フォルダーのサポート
geo 冗長	LRS	LRS、ZRS、GRS、RA-GRS
認証	Microsoft Entra マネージド ID サービスプリンシパル	Microsoft Entra マネージド ID サービスプリンシパル共有アクセスキー
承認	管理 - Azure RBAC データ - ACL	管理 - Azure RBAC データ - ACL、Azure RBAC
暗号化 - 保存データ	サーバー側 - Microsoft マネージドまたはカスタマーマネージドキー	サーバー側 - Microsoft マネージドまたはカスタマーマネージドキー
VNET のサポート	VNET 統合	サービスエンドポイント、プライベートエンドポイント
開発者エクスペリエンス	REST、.NET、Java、Python、PowerShell、Azure CLI	一般公開 - REST、.NET、Java、Python パブリックプレビュー - JavaScript、PowerShell、Azure CLI
リソースログ	クラシックログ Azure Monitor 統合	クラシックログ - 一般公開 Azure Monitor 統合 - プレビュー
エコシステム	HDInsight (3.6)、Azure Databricks (3.1 以降)、Azure Synapse Analytics、ADF	HDInsight (3.6、4.0)、Azure Databricks (5.1 以降)、Azure Synapse Analytics、ADF

Gen1 から Gen2 へのパターン

移行パターンを選択し、必要に応じてそのパターンを変更します。

移行パターン	詳細
リフトアンドシフト	最も簡単なパターンです。データパイプラインがダウンタイムを許容できる場合に最適です。
増分コピー	"リフトアンドシフト" に似ていますが、ダウンタイムは少なくなります。コピーに時間がかかる大量のデータに適しています。
デュアルパイプライン	ダウンタイムをまったく許容できないパイプラインに最適です。
双方向同期	"デュアルパイプライン" に似ていますが、より複雑なパイプラインに適した、いっそう段階的なアプローチです。

各パターンについて詳しく説明します。

リフトアンドシフトパターン

これは最も簡単なパターンです。

Gen1 へのすべての書き込みを停止します。
Gen1 から Gen2 にデータを移動します。 Azure Data Factory または Azure portal の使用をお勧めします。 ACL はデータと共にコピーします。
インジェスト操作とワークロードで Gen2 をポイントします。
Gen1 の使用を停止します。

リフトアンドシフトパターンのサンプルコードについては、リフトアンドシフト移行のサンプルを参照してください。

Diagram of the lift and shift pattern.

リフトアンドシフトパターンを使用する場合の考慮事項

すべてのワークロードを Gen1 から Gen2 に同時に切り替えます。
移行と切り替えの期間中にダウンタイムが予想されます。
ダウンタイムを許容できるパイプラインに最適であり、すべてのアプリを一度にアップグレードできます。

ヒント

Azure portal を使用してダウンタイムを短縮し、移行の完了に必要な手順の数を抑えることを検討してください。

増分コピーパターン

Gen1 から Gen2 にデータを移動を始めます。 Azure Data Factory をお勧めします。 ACL はデータと共にコピーします。
Gen1 から新しいデータを増分コピーします。
すべてのデータがコピーされたら、Gen1 へのすべての書き込みを停止し、ワークロードで Gen2 をポイントします。
Gen1 の使用を停止します。

増分コピーパターンのサンプルコードについては、増分コピー移行のサンプルを参照してください。

Diagram of the incremental copy pattern.

増分コピーパターンを使用する場合の考慮事項

すべてのワークロードを Gen1 から Gen2 に同時に切り替えます。
切り替え期間中にのみダウンタイムが予想されます。
すべてのアプリが一度にアップグレードされるパイプラインに最適ですが、データのコピーにはより多くの時間が必要です。

デュアルパイプラインパターン

Gen1 から Gen2 にデータを移動します。 Azure Data Factory をお勧めします。 ACL はデータと共にコピーします。
Gen1 と Gen2 の両方に新しいデータを取り込みます。
ワークロードで Gen2 をポイントします。
Gen1 へのすべての書き込みを停止し、Gen1 の使用を停止します。

デュアルパイプラインパターンのサンプルコードについては、デュアルパイプライン移行のサンプルを参照してください。

Diagram of the dual pipeline pattern.

デュアルパイプラインパターンを使用する場合の考慮事項

Gen1 パイプラインと Gen2 パイプラインがサイドバイサイドで実行されます。
ゼロダウンタイムをサポートします。
ワークロードとアプリケーションでダウンタイムを許容できず、両方のストレージアカウントに取り込むことができる場合に適しています。

双方向同期パターン

Gen1 と Gen2 の間に双方向のレプリケーションを設定します。 WanDisco をお勧めします。既存のデータに修復機能が提供されます。
すべての移動が完了したら、Gen1 へのすべての書き込みを停止し、双方向レプリケーションをオフにします。
Gen1 の使用を停止します。

双方向同期パターンのサンプルコードについては、双方向同期移行のサンプルを参照してください。

Diagram of the bidirectional pattern.

双方向同期パターンを使用する場合の考慮事項

段階的なアプローチがより効果的な、多数のパイプラインと依存関係が関係する複雑なシナリオに適しています。
移行作業は多くなりますが、Gen1 と Gen2 に対してサイドバイサイドのサポートが提供されます。

次のステップ

ストレージアカウントに対するセキュリティの設定のさまざまな部分について学習します。詳しくは、「Azure Storage セキュリティガイド」をご覧ください。
Data Lake Store のパフォーマンスを最適化します。「パフォーマンス用に Azure Data Lake Storage Gen2 を最適化する」をご覧ください
Data Lake Store の管理に関するベストプラクティスを確認します。「Azure Data Lake Storage Gen2 の使用に関するベストプラクティス」をご覧ください

Azure Data Lake Storage の移行のガイドラインとパターン