障害復旧

[アーティクル]
05/08/2024

Azure Databricks のようなクラウドネイティブの Data Analytics プラットフォームにとって、明確なディザスターリカバリーパターンは非常に重要です。ハリケーンや地震などの地域的災害またはその他の事象が原因で、ある地域でクラウドサービスプロバイダーのサービス全体が停止するといったまれな状況下でも、データチームが Azure Databricks プラットフォームを使用できることが重要です。

Azure Databricks は、多くの場合、アップストリームのデータインジェストサービス (バッチ/ストリーミング)、ADLS gen2 (2023 年 3 月 6 日より前に作成されたワークスペースの場合は Azure Blob Storage) のようなクラウドネイティブのストレージ、ビジネスインテリジェンスアプリのようなダウンストリームのツールとサービス、オーケストレーションツールといった多くのサービスを含むデータエコシステム全体の中核部分です。ユースケースによっては、地域的なサービス全体の停止にとりわけ影響を受けやすい場合があります。

この記事では、Databricks プラットフォームのリージョンをまたがるディザスターリカバリーソリューションを成功に導くための概念とベストプラクティスについて説明します。

リージョン内の高可用性の保証

このトピックの残りの部分では、リージョンをまたがるディザスターリカバリーの実装に焦点を当てていますが、Azure Databricks が単一リージョン内で提供する高可用性の保証を理解することは重要です。リージョン内の高可用性の保証には、次のコンポーネントが含まれます。

Azure Databricks コントロールプレーンの可用性

ほとんどのコントロールプレーンサービスは Kubernetes クラスターで実行されていて、特定の AZ 内の VM の損失を自動的に処理します。
ワークスペースデータは、Premium Storage を持つデータベースに格納され、リージョン全体にレプリケートされます。データベース (単一サーバー) のストレージは、異なる AZ またはリージョンにはレプリケートされません。ゾーンの停止がデータベースのストレージに影響を与える場合は、バックアップから新しいインスタンスを起動することでデータベースが復旧されます。
DBR イメージの提供に使用されるストレージアカウントもリージョン内で冗長であり、すべてのリージョンに、プライマリがダウンしたときに使用されるセカンダリストレージアカウントがあります。「Azure Databricks のリージョン」を参照してください。
一般に、コントロールプレーン機能は、可用性ゾーンが復旧してから約 15 分以内に復元するはずです。

コンピューティングプレーンの可用性

ワークスペースの可用性は、コントロールプレーンの可用性に依存します (前述のとおり)。
DBFS ルートのストレージアカウントが ZRS または GZRS (既定値は GRS) で構成されている場合、DBFS ルート上のデータは影響を受けません。
クラスターのノードは、Azure コンピューティングプロバイダーからノードを要求することによって、異なる可用性ゾーンからプルされます (残りのゾーンの容量が要求を満たすために十分な場合)。ノードが失われた場合、クラスターマネージャーが Azure コンピューティングプロバイダーに交換ノードを要求し、それによって使用可能な AZ からノードがプルされます。唯一の例外は、ドライバーノードが失われた場合です。この場合、ジョブまたはクラスターマネージャーによって再起動されます。

ディザスターリカバリーの概要

ディザスターリカバリーには、自然災害や人為的な災害が発生した後も、重要なテクノロジインフラストラクチャおよびシステムの復旧または継続動作を可能にする一連のポリシー、ツール、手順が含まれます。 Azure のような大規模クラウドサービスは、多くの顧客にサービスを提供し、1 つの障害に対する保護機能が組み込まれています。たとえば、リージョンは複数の異なる電源に接続した建物のグループであり、その目的は、1 つの電源が失われてもリージョンがシャットダウンしないことの保証です。それでも、クラウドリージョンの障害は起こりうるものであり、中断の程度や組織への影響はさまざまです。

ディザスターリカバリー計画を実装する前に、ディザスターリカバリー (DR) と高可用性 (HA) の違いを理解することが重要です。

高可用性は、システムの回復性の特性です。高可用性は、安定した稼働時間または稼働時間の割合で定義されるのが通例である最小レベルの運用パフォーマンスを保証するものです。高可用性は、プライマリシステムの機能として設計することによって (プライマリシステムと同じリージョンに) 実装されます。たとえば、Azure などのクラウドサービスには、ADLS gen2 (2023 年 3 月 6 日より前に作成されたワークスペースの場合は Azure Blob Storage) などの高可用性サービスがあります。高可用性は、大規模で明示的な準備を Azure Databricks の顧客に要求するものではありません。

これに対し、ディザスターリカバリー計画には、クリティカルなシステムがリージョンのレベルで大規模に停止する事態に対処するために、特定の組織にとって有効である意思決定とソリューションが必要です。この記事では、一般的なディザスターリカバリーの用語、一般的なソリューション、Azure Databricks を使用したディザスターリカバリー計画のベストプラクティスについて説明します。

用語

リージョンの用語

この記事では、リージョンに関して次の定義を使用します。

プライマリリージョン: 一般的で日常的な Data Analytics ワークロードを、ユーザーが対話形式および自動化された形式で実行する地理的リージョン。
セカンダリリージョン: プライマリリージョンの停止中に IT チームが Data Analytics ワークロードを一時的に移動する地理的リージョン。
geo 冗長ストレージ: Azure では、非同期のストレージレプリケーションプロセスを使用したストレージ永続化のために、リージョン横断の geo 冗長ストレージが用意されています。

重要

ディザスターリカバリープロセスに関して、Azure サブスクリプション内の各ワークスペースに対して Azure Databricks が作成する ADLS gen2 (2023 年 3 月 6 日より前に作成されたワークスペースの場合は Azure Blob Storage) などのデータのリージョン間複製を geo 冗長ストレージに依存 "しない" ことを Databricks では推奨しています。一般に、Delta テーブルには Deep Clone を使用してください。その他のデータ形式に関しては、可能であれば Delta 形式にデータを変換して Deep Clone を使用してください。

デプロイ状態の用語

この記事では、デプロイ状態について次の定義を使用します。

アクティブデプロイ: ユーザーは、Azure Databricks ワークスペースのアクティブデプロイに接続してワークロードを実行できます。ジョブは、Azure Databricks スケジューラーまたはその他のメカニズムを使用して定期的にスケジュールされます。このデプロイでもデータストリームを実行できます。ドキュメントによっては、アクティブデプロイはホットデプロイとも呼ばれます。
パッシブデプロイ: プロセスはパッシブデプロイでは実行されません。 IT チームは、コード、構成、その他の Azure Databricks オブジェクトをパッシブデプロイにデプロイするための自動化された手順をセットアップできます。このデプロイは、現在のアクティブデプロイがダウンしている場合にのみアクティブになります。ドキュメントによっては、パッシブデプロイはコールドデプロイとも呼ばれます。

重要

プロジェクトでは、必要に応じて、異なるリージョンに複数のパッシブデプロイを含めて、リージョンの停止を解決するための選択肢を増やすことができます。

一般的に、アクティブ/パッシブと呼ばれるディザスターリカバリー戦略では、同時に 1 つのアクティブデプロイのみをチームで運用します。あまり一般的ではありませんが、2 つのアクティブデプロイを同時に運用する、アクティブ/アクティブと呼ばれるディザスターリカバリーソリューション戦略もあります。

ディザスターリカバリーの業界用語

2 つの重要な業界用語を理解し、チームのために定義する必要があります。

目標復旧時点: 目標復旧時点 (RPO) は、メジャーインシデントの発生時に、超過すると IT サービスからデータ (トランザクション) が失われる可能性がある最長の目標期間です。 Azure Databricks デプロイには、メインの顧客データは格納されません。これは、ADLS gen2 (2023 年 3 月 6 日より前に作成されたワークスペースの場合は Azure Blob Storage) などの別個のシステム、または制御下にある他のデータソースに格納されます。 Azure Databricks コントロールプレーンには、ジョブやノートブックなどの一部のオブジェクトが部分的または完全に格納されます。 Azure Databricks の場合、RPO は、超過するとジョブやノートブックの変更などのオブジェクトが失われる可能性がある最長の目標期間として定義されます。これに加えて、ADLS gen2 (2023 年 3 月 6 日より前に作成されたワークスペースの場合は Azure Blob Storage) や、制御下にある他のデータソース内の独自の顧客データの RPO も定義する必要があります。
目標復旧時間: 目標復旧時間 (RTO) は、災害発生後にビジネスプロセスを復旧しなければならない期限を表す時間とサービスレベルの目標です。

ディザスターリカバリーとデータの破損

ディザスターリカバリーソリューションは、データの破損を軽減するものではありません。プライマリリージョンで破損したデータは、プライマリリージョンからセカンダリリージョンにレプリケートされ、両方のリージョンで破損します。この種の障害を軽減する、Delta タイムトラベルのようなその他の方法があります。

一般的な復旧ワークフロー

Azure Databricks のディザスターリカバリーシナリオは通常、次のように進行します。

プライマリリージョンで使用しているクリティカルなサービスで障害が発生します。これは、Azure Databricks のデプロイに影響を及ぼすデータソースサービスまたはネットワークである可能性があります。
クラウドプロバイダーと協力して状況を調査します。
プライマリリージョンで問題が解決するまで会社は待つことができないという結論に至った場合、セカンダリリージョンへのフェールオーバーが必要であると判断することができます。
同じ問題の影響がセカンダリリージョンには及ばないことを確認します。
セカンダリリージョンにフェールオーバーします。
1. ワークスペース内のすべてのアクティビティを停止します。ユーザーがワークロードを停止します。ユーザーまたは管理者は、可能であれば最近の変更のバックアップを取るように指示されます。停止が原因でまだ失敗していないジョブはシャットダウンされます。
2. セカンダリリージョンで復旧手順を開始します。復旧手順では、セカンダリリージョンへの接続とネットワークトラフィックのルーティングと名前が更新されます。
3. テストが終了したら、セカンダリリージョンの稼働を宣言します。これで、実稼働ワークロードを再開できます。ユーザーは、新しくアクティブになったデプロイにログインできます。スケジュールまたは遅延していたジョブをもう一度トリガーできます。
Azure Databricks コンテキストでの詳細な手順については、「フェールオーバーのテスト」を参照してください。
ある時点で、プライマリリージョンの問題が解決し、この事実を確認します。
プライマリリージョンに復元 (フェールバック) します。
1. セカンダリリージョンでのすべての作業を中止します。
2. プライマリリージョンで復旧手順を開始します。復旧手順では、プライマリリージョンへの接続とネットワークトラフィックのルーティングと名前変更が処理されます。
3. 必要に応じて、プライマリリージョンにデータをレプリケートします。複雑さを減らすために、レプリケートする必要があるデータの量を最小限にします。たとえば、セカンダリデプロイでの実行時に読み取り専用であるジョブに関しては、そのデータをプライマリリージョンのプライマリデプロイにレプリケートする必要はないかもしれません。一方で、実行する必要がある実稼働ジョブに関しては、プライマリリージョンへのデータレプリケーションが必要な場合があります。
4. プライマリリージョンでデプロイをテストします。
5. プライマリリージョンが稼働状態であり、アクティブデプロイであることを宣言します。実稼働ワークロードを再開します。
プライマリリージョンへの復元の詳細については、「復元のテスト (フェールバック)」を参照してください。

重要

これらの手順の間に、データの損失が発生する可能性があります。組織では、許容できるデータ損失の規模と、この損失を軽減するための可能な対策を定義する必要があります。

ステップ 1: ビジネスニーズを理解する

最初のステップは、ビジネスニーズを定義して理解することです。クリティカルなデータサービスと、各サービスの RPO と RTO の期待値を定義します。

各システムの現実的な許容範囲を調査します。ディザスターリカバリーのフェールオーバーとフェールバックにはコストがかかり、その他のリスクも伴う可能性があることに留意してください。その他のリスクには、データの破損、間違った保存場所に書き込んだ場合のデータの重複、間違った場所にログインして変更を加えるユーザーの存在などがあります。

ビジネスに影響を与えるすべての Azure Databricks 統合ポイントをマップします。

ディザスターリカバリーソリューションで、対話型プロセス、自動化されたプロセス、またはその両方に対応する必要がありますか?
どのデータサービスを使用していますか? 一部はオンプレミスである可能性があります。
入力データはどのようにしてクラウドに到達しますか?
誰がこのデータを使用しますか? ダウンストリームではどのプロセスが使用しますか?
ディザスターリカバリーの変更を認識する必要があるサードパーティの統合はありますか?

ディザスターリカバリー計画をサポートできるツールまたはコミュニケーション戦略を決定します。

ネットワーク構成をすばやく変更するために、どのツールを使用しますか?
自然で保守しやすい形でディザスターリカバリーソリューションを組み込めるよう、構成を事前に定義し、モジュール化することができますか?
ディザスターリカバリーのフェールオーバーとフェールバックの変更について、どの通信ツールとチャネルによって内部のチームとサードパーティ (統合、ダウンストリームのコンシューマー) に通知しますか? 通知先の受信確認をどのようにして確かめますか?
どのようなツールまたは特別なサポートが必要になりますか?
復旧が完了するまでシャットダウンされるサービスがある場合、どのようなサービスですか?

ステップ 2: ビジネスニーズを満たすプロセスを選択する

ソリューションでは、両方のコントロールプレーン、コンピューティングプレーン、およびデータソースに正しいデータをレプリケートする必要があります。ディザスターリカバリー用の冗長ワークスペースは、リージョンによって異なるコントロールプレーンにマップする必要があります。スクリプトベースのソリューション (同期ツールまたは CI/CD ワークフローのいずれか) を使用して、そのデータを定期的に同期する必要があります。コンピューティングプレーンネットワーク自体の内部から (例: Databricks Runtime ワーカーから) データを同期する必要はありません。

VNet インジェクション機能 (すべてのサブスクリプションとデプロイの種類で使用できるわけではありません) を使用する場合、Terraform のようなテンプレートベースのツールを使用して、両方のリージョンにこれらのネットワークを整合性のある形でデプロイすることができます。

さらに、データソースが必要に応じてリージョン間でレプリケートされることを保証する必要があります。

ディザスターリカバリー - レプリケートする必要があるもの

一般的なベストプラクティス

ディザスターリカバリー計画を成功に導くための一般的なベストプラクティスには、以下のものがあります。

どのプロセスがビジネスにとってクリティカルであり、ディザスターリカバリーで実行する必要があるかを理解します。
どのサービスが関係するのか、どのデータが処理されるのか、データフローはどうなっているか、どこに格納されているのかを明確に特定します。
可能な限りサービスとデータを分離します。たとえば、ディザスターリカバリー用のデータのために特別なクラウドストレージコンテナーを作成するか、災害時に必要な Azure Databricks オブジェクトを別のワークスペースに移動します。
Databricks コントロールプレーンに格納されていないその他のオブジェクトに関して、プライマリデプロイとセカンダリデプロイの間で整合性を維持する必要があります。

警告

ワークスペースの DBFS ルートアクセスに使用されるルート ADLS gen2 (2023 年 3 月 6 日より前に作成されたワークスペースの場合は Azure Blob Storage) にはデータを保存 "しない" ことがベストプラクティスです。その DBFS ルートストレージは、実稼働の顧客データに対してはサポートされていません。また、Databricks は、この場所にライブラリ、構成ファイル、または init スクリプトを保存しないように推奨しています。
データソースの場合、可能であれば、レプリケーションと冗長性のためのネイティブ Azure ツールを使用して、ディザスターリカバリーリージョンにデータをレプリケートすることをお勧めします。

リカバリーソリューションの戦略を選択する

典型的なディザスターリカバリーソリューションには、2 つ (以上) のワークスペースが関係します。複数の戦略から選択できます。中断の潜在的な長さ (数時間、場合によっては 1 日)、ワークスペースが完全に動作可能な状態を確保するための取り組み、プライマリリージョンに復元 (フェールバック) するための取り組みを検討します。

アクティブ/パッシブソリューションの戦略

アクティブ/パッシブソリューションは最も一般的で、最も簡単なソリューションであり、この記事ではこの種類のソリューションに焦点を当てます。アクティブ/パッシブソリューションでは、アクティブデプロイからパッシブデプロイにデータとオブジェクトの変更を同期します。必要に応じて、異なるリージョンに複数のパッシブデプロイを配置することもできますが、この記事ではパッシブデプロイを 1 つにするアプローチに焦点を当てます。ディザスターリカバリーイベント中は、セカンダリリージョンのパッシブデプロイがアクティブデプロイになります。

この戦略には主に 2 つのバリエーションがあります。

統合型 (企業向け) ソリューション: 組織全体をサポートするアクティブデプロイとパッシブデプロイのただ 1 つのセット。
部門またはプロジェクト別のソリューション: 部門またはプロジェクトのドメインごとに個別のディザスターリカバリーソリューションを維持します。部門間でディザスターリカバリーの詳細を分離し、各チーム固有のニーズに基づいてチームごとに異なるプライマリリージョンとセカンダリリージョンを使用したいと考える組織もあります。

読み取り専用のユースケースにはパッシブデプロイを使用するなど、その他のバリエーションもあります。ユーザークエリなどの読み取り専用ワークロードは、データに変更を加えず、ノートブックやジョブなどの Azure Databricks オブジェクトにも変更を加えないものであれば、いつでもパッシブソリューションで実行できます。

アクティブ/アクティブソリューションの戦略

アクティブ/アクティブソリューションでは、両方のリージョンのすべてのデータプロセスを常に並列実行します。運用チームは、ジョブなどのデータプロセスについて、両方のリージョンで正常に終了した時点ではじめて完了とマークされることを保証する必要があります。オブジェクトは実稼働では変更できず、開発/ステージングから実稼働への厳密な CI/CD 昇格に従う必要があります。

アクティブ/アクティブソリューションは最も複雑な戦略であり、両方のリージョンでジョブが実行されるため、追加の財務コストが発生します。

アクティブ/パッシブ戦略と同様、これは統合型の組織ソリューションとして、または部門別に実装できます。

ワークフローによっては、すべてのワークスペースについてセカンダリシステムに同等のワークスペースが必要ではない場合があります。たとえば、開発またはステージングのワークスペースは複製が不要な場合があります。開発パイプラインの設計が適切であれば、必要に応じてこれらのワークスペースを簡単に再構築できる場合があります。

ツールを選択する

プライマリリージョンとセカンダリリージョンのワークスペース間でデータの類似性をできる限り保持するためのツールには、主に 2 つのアプローチがあります。

プライマリからセカンダリにコピーする同期クライアント: 同期クライアントにより、実稼働のデータとアセットをプライマリリージョンからセカンダリリージョンにプッシュします。通常、これはスケジュールに基づいて実行されます。
並列デプロイ用の CI/CD ツール: 実稼働のコードとアセットに対して、実稼働システムへの変更を両方のリージョンに同時にプッシュする CI/CD ツールを使用します。たとえば、ステージング/開発から実稼働にプッシュされたコードとアセットは、CI/CD システムの働きによって同時に、両方のリージョンで使用可能になります。中核となる考え方は、Azure Databricks ワークスペース内のすべての成果物を infrastructure-as-code (コードとしてのインフラストラクチャ) として扱うことです。ほとんどの成果物はプライマリとセカンダリ両方のワークスペースに同時デプロイできますが、ディザスターリカバリーイベントの終了後にしかデプロイできない成果物もあります。ツールについては、「オートメーションスクリプト、サンプル、プロトタイプ」を参照してください。

次の図は、これら 2 つのアプローチを対比しています。

ディザスターリカバリーのオプション

ニーズに応じて、アプローチを組み合わせることができます。たとえば、ノートブックのソースコードには CI/CD を使用し、プールやアクセス制御などの構成には同期を使用します。

次の表では、各種データの処理方法についてツールオプション別に説明しています。

説明	CI/CD ツールでの処理方法	同期ツールでの処理方法
ソースコード: ノートブックソースのエクスポートとパッケージ化されたライブラリのソースコード	プライマリとセカンダリの両方に同時デプロイします。	プライマリからセカンダリにソースコードを同期します。
ユーザーとグループ	Git でメタデータを構成として管理します。または、両方のワークスペースに同じ ID プロバイダー (IdP) を使用します。ユーザーとグループのデータをプライマリデプロイとセカンダリデプロイに同時デプロイします。	両方のリージョンで SCIM またはその他の自動化を使用します。手動作成は "非推奨" ですが、使用する場合は両方で同時に行う必要があります。手動設定を使用する場合、スケジュールされた自動プロセスを作成して、2 つのデプロイ間でユーザーとグループのリストを比較します。
プール構成	Git でテンプレートにすることができます。プライマリとセカンダリに同時デプロイします。ただし、セカンダリの `min_idle_instances` は、ディザスターリカバリーイベントまではゼロである必要があります。	API または CLI を使用してセカンダリワークスペースに同期されるときに `min_idle_instances` と共に作成されるプール。
ジョブの構成	Git でテンプレートにすることができます。プライマリデプロイの場合、ジョブ定義をそのままデプロイします。セカンダリデプロイの場合、ジョブをデプロイし、コンカレンシーをゼロに設定します。これにより、このデプロイでジョブが無効になり、余計な実行を防止します。セカンダリデプロイがアクティブになった後に、コンカレンシーの値を変更します。	何らかの理由により既存の `<interactive>` クラスターでジョブが実行される場合、同期クライアントはセカンダリワークスペース内の対応する `cluster_id` にマップする必要があります。
アクセス制御リスト (ACL)	Git でテンプレートにすることができます。ノートブック、フォルダー、クラスターの場合、プライマリデプロイとセカンダリデプロイに同時デプロイします。ただし、ディザスターリカバリーイベントまではジョブのデータを保持します。	Permissions API で、クラスター、ジョブ、プール、ノートブック、フォルダーのアクセス制御を設定できます。同期クライアントは、セカンダリワークスペース内の各オブジェクトに対応するオブジェクト ID にマップする必要があります。 Databricks では、アクセス制御をレプリケートする "前" に、これらのオブジェクトの同期と並行して、プライマリワークスペースからセカンダリワークスペースへのオブジェクト ID のマップを作成することが推奨されています。
ライブラリ	ソースコードとクラスター/ジョブテンプレートに含めます。	一元化されたリポジトリ、DBFS、またはクラウドストレージ (マウント可能) からカスタムライブラリを同期します。
クラスター初期化スクリプト	必要に応じて、ソースコードに含めます。	同期しやすいよう、init スクリプトをプライマリワークスペースの共通フォルダーまたは (可能であれば) フォルダーの小さなセットに保存します。
マウントポイント	ノートブックベースのジョブまたはコマンド API のみを使用して作成された場合は、ソースコードに含めます。	Azure Data Factory (ADF) アクティビティとして実行できるジョブを使用します。ワークスペースが異なるリージョンにある場合、ストレージのエンドポイントが変わる可能性があることに注意してください。これは、データのディザスターリカバリー戦略にも大きく依存します。
テーブルのメタデータ	ノートブックベースのジョブまたはコマンド API のみを使用して作成された場合は、ソースコードと共に含めます。これは、内部の Azure Databricks メタストアと、外部で構成されたメタストアのどちらにも当てはまります。	Spark Catalog API を使用するか、ノートブックまたはスクリプトから Show Create Table を使用して、メタストア間でメタデータ定義を比較します。基になるストレージのテーブルはリージョンベースである可能性があり、メタストアインスタンス間で異なることに注意してください。
シークレット	コマンド API のみを使用して作成された場合は、ソースコードに含めます。一部のシークレットコンテンツについては、プライマリとセカンダリの間で変更が必要な場合があることに注意してください。	シークレットは、API を使用して両方のワークスペースに作成されます。一部のシークレットコンテンツについては、プライマリとセカンダリの間で変更が必要な場合があることに注意してください。
クラスター構成	Git でテンプレートにすることができます。プライマリデプロイとセカンダリデプロイに同時デプロイしますが、セカンダリデプロイではディザスターリカバリーイベントまで終了する必要があります。	クラスターは、API または CLI を使用してセカンダリワークスペースに同期された後に作成されます。自動終了の設定によっては、必要に応じて明示的に終了することができます。
ノートブック、ジョブ、フォルダーのアクセス許可	Git でテンプレートにすることができます。プライマリデプロイとセカンダリデプロイに同時デプロイします。	Permissions API を使用してレプリケートします。

リージョンと複数のセカンダリワークスペースを選択する

ディザスターリカバリートリガーを完全に制御できる必要があります。いつでも、どのような理由でも、これをトリガーすることを決定できます。運用フェールバック (通常の実稼働) モードを再開できるようになるまで、ディザスターリカバリーの安定化に責任を持つ必要があります。これは通常、実稼働とディザスターリカバリーのニーズに対応するために複数の Azure Databricks ワークスペースを作成し、セカンダリフェールオーバーリージョンを選択する必要があることを意味します。

Azure で、使用可能な製品と VM の種類に加えて、データレプリケーションを確認します。

ステップ 3: ワークスペースを準備して 1 回限りのコピーを実行する

ワークスペースが既に実稼働である場合、1 回限りのコピー操作を実行して、パッシブデプロイをアクティブデプロイと同期させるのが一般的です。この 1 回限りのコピーにより、以下が処理されます。

データレプリケーション: クラウドレプリケーションソリューションまたは Delta Deep Clone 操作を使用してレプリケートします。
トークン生成: トークン生成を使用して、レプリケーションと将来のワークロードを自動化します。
ワークスペースレプリケーション: 「ステップ 4 : データソースを準備する」で説明されている方法を使用して、ワークスペースレプリケーションを使用します。
ワークスペースの検証: -ワークスペースとプロセスが正常に実行され、期待どおりの結果が得られることを確認するためのテストを行います。

最初の 1 回限りのコピー操作の後、それ以降のコピーと同期の操作が高速になり、ツールからのログ記録も、変更内容と変更された日時のログになります。

ステップ 4: データソースを準備する

Azure Databricks では、バッチ処理またはデータストリームを使用して、さまざまなデータソースを処理できます。

データソースからのバッチ処理

バッチ処理されるときのデータは通常、簡単にレプリケートしたり、別のリージョンに配信したりできるデータソースに存在します。

たとえば、クラウドストレージの場所にデータが定期的にアップロードされる場合があります。セカンダリリージョンのディザスターリカバリーモードでは、ファイルがセカンダリリージョンストレージにアップロードされることを確認する必要があります。ワークロードでは、セカンダリリージョンのストレージを読み取り、セカンダリリージョンのストレージに書き込む必要があります。

データストリーム

データストリームの処理は、より大きな課題です。さまざまなソースからストリーミングデータを取り込み、処理し、次のようなストリーミングソリューションに送信することができます。

Kafka などのメッセージキュー
データベース変更データキャプチャストリーム
ファイルベースの連続処理
ファイルベースのスケジュールされた処理 (トリガーワンスとも呼ばれる)

以上のいずれの場合も、ディザスターリカバリーモードを処理し、セカンダリリージョンのセカンダリデプロイを使用するようにデータソースを構成する必要があります。

ストリームライターは、処理されたデータに関する情報をチェックポイントに格納します。このチェックポイントにはデータの場所 (通常はクラウドストレージ) を含めることができ、ストリームの再起動が確実に成功するよう、この場所を新しい場所に変更する必要があります。たとえば、チェックポイント配下の source サブフォルダーには、ファイルベースのクラウドフォルダーが格納されている場合があります。

このチェックポイントを、適切なタイミングでレプリケートする必要があります。チェックポイントの間隔を新しいクラウドレプリケーションソリューションと同期することを検討してください。

チェックポイントの更新はライターの機能であるため、データストリームのインジェスト、または別のストリーミングソースでの処理と格納に適用されます。

ストリーミングワークロードの場合、顧客が管理するストレージでチェックポイントが構成されていることを確認して、最後の障害の時点からワークロードを再開するためにチェックポイントをセカンダリリージョンにレプリケートできるようにします。プライマリプロセスと並行してセカンダリストリーミングプロセスを実行することもできます。

ステップ 5: ソリューションを実装してテストする

ディザスターリカバリーのセットアップを定期的にテストして、正しく機能することを確認します。必要なときに使用できないディザスターリカバリーソリューションは、維持する価値がありません。企業によっては、数か月ごとにリージョンを切り替えます。定期的なスケジュールでリージョンを切り替えることによって、想定とプロセスをテストし、それらが復旧のニーズを満たしていることを確認できます。これにより、緊急事態に備えたポリシーと手順を組織が理解していることも保証されます。

重要

現実的な条件下でディザスターリカバリーソリューションを定期的にテストしてください。

オブジェクトまたはテンプレートが不足しており、プライマリワークスペースに格納されている情報にまだ依存する必要があることがわかった場合は、計画を変更してこれらの障害を除去するか、セカンダリシステムにこの情報をレプリケートするか、他の何らかの手段で入手できるようにしてください。

プロセスと構成全般に合わせて組織の変更が必要であれば、テストします。ディザスターリカバリー計画はデプロイパイプラインに影響を及ぼすため、同期を維持する必要がある要素をチームが認識していることが重要です。ディザスターリカバリーワークスペースを設定したら、インフラストラクチャ (手動またはコード)、ジョブ、ノートブック、ライブラリ、その他のワークスペースオブジェクトがセカンダリリージョンで使用可能であることを確認する必要があります。

標準の作業プロセスと構成パイプラインを拡張してすべてのワークスペースに変更をデプロイする方法について、チームと相談してください。すべてのワークスペースでユーザー ID を管理します。ジョブの自動化や新しいワークスペースの監視などのツールを忘れずに構成してください。

構成ツールの変更を計画し、テストします。

インジェスト: データソースがどこにあり、それらのソースがどこでデータを取得するかを理解します。可能であれば、ソースをパラメーター化し、セカンダリデプロイとセカンダリリージョンを操作するための個別の構成テンプレートがあることを確認します。フェールオーバーの計画を準備し、すべての前提をテストします。
実行の変更: ジョブやその他のアクションをトリガーするスケジューラがある場合は、セカンダリデプロイまたはそのデータソースを操作する個別のスケジューラを構成することが必要な場合があります。フェールオーバーの計画を準備し、すべての前提をテストします。
対話型接続: REST API、CLI ツール、またはその他のサービス (JDBC/ODBC など) を使用する場合は、構成、認証、ネットワーク接続がリージョンの中断によってどのように影響を受ける可能性があるかを検討してください。フェールオーバーの計画を準備し、すべての前提をテストします。
自動化の変更: すべての自動化ツールについて、フェールオーバーの計画を作成し、すべての想定をテストします。
出力: 出力データまたはログを生成するツールについて、フェールオーバーの計画を準備し、すべての想定をテストします。

フェールオーバーをテストする

ディザスターリカバリーは、さまざまなシナリオによってトリガーされる可能性があります。予期しない中断によってトリガーされることがあります。クラウドネットワーク、クラウドストレージ、別のコアサービスなど、一部のコア機能が停止する場合があります。システムを正常にシャットダウンするためのアクセス権がないため、復旧を試みる必要があります。ただし、このプロセスは、シャットダウンまたは計画停止によってトリガーされる場合もあれば、2 つのリージョン間でのアクティブデプロイの定期的な切り替えによりトリガーされる場合もあります。

フェールオーバーをテストするときは、システムに接続してシャットダウンプロセスを実行します。すべてのジョブが完了し、クラスターが終了していることを確認します。

同期クライアント (または CI/CD ツール) は、関連する Azure Databricks オブジェクトおよびリソースをセカンダリワークスペースにレプリケートできます。セカンダリワークスペースをアクティブ化するために、以下の一部または全部がプロセスに含まれる場合があります。

テストを実行して、プラットフォームが最新であることを確認します。
プライマリリージョンのプールとクラスターを無効にして、障害が発生したサービスがオンラインに戻ってもプライマリリージョンで新しいデータの処理が開始しないようにします。
復旧プロセスは次のとおりです。
1. 最も新しく同期されたデータの日付を確認します。「ディザスターリカバリーの業界用語」を参照してください。このステップの詳細は、データの同期方法と、固有のビジネスニーズによって異なります。
2. データソースを安定させ、それらがすべて使用可能であることを確認します。 Azure Cloud SQL などのすべての外部データソースだけでなく、Delta Lake、Parquet、またはその他のファイルも含めます。
3. ストリーミング復旧ポイントを見つけます。そこから再開するためのプロセスを設定し、プロセスで潜在的な重複を特定して除去できるよう準備します (Delta Lake を使用すると、この作業が容易になります)。
4. データフロープロセスを完了し、ユーザーに通知します。
関連するプールを開始します (または、min_idle_instances を適切な数に増やします)。
関連するクラスターを開始します (終了していない場合)。
ジョブの同時実行を変更し、関連するジョブを実行します。これらは、1 回限りの実行または定期的な実行である可能性があります。
Azure Databricks ワークスペースの URL またはドメイン名を使用する外部ツールがある場合、新しいコントロールプレーンを考慮に入れて構成を更新します。たとえば、REST API や JDBC/ODBC 接続の URL を更新します。コントロールプレーンが変更されると、Azure Databricks Web アプリケーションの顧客向け URL も変更されるので、組織のユーザーに新しい URL を通知します。

復元 (フェールバック) をテストする

フェールバックは制御が容易で、メンテナンス期間中に実行できます。この計画には、以下の一部または全部が含まれる可能性があります。

プライマリリージョンが復元されたことを確認します。
セカンダリリージョンのプールとクラスターを無効にして、新しいデータの処理を開始しないようにします。
新しいアセットや変更されたアセットがセカンダリワークスペースにある場合、プライマリデプロイに同期します。フェールオーバースクリプトの設計によっては、同じスクリプトを実行して、セカンダリ (ディザスターリカバリー) リージョンのオブジェクトをプライマリ (実稼働) リージョンに同期できる場合があります。
新しいデータ更新がある場合、プライマリデプロイに同期します。ログの監査証跡と Delta テーブルを使用して、データの損失がないことを保証できます。
ディザスターリカバリーリージョンのすべてのワークロードをシャットダウンします。
ジョブとユーザーの URL をプライマリリージョンに変更します。
テストを実行して、プラットフォームが最新であることを確認します。
関連するプールを開始します (または、min_idle_instances を適切な数に増やします)。
関連するクラスターを開始します (終了していない場合)。
ジョブの同時実行を変更し、関連するジョブを実行します。これらは、1 回限りの実行または定期的な実行である可能性があります。
必要に応じて、将来のディザスターリカバリーのためにセカンダリリージョンをもう一度設定します。

自動化スクリプト、サンプル、プロトタイプ

ディザスターリカバリープロジェクトで検討する自動化スクリプトには、次のようなものがあります。

Databricks では、独自の同期プロセスの開発に役立つ Databricks Terraform プロバイダーを使用することを推奨しています。
サンプルスクリプトとプロトタイプスクリプトについては、Databricks ワークスペース移行ツールに関するページも参照してください。 Azure Databricks オブジェクトに加えて、関連する Azure Data Factory パイプラインをレプリケートして、セカンダリワークスペースにマップされているリンクされたサービスをオブジェクトが参照するようにします。
Databricks Sync (DBSync) プロジェクトは、Databricks ワークスペースをバックアップ、復元、同期するオブジェクト同期ツールです。

次の方法で共有

障害復旧

リージョン内の高可用性の保証

Azure Databricks コントロールプレーンの可用性

コンピューティングプレーンの可用性

ディザスターリカバリーの概要

用語

リージョンの用語

デプロイ状態の用語

ディザスターリカバリーの業界用語

ディザスターリカバリーとデータの破損

一般的な復旧ワークフロー

ステップ 1: ビジネスニーズを理解する

ステップ 2: ビジネスニーズを満たすプロセスを選択する

一般的なベストプラクティス

リカバリーソリューションの戦略を選択する

アクティブ/パッシブソリューションの戦略

アクティブ/アクティブソリューションの戦略

ツールを選択する

リージョンと複数のセカンダリワークスペースを選択する

ステップ 3: ワークスペースを準備して 1 回限りのコピーを実行する

ステップ 4: データソースを準備する

データソースからのバッチ処理

データストリーム

ステップ 5: ソリューションを実装してテストする

フェールオーバーをテストする

復元 (フェールバック) をテストする

自動化スクリプト、サンプル、プロトタイプ

フィードバック

フィードバック

その他のリソース

次の方法で共有

障害復旧

リージョン内の高可用性の保証

Azure Databricks コントロール プレーンの可用性

コンピューティング プレーンの可用性

ディザスター リカバリーの概要

用語

リージョンの用語

デプロイ状態の用語

ディザスター リカバリーの業界用語

ディザスター リカバリーとデータの破損

一般的な復旧ワークフロー

ステップ 1: ビジネス ニーズを理解する

ステップ 2: ビジネス ニーズを満たすプロセスを選択する

一般的なベスト プラクティス

リカバリー ソリューションの戦略を選択する

アクティブ/パッシブ ソリューションの戦略

アクティブ/アクティブ ソリューションの戦略

ツールを選択する

リージョンと複数のセカンダリ ワークスペースを選択する

ステップ 3: ワークスペースを準備して 1 回限りのコピーを実行する

ステップ 4: データ ソースを準備する

データ ソースからのバッチ処理

データ ストリーム

ステップ 5: ソリューションを実装してテストする

フェールオーバーをテストする

復元 (フェールバック) をテストする

自動化スクリプト、サンプル、プロトタイプ

フィードバック

フィードバック

その他のリソース

Azure Databricks コントロールプレーンの可用性

コンピューティングプレーンの可用性

ディザスターリカバリーの概要

ディザスターリカバリーの業界用語

ディザスターリカバリーとデータの破損

ステップ 1: ビジネスニーズを理解する

ステップ 2: ビジネスニーズを満たすプロセスを選択する

一般的なベストプラクティス

リカバリーソリューションの戦略を選択する

アクティブ/パッシブソリューションの戦略

アクティブ/アクティブソリューションの戦略

リージョンと複数のセカンダリワークスペースを選択する

ステップ 4: データソースを準備する

データソースからのバッチ処理

データストリーム