Microsoft 365 のデータ監視と自己修復

[アーティクル]
03/17/2023

Microsoft 365 の規模を考えると、包括的な監視、インテリジェントなアラート、高速で信頼性の高い自己修復機能を備えた組み込みの監視を行わなければ、お客様のデータを回復性とマルウェアから安全に保つことは不可能です。 Microsoft 365 の規模で一連のサービスを監視することは非常に困難です。新しい考え方と方法論を導入する必要があり、接続されたグローバル環境でサービスを運用および管理するために、まったく新しいテクノロジセットを作成する必要がありました。データ収集とフィルター処理の従来の監視アプローチから離れ、データ分析に基づくアプローチにアラートを作成しました。シグナルを受け取り、そのデータに対する信頼を築き、自動化を使用して問題を復旧または解決します。このアプローチは、人間を回復方程式から取り出すのに役立ちます。これにより、操作のコストが削減され、高速になり、エラーが発生しやすくなります。

Microsoft 365 の監視の基本は、Azure、SQL Azure、オープンソースストリーミングデータベーステクノロジを基盤とする Data Insights Engine を構成するテクノロジのコレクションです。データを収集して集計し、結論に達するように設計されています。現在、100,000 台を超えるサーバー (1 日あたり最大 15 TB) から 1 時間あたり 5 億を超えるイベントが処理され、多くのリージョンの数十のデータセンターに分散され、これらの数は増加しています。

Microsoft 365 では 、外部監視を使用します。これには、重要なすべてをテストするための代理トランザクションの作成が含まれます。たとえば、Exchange Online各シナリオでは、世界中のすべてのデータベースを散在する方法で 5 分ごとにテストし、システム内に存在するすべてのものをほぼ継続的にカバーしています。複数の場所から、サービスの堅牢なベースラインまたはハートビートを作成するために、1 日あたり 2 億 5,000 万件のテストトランザクションが実行されます。

Microsoft 365 では 、Red Alert という概念も使用されています。これにより、データセンター内のすべてのマシンから人間が管理しやすいものに、すべての監視信号が縮小されます。概念は非常に単純です。複数のシグナルで何かが発生している場合は、何かが起こっている必要があります。 1 つの信号に対する信頼を築くのではなく、各信号に対して妥当な忠実性を持ち、より高い精度を得るということです。この監視システムは非常に強力なので、24 時間 365 日のスタッフがモニターを監視していません。問題が検出された場合に目が覚めるのは機械だけです。その場合は、適切なオンコール担当者をページングするか、多くの場合、問題を解決するだけです。シグナルの収集と赤いアラートの構築を開始すると、すべてのサービスパーティションで三角形分割を開始できます。

このアラートは、障害アラートと赤いアラートの組み合わせに基づいて、問題が発生している可能性のあるコンポーネントを正確に示し、システムがメールボックスサーバーを再起動して問題を修正しようとしていることを示します。

シングルページ復元などの自己修復機能に加えて、Exchange Onlineには、エンドユーザーエクスペリエンスの維持に重点を置いた監視と自己修復のアプローチを取るいくつかの機能が含まれています。これらの機能には、組み込みの監視と回復アクションを提供する マネージド可用性と、ディスク障害後にデータベースの冗長性を自動的に復元する AutoReseed が含まれます。

可用性管理

マネージド可用性は、回復指向のアクションを通じてエンドユーザーのエクスペリエンスを監視し、保護するネイティブの正常性チェックと回復ソリューションを提供します。マネージド可用性とは、組み込みの監視と回復アクションと Exchange 高可用性プラットフォームの統合です。可用性管理は、問題が発生してシステムで発見されると、すぐにそれを検出して回復するように設計されています。 Exchange での以前の外部監視向けソリューションやテクニックとは異なり、可用性管理は、問題の根本原因の識別や通知を試みません。代わりに、エンドユーザーエクスペリエンスの 3 つの重要な領域に対処する回復の側面に重点を置きます。

可用性 - ユーザーはサービスにアクセスできますか?
待機時間 - ユーザーのエクスペリエンスはどのようになりますか?
エラー - ユーザーは必要な操作を実行できますか?

マネージド可用性は、Exchange Onlineを実行しているすべての Microsoft 365 サーバーで実行される内部機能です。 1 秒ごとに数百もの正常性メトリックをポーリングし、分析します。問題が見つかった場合は、ほとんどの場合、自動的に修正されます。ただし、マネージド可用性では修正できない問題が常に発生します。このような場合、マネージド可用性により、イベントログを使用して Microsoft 365 サポートチームに問題がエスカレートされます。

AutoReseed

Exchange Online サーバーは、複数のデータベースとそのログストリームを同じ非 RAID ディスクに格納する構成にデプロイされます。この構成は、多くの場合、 単なるディスク ( JBOD) と呼ばれます。これは、ディスク上のデータを複製するために RAID などのストレージ冗長メカニズムが使用されていないためです。 JBOD 環境でディスクが失敗すると、そのディスク上のデータが失われます。

Exchange Onlineのサイズと、その中にデプロイされたディスクドライブの数が何百万ものディスクドライブであることを考えると、ディスクドライブの障害はExchange Onlineで定期的に発生します。実際、毎日 100 を超えるエラーが発生します。オンプレミスのエンタープライズ展開でディスクが失敗した場合、管理者は失敗したディスクを手動で置き換え、影響を受けるデータを復元する必要があります。クラウドデプロイでは、Microsoft 365 のサイズで、オペレーター (クラウド管理者) が手動でディスクを交換することは、実用的でも経済的にも実現可能ではありません。

Auto Reseed ( AutoReseed) は、ディスク障害、データベース破損イベント、またはデータベースコピーの再削除を必要とするその他の問題に対する通常のオペレーター主導のアクションの代わりとなる機能です。 AutoReseed は、ディスクの障害発生後にシステムでプロビジョニング済みの予備のディスクを使用して、自動的にデータベースの冗長性を復元するように設計されています。ディスクに障害が発生した場合、そのディスクに格納されているデータベースコピーは、サーバー上の事前構成済みのスペアディスクに自動的に再保存され、冗長性が復元されます。

Microsoft 365 のデータ監視と自己修復

可用性管理

AutoReseed

フィードバック

フィードバック

その他のリソース