データパフォーマンスを最適化するための推奨事項

[アーティクル]
11/15/2023

この Azure Well-Architected Framework パフォーマンス効率チェックリストの推奨事項に適用されます。

PE:08	データのパフォーマンスを最適化します。ワークロードでの意図された実際の使用のために、データストア、パーティション、インデックスを最適化します。

このガイドでは、データパフォーマンスを最適化するための推奨事項について説明します。データパフォーマンスの最適化は、ワークロードがデータを処理して格納する効率を改善することです。ワークロードの操作、トランザクション、または計算はすべて、通常、データの迅速かつ正確な取得、処理、およびストレージに依存します。データパフォーマンスが最適化されると、ワークロードはスムーズに実行されます。データのパフォーマンスが損なわれると、パフォーマンス効率が低下するドミノ効果が生じます。データパフォーマンスを最適化しないと、応答の遅延、待機時間の増加、スケーラビリティの低下が発生します。ワークロード全体の効率を危険にさらします。

定義

期間	定義
CAP 定理	データ整合性のトレードオフを説明するのに役立つ、整合性、可用性、およびパーティション許容度を考慮するために使用されるフレームワーク。
データベースインデックスの再構築	インデックスを削除して再作成するメンテナンスアクティビティ。
データベースインデックスの再編成	現在のデータベースインデックスを最適化するメンテナンスアクティビティ。
データストア	データベース、オブジェクトストア、ファイル共有などのデータを格納するリソース。
最終的な一貫性	最終的に同期する前にデータレプリカで一時的な不整合を許容するデータ同期モデル。
インデックス	項目にすばやくアクセスできるデータベース構造。
オンライン分析処理 (OLAP)	大規模なビジネスデータベースを整理し、複雑な分析をサポートし、トランザクションシステムに悪影響を与えることなく複雑な分析クエリを実行するテクノロジ。
オンライントランザクション処理 (OLTP)	organizationの日常業務で発生したビジネスインタラクションを記録するテクノロジ。
オプティミスティックコンカレンシー	従来のロックメカニズムではなく、スナップショットを使用して更新を行うデータベースを更新し、パフォーマンスとスケーラビリティを向上させるアプローチ。
PACELC 定理	パーティションの許容性、可用性、整合性、待機時間を考慮して、データの整合性のトレードオフを説明するために使用されるフレームワーク。
パーティション分割	データを個別のデータストアに物理的に分割するプロセス。
クエリのチューニング	データベースクエリの速度を最適化するプロセス。
読み取りレプリカ	書き込みデータベースから読み取りトラフィックをオフロードできるプライマリデータベースのライブコピー。

主要な設計戦略

データの使用を最適化するには、データストア、パーティション、インデックスが、意図した用途とワークロードでの実際の使用のために最適化されていることを確認します。最適化されたデータ使用量により、クエリのパフォーマンスが向上し、リソースの消費量が削減され、システム全体の効率が向上します。次の戦略を考えます。

プロファイルデータ。 データを理解し、データモデルがワークロードに適していることを確認します。データ正規化、インデックス作成戦略、パーティション分割手法などの要因を考慮してください。効率的なデータ取得を行うには、適切なデータ型を選択し、エンティティ間のリレーションシップを定義し、最適なインデックス作成戦略を決定します。
データストレージの構成を微調整します。 ワークロードの要件に合わせてデータストレージインフラストラクチャを構成します。リレーショナルデータベース、NoSQL データベース、データウェアハウスなど、適切なストレージテクノロジを選択します。バッファーサイズ、キャッシュメカニズム、圧縮などのストレージ設定を最適化します。
クエリパフォーマンスを最適化します。 ワークロードで実行されるクエリを分析して最適化します。クエリの最適化、インデックス作成、キャッシュなどの手法を使用します。ボトルネックを特定するには、クエリプランとパフォーマンス監視ツールを使用し、必要な改善を行います。
システムを定期的に監視および調整します。 ワークロードのパフォーマンスを継続的に監視し、データストレージの構成とクエリの最適化を繰り返します。パフォーマンスチューニングのベストプラクティスに基づいて、システムメトリックを分析し、改善の領域を特定し、変更を実装します。

Profile data (プロファイルデータ)

データプロファイルには、ソースからのデータを調べて、それに関する情報を収集することが含まれます。目的は、ワークロードデータの品質、構造、特性を理解することです。このプロセスにより、欠損値、重複、一貫性のない形式、その他の異常などの問題を特定できます。効果的なデータプロファイリングを行う場合は、次の方法を検討してください。

データ構造を理解する。 テーブル、列、リレーションシップなど、データの構造を調べます。各列に適用されるデータ型、長さ、制約を決定します。データ構造の評価は、データの編成方法と他のデータ要素との関係を理解するのに役立ちます。
データボリュームを分析します。 データの量を評価して、全体的なサイズと増加パターンを理解します。レコードまたはドキュメントの数と、個々のテーブルまたはコレクションのサイズを決定します。この情報は、ストレージ要件を見積もり、スケーラビリティの問題を特定するのに役立ちます。
データリレーションシップを特定する。 主キーリレーションシップや外部キーリレーションシップなど、データ要素間のリレーションシップを調べる。データがどのように接続されているかを理解することで、1 つのテーブルまたはドキュメントの変更が関連データにどのように影響するかを判断できます。
データ品質を評価する。 完全性、正確性、一貫性、一意性などの要因を調べることで、データの品質を評価します。データの整合性とクエリのパフォーマンスに影響を与える可能性があるデータの異常、欠損値、または重複するレコードを特定します。この手順は、データクレンジングと改善の領域を特定するのに役立ちます。
データ分散をキャプチャします。 各列内の値の分布を分析して、データパターンを決定します。頻繁でまれな値、外れ値、データスキューを特定します。クエリのパフォーマンスを最適化するには、ディストリビューションに基づいて適切なインデックス作成戦略とクエリ最適化手法を選択します。

データのパフォーマンスを監視する

データパフォーマンスの監視は、データストア、パーティション、インデックスの効率をリアルタイムで一貫して追跡する方法です。これには、システムレベル、データベース固有、またはサードパーティの監視ソリューション用に調整されたツールを使用して、データ操作に固有のパフォーマンスメトリックの収集と分析が含まれます。効果的なデータパフォーマンス監視を使用すると、潜在的なボトルネックを事前に特定して軽減し、データ関連のプロセスとタスクを効率的に行うことができます。データのパフォーマンスを監視するには、次の戦略を検討してください。

データ固有のメトリックを収集します。 データのパフォーマンスに直接関連する主要なメトリックを収集します。これらのメトリックには、クエリの応答時間、データスループット、データアクセスに関連するディスク I/O、および特定のデータパーティションの読み込み時間が含まれます。
データアラートを設定します。 データメトリック専用のアラートを設定します。これらのメトリックで定義済みのしきい値または異常を使用してアラートをトリガーします。アラートを使用すると、パフォーマンスメトリックが許容範囲を超えた場合や異常な動作が表示された場合に通知を受信できます。たとえば、データベースクエリの所要時間が予想よりも長い場合や、データスループットが大幅に低下した場合は、アラートがトリガーされます。これらのアラートは、特殊な監視ツールまたはカスタムスクリプトを使用して設定できます。
データパフォーマンスの問題を診断します。 収集されたデータメトリックを定期的に確認して、データ操作の潜在的なパフォーマンスのボトルネックや低下を特定します。視覚化ツールまたはダッシュボードは、このプロセスで非常に重要であり、データパフォーマンスの傾向、ボトルネック、外れ値を強調するのに役立ちます。特定されたら、これらの問題の根本原因を掘り下げ、適切な修復手順を戦略化します。

データのパーティション分割

パーティション分割には、大規模なデータセットまたは大量のワークロードを、より小さく管理しやすいサブセットに分割する必要があります。パーティション分割では、ワークロードを分散し、並列処理を改善することで、データのパフォーマンス効率が向上します。また、特定のニーズとクエリパターンに基づいて、より効果的なデータアクセスが保証されます。データは、垂直方向または水平方向にパーティション分割できます (シャーディングとも呼ばれます)。

戦略	定義	例	ユースケース
垂直的パーティション分割	各パーティションの特定の列またはフィールドを選択して、テーブルを小さなテーブルに分割します。各パーティションは、完全なデータのサブセットを表します。	列 A、B、C、D を含むテーブルがある場合は、列 A と B、列 C と D を含むテーブルを 1 つ作成できます。	- テーブルには多くの列が含まれていますが、クエリはすべての列に一緒にアクセスするわけではありません。 - 一部の列は他の列よりも大きく、それらを分離すると I/O パフォーマンスが向上する可能性があります。 - さまざまなデータパーツに多様なアクセスパターンがあります。
行方向のパーティション分割	行または値の範囲に基づいてデータを分割します (シャーディングとも呼ばれます)。各パーティションには、同様の特性を持つ行のサブセットが含まれています。	行 1 から 1000 のテーブルがある場合は、行 1 から 500 のパーティションと 501 から 1000 行のパーティションを作成できます。	- データセットが 1 つの場所またはサーバーに対して大きすぎます。 - データは、特定の範囲またはフィルターに基づいてアクセスされます。 - パフォーマンスを向上させるために、ワークロードを物理ノードまたはサーバーに分散する必要があります。

データをパーティション分割するには、次の手順を検討してください。

データとクエリを分析する。 データとクエリパターンを分析して、適切なパーティション分割またはシャーディング戦略を特定します。データ、アクセスパターン、および配布要件の性質を理解します。
キーを決定します。 パーティションまたはシャード間でデータを分散するには、パーティション分割キーまたはシャーディングキーを選択します。データ特性とクエリ要件に基づいてキーを慎重に選択します。
ロジックを決定します。 選択したキーに基づいてパーティション分割またはシャーディングロジックを決定します。データを範囲に分割するか、ハッシュアルゴリズムを適用するか、他のパーティション分割手法を使用することを検討してください。
インフラストラクチャを構成します。 パーティション分割またはシャーディングをサポートするようにデータベースシステムを構成します。必要なインフラストラクチャを作成し、パーティションまたはシャードを定義し、データ分散を構成することを検討してください。

詳細については、「 Data partitioning guidance (データのパーティション分割のガイダンス)」を参照してください。

データベースクエリを最適化する

データベースクエリを最適化すると、インデックスヒントやキャッシュなどの手法を使用してクエリが絞り込まれます。これらの調整により、データ取得の効率と速度が向上します。その結果、データベースのワークロードが軽くなり、リソースがより効果的に機能し、ユーザーはよりスムーズな対話を楽しむことができます。データベースクエリを最適化するには、次の方法を検討してください。

クエリを書き換える。 複雑なクエリを確認して分析し、それらを書き換える機会を特定します。クエリロジックの再構築、冗長な操作の排除、またはクエリ構文の簡略化を検討してください。
N+1 クエリの問題を回避します。 結合とバッチフェッチを使用して関連データを効率的に取得することで、データベースへのラウンドトリップの数を最小限に抑えます。
結合を並べ替えます。 クエリプランを評価し、結合順序を並べ替えて、各結合操作の行数を最小限に抑えるようにすることを検討します。テーブルを結合する順序は、クエリのパフォーマンスに影響する可能性があります。
インデックスヒントを使用します。 データベースエンジンがクエリの実行時にインデックスの使用を指定できるように、インデックスヒントを使用します。インデックスヒントは、オプティマイザーが最も適切なインデックスを選択するようにガイドします。
キャッシュクエリ。 頻繁に実行されるクエリの結果をメモリに格納します。クエリキャッシュを使用すると、同じクエリを繰り返し実行する必要がなくなり、クエリ処理のオーバーヘッドが軽減されます。
ロックを最適化します。 クエリで不要または制限の厳しいロックヒントを回避します。効率的なロック戦略により、クエリのパフォーマンスとコンカレンシーを向上させることができます。データベースシステムが提供する最適化されたロックメカニズムを適用します。分離レベルを分析して調整し、データの一貫性とクエリのパフォーマンスのバランスを取る。
監視とチューニング。 ランタイム、リソース使用率、クエリスループットなどのクエリパフォーマンスメトリックを監視します。データベースプロファイルツールと監視機能を使用して、パフォーマンスの低いクエリを特定します。収集されたパフォーマンスデータに基づいてクエリプランを評価および微調整します。クエリプランと待機統計を分析してボトルネックを特定します。その情報を使用して、クエリのパフォーマンスを最適化します。

インデックスのパフォーマンスを最適化する

インデックスを使用すると、データベースで特定の列またはフィールドを使用してデータをすばやく検索できるため、データ取得速度が向上します。これらのインデックスを最適化すると、並べ替えと結合の操作がより効率的になり、クエリが高速になります。適切に最適化されたインデックスは、クエリに必要なディスク I/O 操作で削減されます。不要なインデックスまたは冗長インデックスを削除すると、貴重なストレージ領域も解放されます。インデックスのパフォーマンスを最適化するには、次の方法を検討してください。

クエリパターンを分析する。 データベースで実行されるクエリパターンを理解します。頻繁に実行され、パフォーマンスが低下する可能性があるクエリを特定します。クエリパターンを分析して、パフォーマンスを最適化するために役立つインデックスを決定します。
既存のインデックスを評価します。 データベース内の既存のインデックスを確認します。使用状況、パフォーマンスの影響、およびクエリパターンとの関連性を評価します。書き込みパフォーマンスを向上させ、ストレージのオーバーヘッドを削減するために削除できる冗長インデックスまたは未使用のインデックスを特定します。
インデックス作成の列を識別します。 クエリの where、 join、order by 句で頻繁に使用される列を特定します。これらの列は、高速なデータ取得を可能にできるため、インデックス作成の候補となる可能性があります。
適切なインデックスの種類を選択します。 データベースシステムに基づいて適切なインデックスの種類を選択します。一般的なオプションには、等値クエリと範囲クエリの b ツリーインデックス、完全一致クエリのハッシュインデックス、テキスト検索操作用のフルテキストインデックスがあります。クエリの要件に最も一致するインデックスの種類を選択します。
インデックス列の順序を検討してください。 複合インデックスまたは複数の列を含むインデックスを作成する場合は、列の順序を考慮してください。クエリで最も頻繁に使用される列をインデックスの先頭に配置します。列の順序は、ワークロードで幅広いクエリに対してインデックスを効果的に使用するのに役立ちます。
インデックスサイズのバランスを取る。 カーディナリティが低い列、または個別の値の数が少ない列にはインデックスを作成しないでください。このようなインデックスは非効率的であり、データベースのサイズが大きくなる可能性があります。代わりに、選択度が高いインデックス列。
インデックスの使用を維持します。 インデックスの使用状況とパフォーマンスを継続的に監視します。クエリパターンまたはパフォーマンス要件の変更に基づいて、新しいインデックスを作成したり、既存のインデックスを変更したりする機会を探します。役に立たなくなったインデックスを削除または更新します。インデックスにはメンテナンスのオーバーヘッドがあります。データが変更されると、インデックスが断片化してパフォーマンスに影響を与える可能性があります。最適なパフォーマンスを確保するために、インデックスの再構築や再構成などのインデックスメンテナンスタスクを定期的に実行します。
テストと検証。 運用環境でインデックスを修正する前に、徹底的なテストと検証を行います。代表的なワークロードを使用して、インデックスリビジョンのパフォーマンス効果を測定します。定義済みのベンチマークに対する機能強化を確認します。

トレードオフ: B ツリーインデックスのストレージオーバーヘッドが高く、完全一致クエリが遅くなる可能性があります。ハッシュインデックスは、範囲クエリや比較演算子には適していません。フルテキストインデックスのストレージ要件が高く、テキスト以外のデータクエリが遅くなる可能性があります。

データ圧縮を検討する

データ圧縮は、ストレージ領域を最適化し、ワークロードのパフォーマンス効率を向上させるために、データのサイズを小さくするプロセスです。圧縮されたデータは、送信に必要なストレージ領域と帯域幅が少なくて済み、データ転送が高速になります。データを圧縮して、ストレージのフットプリントを削減し、データアクセス時間を短縮します。データを圧縮すると、I/O 操作とネットワーク帯域幅の要件が削減されます。

無損失圧縮と損失圧縮は、データ圧縮アルゴリズムです。無損失圧縮アルゴリズムは、情報を失うことなくデータのサイズを小さくします。損失圧縮アルゴリズムは、重要度の低い情報や冗長な情報を削除することで、高い圧縮率を実現します。

トレードオフ: データを圧縮および圧縮解除するには、CPU やメモリなどの計算リソースが必要です。圧縮するデータが多いほど、必要なリソースが多くなります。

データのアーカイブと消去

アーカイブと消去は、データストレージを効率化する戦略です。アーカイブすると、アクセス頻度が低い古いデータが、よりコスト効率の高いストレージに再配置されます。データを消去すると、冗長なデータが完全に削除されます。これらは、データ量を減らし、データアクセス速度を向上させ、バックアップと回復時間を短縮することで、パフォーマンス効率に貢献します。

データ量の削減: データの削減は処理時間の短縮を意味し、ユーザーの要求に対する迅速な応答を保証します。
データアクセス速度の向上: トリミングされたデータセットを使用すると、より迅速なクエリとデータ取得が可能になり、システムの応答性が最適化されます。
バックアップと回復時間の短縮: データセットを小さくすると、バックアップと復元のプロセスが高速化され、ダウンタイムが最小限に抑えられ、一貫したパフォーマンスが確保されます。

アーカイブと消去は、データドリブンシステムのピークパフォーマンス効率を維持する上でインストルメントです。

ストレージの負荷を最適化する

ストレージの負荷を最適化することは、ストレージシステムへの要求を合理化することを意味します。不要な要求を排除するのに役立ちます。また、データの取得を強化し、ストレージの圧倒的な使用を防ぎます。ストレージ負荷を最適化することで、ストレージシステムは正当な要求に対する応答性を維持し、ピークパフォーマンスを維持できます。データストアの処理負荷を軽減する戦略を実装します。データストアの負荷を最適化するには、次の方法を検討してください。

キャッシュを使用する

キャッシュでは、一般的にアクセスされるデータが高速アクセスストレージ領域に格納されるため、メインソースからデータを取得するよりも迅速にデータを取得できます。この手法では、アクセス時間を短縮し、反復的なデータフェッチを回避することで、データのパフォーマンスを向上させます。キャッシュを使用すると、読み取り速度とユーザーの応答時間が向上します。特に、頻繁にアクセスされるデータの場合、この方法は、ほとんど変更されない静的データまたはデータに最も効果的です。

最適なキャッシュ効率を確保するには、有効期限ポリシー、削除戦略、キャッシュサイズの管理などの要因を考慮してください。最適なパフォーマンスを得るために、Time to Live (TTL) などの設定を調整します。キャッシュを使用してストレージの負荷を最適化するには、次の方法を検討してください。

メモリ内キャッシュ: メモリ内キャッシュを実行して、頻繁にアクセスされるデータをメモリに格納して高速に取得します。この手法は、データベースの計算や取得にコストがかかるアプリケーションデータに使用できます。メモリ内キャッシュは、頻繁に読み取るが頻繁に変更しないデータに役立ちます。
データベースクエリキャッシュ: この手法を使用して、同じクエリを複数回実行しないようにデータベースクエリの結果をキャッシュします。データベースクエリキャッシュは、複雑で時間のかかるデータベースクエリに役立ちます。クエリの結果をキャッシュすると、同じクエリに対する後続の要求が迅速に返されます。
コンテンツ配信ネットワークキャッシュ: この手法を使用して、分散ネットワークサーバー上の Web コンテンツをキャッシュし、待機時間を短縮し、コンテンツ配信を改善します。コンテンツ配信ネットワークキャッシュは、画像、CSS ファイル、JavaScript ファイルなどの静的コンテンツに有効です。コンテンツ配信ネットワークでは、世界中の複数の場所にコンテンツのコピーが格納されるため、ユーザーは地理的に近いサーバーからコンテンツにアクセスできます。

読み取りレプリカを使用する

多くのデータベースでは、複数の読み取りレプリカがサポートされています。読み取りクエリをレプリカ間で分散して、書き込みデータベースの需要を最小限に抑えます。各読み取りレプリカは、トラフィックのサブセットを処理できるため、パフォーマンスを向上させることができます。

同期を維持すると予想される複数のデータレプリカを含むワークロードがある場合は、PACELC 定理を使用してこの分散システムをモデル化すると便利です。 PACELC 定理は、システムの非パーティション状態における待機時間と定数のトレードオフの選択を理解するのに役立ちます。この情報は、パーティション分割および非パーティション状態のシステムに最適なデータベースエンジンとデータ同期戦略を選択するのに役立ちます。詳細については、「コマンドとクエリの責任分離 (CQRS) パターン」を参照してください。

データの一貫性を最適化する

分散ワークロードでは、データが複数のノードまたは場所にまたがって存在する場合、選択した一貫性のレベルによって、1 つの場所の変更が他の場所にどの程度迅速に反映されるかが決まります。より厳密な一貫性を選択すると、より多くのコンピューティングリソースが消費され、パフォーマンス効率に悪影響を及ぼす可能性があります。一方、最終的な整合性のような厳密でない整合性レベルでは、ノード間で一時的な不整合が発生しますが、パフォーマンス効率が向上する可能性があります。

最終的な整合性は、データの精度とワークロードのパフォーマンスのバランスを取ります。変更は即座ではなく徐々に広がり、ワークロードの応答性とデータ処理速度が向上します。有効期間が短い不整合が発生しますが、ワークロードは最終的にすべてのノードで一貫したデータを提供します。最終的な整合性を選択すると、ワークロードのパフォーマンスが向上し、可用性とスケーラビリティがさらに向上します。

データ更新を最適化する

オプティミスティックコンカレンシーを使用して、同じデータに対する同時更新を処理できます。データをロックして他の更新を防ぐ代わりに、オプティミスティックコンカレンシーを使用すると、複数のユーザーまたはプロセスを同時に動作させ、競合がまれであると想定します。

オプティミスティックコンカレンシーでは、各更新操作には、更新時のデータの状態を表すバージョンまたはタイムスタンプが含まれます。競合する更新プログラムが検出されると、更新プログラムを拒否するか変更をマージすることで、競合が解決されます。

オプティミスティックコンカレンシーは競合を最小限に抑え、不要なロックなしで同時更新を続行できます。これにより、リソースの待機時間が短縮され、高いスループットが提供されます。

データの移動と処理を最適化する

データの移動と処理の最適化には、データ抽出、変換、読み込み、処理に関連する操作の効率とパフォーマンスの向上が含まれます。データの移動と処理を最適化する上で、次の重要な側面を考慮してください。

抽出、変換、読み込み (ETL) の最適化: ETL プロセスを最適化して処理時間を最小限に抑えます。抽出プロセスを効率化し、効率的な変換アルゴリズムを実装し、読み込みプロセスを最適化できます。各ステップを効率的に行うと、ワークフロー全体を最適化できます。
並列処理: 並列処理手法を利用してパフォーマンスを向上させます。データ処理タスクを複数のスレッドまたはノードに分散すると、ワークロードを同時に分割して処理できるため、処理が高速になります。
バッチ処理: 同様のタスクをグループ化して、繰り返しの操作によるオーバーヘッドを軽減します。バッチで複数のタスクを処理して、全体的な処理時間を短縮します。

ストレージ設計を最適化する

ストレージ設計を最適化するには、正確なデータストレージアーキテクチャを作成し、適切なストレージテクノロジを選択する必要があります。合理化されたストレージ設計により、データアクセス、取得、操作が強化されます。戦略的なストレージ設計により、ワークロードは応答時間と全体的な機能を向上させます。

データの近接性を設計する

データの近接性とは、最も頻繁にアクセスするユーザーまたはサービスに近いデータの戦略的配置を指します。データとユーザーの間の物理的または論理的な距離を減らすことで、データの近接性により、データアクセスの高速化と応答性の向上が保証されます。近接性のために設計を最適化するには、次の戦略を検討してください。

データアクセスパターンを評価する: ワークロードのアクセスパターンと頻繁にアクセスされるデータを評価します。この分析は、最大限のメリットを得るためにデータを配置する場所を決定するのに役立ちます。
データ再配置をサポートするソリューションを選択する: アクセスパターンの変更に基づいて動的なデータ再配置を提供し、最適なデータの配置を確保するソリューションを検討します。
データ同期をサポートするソリューションを選択する: 分散ユーザーベースに対応する場合は、さまざまなリージョン間でデータ同期を容易にするソリューションを選択し、ユーザーに近接してデータレプリカを使用できるようにします。

トレードオフ: 基になるデータが頻繁に変更される場合は、キャッシュされたデータが最新の状態に保たれるように、キャッシュ無効化メカニズムを実装します。

ポリグロット永続化を使用する

ポリグロット永続化は、複数のデータストレージテクノロジを使用して、アプリケーションまたはシステム内のさまざまな種類のデータを格納および管理する方法です。さまざまな種類のデータベースまたはストレージソリューションが、さまざまなデータ要件に対応します。

ポリグロット永続化では、各データストレージテクノロジの利点を利用して、データの種類ごとに最適なパフォーマンスとスケーラビリティを確保します。たとえば、リレーショナルデータベースを使用して、構造化されたトランザクションデータを格納できます。また、NoSQL データベースを使用して、非構造化データまたは半構造化データを格納できます。

データの要件に基づいて、各データストレージテクノロジのスキーマを設計します。リレーショナルデータベースの場合は、適切なリレーションシップを持つ正規化されたテーブルを作成できます。 NoSQL データベースの場合は、ドキュメント構造またはキーと値のペアを定義できます。 API、データアクセス層、データ統合パイプラインなど、各データストレージテクノロジと対話するために必要なコンポーネントを開発します。アプリケーションが適切なデータストアに対してデータの読み取りと書き込みを行うことができることを確認します。

トレードオフ: 正規化が低いデータ構造では、パフォーマンスは向上しますが、複雑さが生じます。

OLTP システムと OLAP システムを分離する

OLTP システムと OLAP システムを分離するために、トランザクション処理タスクと分析処理タスク用に個別のシステムを設計および展開します。この分離により、各システムを特定のワークロードと特性に合わせて最適化できます。

OLTP システムは、リアルタイムトランザクション処理に使用されます。個々のトランザクションを効率的かつ確実に処理します。 OLTP システムは、通常、オンライン注文処理、在庫管理、顧客データ管理などの日常的な運用タスクを実行するために使用されます。 OLTP システムは、応答性、一貫性、コンカレンシーに優先順位を付けます。

OLAP システムは、複雑な分析処理とレポート作成に使用されます。大量のデータを処理し、集中的な計算と集計を実行します。 OLAP システムは、ビジネスインテリジェンス、データマイニング、意思決定のサポートなどのタスクに使用されます。 OLAP システムは、クエリのパフォーマンス、データ集計、多次元分析に優先順位を付けます。

OLTP システムと OLAP システムを分離する場合は、適切なリソースを割り当て、その特定のワークロードに合わせて各システムを最適化できます。分離を使用すると、各システムに異なるデータモデリング手法を適用できます。 OLTP システムでは、通常、効率的なトランザクション処理のために正規化されたスキーマが使用されます。 OLAP システムでは、クエリのパフォーマンスを最適化するために、非正規化されたスキーマまたはデータウェアハウス手法を使用する場合があります。

Azure ファシリテーション

プロファイルデータ: Azure には、Azure Data Catalog、Azure Purview、Azure Synapse Analytics などのデータのプロファイリングに使用できるツールとサービスが用意されています。これらのツールを使用すると、さまざまなソースからデータを抽出、変換、読み込み、データ品質チェックを実行し、データに関する分析情報を得ることができます。

データパフォーマンスの監視: データのパフォーマンスを監視するために、Azure Monitor を使用して、インフラストラクチャのメトリック、ログ、アプリケーションデータを収集および分析できます。 Monitor は、Application Insights などの他のサービスと統合できます。 Application Insights は、アプリケーションパフォーマンスの監視を提供し、多くのプラットフォームをサポートします。

Application Insights では、使用状況とパフォーマンスデータが収集されます。 Log Analytics を使用して、そのデータを Azure リソース全体の構成データとパフォーマンスデータと関連付けることができます。

Azure SQLと Azure Cosmos DB の分析情報機能を使用して、データベースを監視できます。この機能を使用すると、データベースのパフォーマンスの問題を診断および調整できます。

データのパーティション分割: Azure では、さまざまなデータストアに対してさまざまなパーティション分割戦略が提供されます。各データストアには、データパーティション分割に関する考慮事項と構成オプションが異なる場合があります。詳細については、「データパーティション分割戦略」を参照してください。

データベースクエリとインデックスのパフォーマンスの最適化: Azure SQL Database のクエリパフォーマンス分析情報機能を使用して、クエリ、テーブル、データベースを最適化します。この機能を使用して、クエリのパフォーマンスの問題を特定してトラブルシューティングできます。

リレーショナルデータベースの場合は、インデックス設計ガイドライン、SQL Serverインデックスガイダンス、Azure Cosmos DB インデックスガイダンスに従う必要があります。 SQL Databaseを使用して、クエリの自動チューニングを実行してパフォーマンスを向上させます。

SQL データベースでは、インデックスを定期的に再構成または再構築する必要があります。低速なクエリを特定し、パフォーマンスを向上させるために調整します。多くのデータベースエンジンにはクエリチューニング機能があります。詳細については、「クエリパフォーマンスのベストプラクティス」を参照してください。

Azure Cosmos DB には、すべてのアイテムのすべてのプロパティにインデックスを作成し、任意の文字列または数値に範囲インデックスを適用する既定のインデックス作成ポリシーがあります。このポリシーを使用すると、効率的なクエリパフォーマンスが提供され、インデックスを事前に管理する必要はありません。

ストレージの負荷の最適化: 多くの Azure データベースサービスでは、読み取りレプリカがサポートされています。読み取りレプリカの可用性と構成は、Azure データベースサービスによって異なります。詳細とオプションについては、各サービスの公式ドキュメントを参照してください。

ストレージ設計の最適化: Azure には、ワークロードのニーズに合わせてさまざまなデータストアが用意されています。データストアの種類を理解し、アプリケーションの Azure データストアを選択します。

パフォーマンス効率のチェックリスト

推奨事項の完全なセットを参照してください。

パフォーマンス効率チェックリスト

データパフォーマンスを最適化するための推奨事項

主要な設計戦略

Profile data (プロファイルデータ)

データのパフォーマンスを監視する

データのパーティション分割

データベースクエリを最適化する

インデックスのパフォーマンスを最適化する

データ圧縮を検討する

データのアーカイブと消去

ストレージの負荷を最適化する

キャッシュを使用する

読み取りレプリカを使用する

データの一貫性を最適化する

データ更新を最適化する

データの移動と処理を最適化する

ストレージ設計を最適化する

データの近接性を設計する

ポリグロット永続化を使用する

OLTP システムと OLAP システムを分離する

Azure ファシリテーション

パフォーマンス効率のチェックリスト

フィードバック

フィードバック

その他のリソース

データ パフォーマンスを最適化するための推奨事項

主要な設計戦略

Profile data (プロファイル データ)

データのパフォーマンスを監視する

データのパーティション分割

データベース クエリを最適化する

インデックスのパフォーマンスを最適化する

データ圧縮を検討する

データのアーカイブと消去

ストレージの負荷を最適化する

キャッシュを使用する

読み取りレプリカを使用する

データの一貫性を最適化する

データ更新を最適化する

データの移動と処理を最適化する

ストレージ設計を最適化する

データの近接性を設計する

ポリグロット永続化を使用する

OLTP システムと OLAP システムを分離する

Azure ファシリテーション

関連リンク

パフォーマンス効率のチェックリスト

フィードバック

フィードバック

その他のリソース

データパフォーマンスを最適化するための推奨事項

Profile data (プロファイルデータ)

データベースクエリを最適化する