Azure Monitor の動的しきい値を使用したメトリック アラートMetric Alerts with Dynamic Thresholds in Azure Monitor

動的しきい値を使用したメトリック アラートでは、高度な機械学習 (ML) を活用して、メトリックの動きの履歴を学び、パターンや、サービスの問題の可能性を示す異常を識別します。Metric Alert with Dynamic Thresholds detection leverages advanced machine learning (ML) to learn metrics' historical behavior, identify patterns and anomalies that indicate possible service issues. ユーザーが Azure Resource Manager API でアラート ルールを構成でき、完全に自動化された方法で、単純な UI と規模に応じた操作の両方がサポートされます。It provides support of both a simple UI and operations at scale by allowing users to configure alert rules through the Azure Resource Manager API, in a fully automated manner.

アラート ルールが作成された後、調整されたしきい値に基づいて、監視対象のメトリックが予期したとおりに動作しない場合のみルールが実行されます。Once an alert rule is created, it will fire only when the monitored metric doesn’t behave as expected, based on its tailored thresholds.

ご意見、ご感想がある場合は、azurealertsfeedback@microsoft.com までお寄せください。We would love to hear your feedback, keep it coming at azurealertsfeedback@microsoft.com.

  1. スケーラブル アラート – 動的なしきい値の警告ルールは、一度に数百のメトリックシリーズに合わせて調整されたしきい値を作成できますが、1つのメトリックでアラートルールを定義するのと同じくらい簡単です。Scalable Alerting – Dynamic threshold alert rules can create tailored thresholds for hundreds of metric series at a time, yet providing the same ease of defining an alert rule on a single metric. 作成および管理するアラートの量を減らすことができます。They give you fewer alert to create and manage. Azure portal または Azure Resource Manager API を使用して作成できます。You can use either Azure portal or the Azure Resource Manager API to create them. スケーラブルな方法が特に役立つのは、メトリックのディメンションを処理する場合、あるいは、すべてのサブスクリプションのリソースなどの複数のリソースに適用する場合です。The scalable approach is especially useful when dealing with metric dimensions or when applying to multiple resources, such as to all subscription resources. 動的しきい値を使用したメトリック アラートを構成するためにテンプレートを使用する方法はこちらをご覧くださいLearn more about how to configure Metric Alerts with Dynamic Thresholds using templates.

  2. スマート メトリック パターン認識 – MLテクノロジーを使用して、メトリックパターンを自動的に検出し、時間の経過に伴うメトリックの変化に適応できます。これには、季節性(時間/日/週)が含まれることがあります。Smart Metric Pattern Recognition – Using our ML technology, we’re able to automatically detect metric patterns and adapt to metric changes over time, which may often include seasonality (hourly / daily / weekly). 時間経過に伴うメトリックの動きに合わせて、パターンからの偏差に基づいてアラートを生成することにより、各メトリックの 「正しい」しきい値を知っておくという負担が軽減されます。Adapting to the metrics’ behavior over time and alerting based on deviations from its pattern relieves the burden of knowing the "right" threshold for each metric. 動的しきい値で使用される ML アルゴリズムは、予期されるパターンを含まない、ノイズの多い (低精度) しきい値またはワイドな (低再現率) しきい値を抑制するように設計されています。The ML algorithm used in Dynamic Thresholds is designed to prevent noisy (low precision) or wide (low recall) thresholds that don’t have an expected pattern.

  3. 直感的な構成 – 動的しきい値を使用すると、高度な概念を使用したメトリック アラートを設定でき、メトリックについて広範なドメイン知識を持つ必要が少なくなります。Intuitive Configuration – Dynamic Thresholds allows setting up metric alerts using high-level concepts, alleviating the need to have extensive domain knowledge about the metric.

動的しきい値を使用したアラート ルールの構成方法How to configure alerts rules with Dynamic Thresholds?

動的しきい値を使用したアラートは、Azure Monitor の [メトリック アラート] で設定できます。Alerts with Dynamic Thresholds can be configured through Metric Alerts in Azure Monitor. メトリック アラートの構成方法はこちらをご覧くださいLearn more about how to configure Metric Alerts.

しきい値の計算方法How are the thresholds calculated?

動的しきい値は、メトリックの系列のデータを学習し続け、一連のアルゴリズムとメソッドを使用してモデル化しようとします。Dynamic Thresholds continuously learns the data of the metric series and tries to model it using a set of algorithms and methods. 季節性 (毎時/毎日/毎週) のようなデータのパターンを検出し、ノイズの多いメトリック (マシンの CPU またはメモリなど) と分散性が低いメトリック (可用性やエラー率など) を処理できるようになります。It detects patterns in the data such as seasonality (Hourly / Daily / Weekly), and is able to handle noisy metrics (such as machine CPU or memory) as well as metrics with low dispersion (such as availability and error rate).

しきい値からの偏差がメトリックの動作の異常を示すように、しきい値を選択します。The thresholds are selected in such a way that a deviation from these thresholds indicates an anomaly in the metric behavior.

注意

動的しきい値を使用すると、時間単位、日単位、または週単位のパターンの季節性を検出することができます。Dynamic Thresholds can detect seasonality for hourly, daily, or weekly patterns. その他のパターン、たとえば 2 時間ごと、または週に 2 回の季節性は検出されない場合があります。Other patterns like bi-hourly or semi-weekly seasonality might not be detected. 週単位の季節性を検出するには、3 週間分以上の履歴データが必要です。To detect weekly seasonality, at least three weeks of historical data are required.

動的しきい値の "秘密度" 設定とはWhat does 'Sensitivity' setting in Dynamic Thresholds mean?

アラートしきい値の秘密度は、アラートをトリガーするために必要なメトリックの動作からの偏差の量を制御する高度な概念です。Alert threshold sensitivity is a high-level concept that controls the amount of deviation from metric behavior required to trigger an alert. この方法では、静的しきい値のようにメトリックに関するドメインの知識は不要です。This option doesn't require domain knowledge about the metric like static threshold. 次の方法を使用できます。The options available are:

  • 高 – しきい値は、メトリックの系列パターンに近い値になります。High – The thresholds will be tight and close to the metric series pattern. アラート ルールは最小の偏差でトリガーされ、アラートは増えます。An alert rule will be triggered on the smallest deviation, resulting in more alerts.
  • 中 – ゆとりがあるバランスの取れたしきい値です。高秘密度 (既定) よりもアラート数が少なくなります。Medium – Less tight and more balanced thresholds, fewer alerts than with high sensitivity (default).
  • 低 – メトリックの系列パターンから離れます。Low – The thresholds will be loose with more distance from metric series pattern. アラート ルールは大きい偏差でトリガーされ、アラートは減ります。An alert rule will only trigger on large deviations, resulting in fewer alerts.

動的しきい値の "演算子" 設定オプションとはWhat are the 'Operator' setting options in Dynamic Thresholds?

動的しきい値のアラート ルールは、同じアラート ルールを使用して上限と下限について、メトリックの動作に基づいて調整したしきい値を作成できます。Dynamic Thresholds alerts rule can create tailored thresholds based on metric behavior for both upper and lower bounds using the same alert rule. 次の 3 つの条件のいずれかを基にアラートをトリガーするよう選択できます。You can choose the alert to be triggered on one of the following three conditions:

  • 上限しきい値より大きいか、下限しきい値より小さい (既定値)Greater than the upper threshold or lower than the lower threshold (default)
  • 上限しきい値より大きいGreater than the upper threshold
  • 下限しきい値より小さいLower than the lower threshold.

動的しきい値の高度な設定の意味What do the advanced settings in Dynamic Thresholds mean?

失敗期間 - 動的しきい値では、「アラートをトリガーする違反の数」も構成できます。これは、システムがアラートを発生させるために特定の時間枠内で必要な最小数の偏差を構成することもできます (既定時間枠は 20 分間に 4 回の偏差)。Failing Periods - Dynamic Thresholds also allows you to configure "Number violations to trigger the alert", a minimum number of deviations required within a certain time window for the system to raise an alert (the default time window is four deviations in 20 minutes). ユーザーは、失敗期間を構成し、失敗期間と時間ウィンドウを変更してアラートの対象を選択できます。The user can configure failing periods and choose what to be alerted on by changing the failing periods and time window. この機能により、一時的なスパイクによって生成されるアラートのノイズが軽減されます。This ability reduces alert noise generated by transient spikes. 次に例を示します。For example:

20 分間問題が継続するとき、つまり所定の 5 分ごとの区切りで 4 回連続してしきい値を超えた場合にアラートをトリガーするには、次の設定を使用します。To trigger an alert when the issue is continuous for 20 minutes, 4 consecutive times in a given period grouping of 5 minutes, use the following settings:

問題の継続が 20 分間 (所定の 5 分間の区切りで連続 4 回) の失敗期間の設定

5 分ごとの区切りで過去 30 分間のうち 20 分間で動的しきい値を超えた状態が続いた場合に、アラートをトリガーするには、次の設定を使用します。To trigger an alert when there was a violation from a Dynamic Thresholds in 20 minutes out of the last 30 minutes with period of 5 minutes, use the following settings:

過去 30 分 (5 分ごとの区切り) のうち 20 分間問題がある失敗期間の設定

以前のデータを無視 - ユーザーは必要に応じて、システムによるしきい値の計算の開始日付を定義することもできます。Ignore data before - Users may also optionally define a start date from which the system should begin calculating the thresholds from. 一般的なユース ケースとしては、リソースがテスト モードで実行していたが、運用環境のワークロードを処理するように昇格された場合があります。このとき、テスト フェーズでのメトリックの動作は無視する必要があります。A typical use case may occur when a resource was a running in a testing mode and is now promoted to serve a production workload, and therefore the behavior of any metric during the testing phase should be disregarded.

動的しきい値アラートがトリガーされた理由を知る方法How do you find out why a Dynamic Thresholds alert was triggered?

トリガーされたアラートのインスタンスは、メールまたはテキスト メッセージのリンクをクリックしてアラート ビューで調査できるほか、ブラウザーで Azure portal のアラート ビューにアクセスして調査することができます。You can explore triggered alert instances in the alerts view either by clicking on the link in the email or text message, or browser to see the alerts view in the Azure portal. アラート ビューの詳細については、こちらを参照してくださいLearn more about the alerts view.

アラート ビューには、次の情報が表示されます。The alert view displays:

  • 動的しきい値アラートの発生時点におけるすべてのメトリック情報。All the metric details at the moment the Dynamic Thresholds alert fired.
  • アラートがトリガーされた期間のグラフ。これにはその時点で使用された動的しきい値が含まれます。A chart of the period in which the alert was triggered that includes the Dynamic Thresholds used at that point in time.
  • 動的しきい値アラートとアラート ビューのエクスペリエンスに関するフィードバックを送信する機能。これは、将来の検出機能の向上に役立てられます。Ability to provide feedback on Dynamic Thresholds alert and the alerts view experience, which could improve future detections.

メトリックの動作の変化が遅いとアラートがトリガーされますか?Will slow behavior changes in the metric trigger an alert?

答えはおそらく「いいえ」でしょう。Probably not. 動的しきい値は、緩やかに変化する問題ではなく、大きな偏差を検出する場合に有効です。Dynamic Thresholds are good for detecting significant deviations rather than slowly evolving issues.

しきい値のプレビューと計算に使用されるデータの量How much data is used to preview and then calculate thresholds?

アラート ルールが最初に作成されると、グラフに表示されるしきい値は、時間または毎日の季節パターン (10日間) を計算するのに十分な履歴データに基づいて計算されます。When an alert rule is first created, the thresholds appearing in the chart are calculated based on enough historical data to calculate hour or daily seasonal patterns (10 days). アラートルールが作成されると、動的しきい値は必要なすべての利用可能な履歴データを使用し、新しいデータに基づいて継続的に学習および適応してしきい値をより正確にします。Once an alert rule is created, Dynamic Thresholds uses all needed historical data that is available and will continuously learn and adapt based on new data to make the thresholds more accurate. つまり、この計算の後には、グラフも週パターンを表示します。This means that after this calculation, the chart will also display weekly patterns.

アラートをトリガーするためにどれくらいのデータが必要ですか。How much data is needed to trigger an alert?

新しいリソースがあるか、またはメトリック データが不足している場合、しきい値の精度を保つため、メトリック データの利用が可能になる 3 日前、かつサンプル数が 30 以上になるまで、動的しきい値ではアラートがトリガーされません。If you have a new resource or missing metric data, Dynamic Thresholds won't trigger alerts before three days and at least 30 samples of metric data are available, to ensure accurate thresholds. 十分なメトリック データがある既存のリソースの場合、動的しきい値を使用してすぐにアラートをトリガーできます。For existing resources with sufficient metric data, Dynamic Thresholds can trigger alerts immediately.

動的しきい値のベスト プラクティスDynamic Thresholds best practices

動的しきい値は、ほとんどのプラットフォームおよび Azure Monitor のカスタム メトリックに適用できます。さらに、一般的なアプリケーションとインフラストラクチャのメトリック用に調整されてきました。Dynamic Thresholds can be applied to most platform and custom metrics in Azure Monitor and it was also tuned for the common application and infrastructure metrics. 次の項目は、動的しきい値を使用するこれらのメトリックのいくつかにアラートを構成する方法に関するベスト プラクティスです。The following items are best practices on how to configure alerts on some of these metrics using Dynamic Thresholds.

仮想マシンの CPU 割合メトリックの動的しきい値Dynamic Thresholds on virtual machine CPU percentage metrics

  1. Azure portal で、 [モニター] をクリックします。In Azure portal, click on Monitor. [モニター] ビューでは、すべての監視設定とデータが 1 つのビューにまとめられています。The Monitor view consolidates all your monitoring settings and data in one view.

  2. [アラート] をクリックして、 [+ 新しいアラート ルール] をクリックします。Click Alerts then click + New alert rule.

    ヒント

    ほとんどのリソース ブレードにも [監視] のリソース メニューに [アラート] があり、そこからもアラートを作成できます。Most resource blades also have Alerts in their resource menu under Monitoring, you could create alerts from there as well.

  3. [ターゲットの選択] をクリックし、読み込まれるコンテキスト ウィンドウで、アラートを設定するターゲット リソースを選択します。Click Select target, in the context pane that loads, select a target resource that you want to alert on. サブスクリプション[リソースの種類] の [Virtual Machines] ドロップダウンを使用して、監視するリソースを検索します。Use Subscription and 'Virtual Machines' Resource type drop-downs to find the resource you want to monitor. 検索バーを使用して、リソースを検索することもできます。You can also use the search bar to find your resource.

  4. ターゲット リソースを選択した後、 [条件の追加] をクリックします。Once you have selected a target resource, click on Add condition.

  5. [CPU の割合] を選択します。Select the 'CPU Percentage'.

  6. 必要に応じて、 [期間][集計] を調整して、メトリックを設定し直します。Optionally, refine the metric by adjusting Period and Aggregation. このメトリックの種類で、集計の種類として [最大] を使用することはお勧めしません。理由は、動きの表現力が低いためです。It is discouraged to use 'Maximum' aggregation type for this metric type as it is less representative of behavior. [最大] という集計の種類では、静的しきい値のほうが適切である可能性があります。For 'Maximum' aggregation type static threshold maybe more appropriate.

  7. 過去 6 時間のメトリックのグラフが表示されます。You will see a chart for the metric for the last 6 hours. アラートのパラメーターを定義します。Define the alert parameters:

    1. [条件の種類] : [動的] オプションを選択します。Condition Type - Choose 'Dynamic' option.
    2. [感度] : アラートのノイズを減らすために、[中] または [低] を選択します。Sensitivity - Choose Medium/Low sensitivity to reduce alert noise.
    3. [演算子] : 動きがアプリケーションの使用状況を表す場合を除き、[より大きい] を選択します。Operator - Choose 'Greater Than' unless behavior represents the application usage.
    4. [頻度] : アラートのビジネスへの影響に基づいて低くすることを検討してください。Frequency - Consider lowering based on business impact of the alert.
    5. [失敗期間] : (高度なオプション) ルックバック期間は 15 分以上にする必要があります。Failing Periods (Advanced Option) - The look back window should be at least 15 minutes. たとえば、[期間] が 5 分に設定されている場合、[失敗期間] は 3 以上にする必要があります。For example, if the period is set to five minutes, then failing periods should be at least three or more.
  8. メトリック グラフに、最新のデータに基づいて計算されたしきい値が表示されます。The metric chart will display the calculated thresholds based on recent data.

  9. [Done] をクリックします。Click Done.

  10. [アラート ルール名][説明][重大度] などの [アラートの詳細] を指定します。Fill in Alert details like Alert Rule Name, Description, and Severity.

  11. 既存のアクション グループを選択するか、新しいアクション グループを作成して、アラートにアクション グループを追加します。Add an action group to the alert either by selecting an existing action group or creating a new action group.

  12. [完了] をクリックして、メトリック アラート ルールを保存します。Click Done to save the metric alert rule.

注意

ポータルで作成したメトリック アラート ルールは、ターゲット リソースと同じリソース グループに作成されます。Metric alert rules created through portal are created in the same resource group as the target resource.

Application Insights での HTTP 要求の実行時間の動的しきい値Dynamic Thresholds on Application Insights HTTP request execution time

  1. Azure portal で、 [モニター] をクリックします。In Azure portal, click on Monitor. [モニター] ビューでは、すべての監視設定とデータが 1 つのビューにまとめられています。The Monitor view consolidates all your monitoring settings and data in one view.

  2. [アラート] をクリックして、 [+ 新しいアラート ルール] をクリックします。Click Alerts then click + New alert rule.

    ヒント

    ほとんどのリソース ブレードにも [監視] のリソース メニューに [アラート] があり、そこからもアラートを作成できます。Most resource blades also have Alerts in their resource menu under Monitoring, you could create alerts from there as well.

  3. [ターゲットの選択] をクリックし、読み込まれるコンテキスト ウィンドウで、アラートを設定するターゲット リソースを選択します。Click Select target, in the context pane that loads, select a target resource that you want to alert on. サブスクリプション[リソースの種類] の [Application Insights] ドロップダウンを使用して、監視するリソースを検索します。Use Subscription and 'Application Insights' Resource type drop-downs to find the resource you want to monitor. 検索バーを使用して、リソースを検索することもできます。You can also use the search bar to find your resource.

  4. ターゲット リソースを選択した後、 [条件の追加] をクリックします。Once you have selected a target resource, click on Add condition.

  5. [HTTP 要求の実行時間] を選択します。Select the 'HTTP request execution time'.

  6. 必要に応じて、 [期間][集計] を調整して、メトリックを設定し直します。Optionally, refine the metric by adjusting Period and Aggregation. このメトリックの種類で、集計の種類として [最大] を使用することはお勧めしません。理由は、動きの表現力が低いためです。It is discouraged to use 'Maximum' aggregation type for this metric type as it is less representative of behavior. [最大] という集計の種類では、静的しきい値のほうが適切である可能性があります。For 'Maximum' aggregation type static threshold maybe more appropriate.

  7. 過去 6 時間のメトリックのグラフが表示されます。You will see a chart for the metric for the last 6 hours. アラートのパラメーターを定義します。Define the alert parameters:

    1. [条件の種類] : [動的] オプションを選択します。Condition Type - Choose 'Dynamic' option.
    2. [演算子] : 持続時間が改善されたときに発生するアラートを減らすために、[より大きい] を選択します。Operator - Choose 'Greater Than' to reduce alerts fired on improvement in duration.
    3. [頻度] : アラートのビジネスへの影響に基づいて低くすることを検討してください。Frequency - Consider lowering based on business impact of the alert.
  8. メトリック グラフに、最新のデータに基づいて計算されたしきい値が表示されます。The metric chart will display the calculated thresholds based on recent data.

  9. [Done] をクリックします。Click Done.

  10. [アラート ルール名][説明][重大度] などの [アラートの詳細] を指定します。Fill in Alert details like Alert Rule Name, Description, and Severity.

  11. 既存のアクション グループを選択するか、新しいアクション グループを作成して、アラートにアクション グループを追加します。Add an action group to the alert either by selecting an existing action group or creating a new action group.

  12. [完了] をクリックして、メトリック アラート ルールを保存します。Click Done to save the metric alert rule.

注意

ポータルで作成したメトリック アラート ルールは、ターゲット リソースと同じリソース グループに作成されます。Metric alert rules created through portal are created in the same resource group as the target resource.

動的なしきい値グラフの解釈Interpreting Dynamic Threshold charts

次に示すのは、メトリック、動的なしきい値の制限、および値が許可されたしきい値を超えたときに発生した警告を示すグラフです。Following is a chart showing a metric, its dynamic threshold limits, and some alerts fired when the value was outside of the allowed thresholds.

メトリック アラートの構成方法を学習する

次の情報を使用して、前のグラフを解釈します。Use the following information to interpret the previous chart.

  • 青色の線 - 時間の経過と共に実際に測定されたメトリックです。Blue line - The actual measured metric over time.
  • 青色の網掛けされた領域の-メトリックで許容される範囲を示します。Blue shaded area - Shows the allowed range for the metric. メトリック値がこの範囲内にある限り、アラートは発生しません。As long as the metric values stay within this range, no alert will occur.
  • 青いドット - グラフの一部を左クリックし、青い線の上にマウスポインターを置くと、個々の集計されたメトリック値を示す青い点がカーソルの下に表示されます。Blue dots - If you left click on part of the chart and then hover over the blue line, you see a blue dot appear under your cursor showing an individual aggregated metric value.
  • [青いドットでポップアップする] - 測定されたメトリック値 (青いドット) と、許容範囲の上限値と下限値を表示します。Pop-up with blue dot - Shows the measured metric value (the blue dot) and the upper and lower values of allowed range.
  • 黒い円で囲まれた赤い点 - 許容範囲外の最初のメトリック値が表示されます。Red dot with a black circle - Shows the first metric value out of the allowed range. この値は、メトリックアラートを発生させ、アクティブな状態にします。This is the value that fires a metric alert and puts it in an active state.
  • 赤色のドット - 許容範囲外の追加の測定値を示します。Red dots- Indicate additional measured values outside of the allowed range. 追加のメトリックアラートは発生しませんが、アラートはアクティブな状態のままになります。They will not fire additional metric alerts, but the alert stays in the active.
  • 赤色の領域-メトリック値が許容範囲外であった時刻を示します。Red area - Shows the time when the metric value was outside of the allowed range. アラートは、後続の測定値が許容範囲外にある限りアクティブ状態のままですが、新しいアラートは発生しません。The alert remains in the active state as long as subsequent measured values are out of the allowed range, but no new alerts are fired.
  • 赤色の領域の終了 - 青い線が許可された値の内側に戻ると、赤色の領域が停止し、測定値の線が青に変わります。End of red area - When the blue line is back inside the allowed values, the red area stops and the measured value line turns blue. 黒色の輪郭付きの赤いドットの時点で発生したメトリックアラートの状態が [解決済み] に設定されます。The status of the metric alert fired at the time of the red dot with black outline is set to resolved.