Azure Monitor の自動スケーリングのトラブルシューティング

[アーティクル]
02/21/2024

Azure Monitor 自動スケーリングを使用すると、適切な量のリソースを実行して、アプリケーションに対する負荷を処理する際に役立ちます。リソースを追加して負荷の増加に対処したり、アイドル状態のリソースを削除して経費を節約したりできます。スケジュール、特定の日時、または選択したリソースメトリックに基づいてスケールできます。詳細については、自動スケールの概要に関するページを参照してください。

自動スケーリングサービスは、発生したスケールアクションと、それらのアクションを引き起こした条件の評価を理解するのに役立つ、メトリックとログを提供します。次のような質問に対する回答を見つけることができます。

サービスがスケールアウトまたはスケールインした理由
サービスがスケールされていない理由
自動スケーリングが失敗する理由
自動スケーリングアクションによってスケーリングするのに時間がかかる理由

Flex Virtual Machine Scale Sets

自動スケーリングのスケーリングアクションは、特定の仮想マシン操作セットの Flex Microsoft.Compute/virtualMachineScaleSets (VMSS) リソースに手動スケーリングアクションが適用された後、最大で数時間遅延します。
たとえば、操作が個々の VM に対して実行される Azure VM CLI Delete や Azure VM Rest API Delete などがあります。

このような場合、自動スケーリングサービスは個々の VM 操作を認識しません。

このシナリオを回避するには、同じ操作を仮想マシンスケールセットレベルで使用します。たとえば、Azure VMSS CLI Delete instance、または Azure VMSS Rest API Delete Instance などです。自動スケーリングは、仮想マシンスケールセット内のインスタンス数の変更を検出し、適切なスケーリングアクションを実行します。

自動スケーリングメトリック

自動スケーリングでは、操作を理解するための 4 つのメトリックが提供されます。

[Observed Metric Value](実際のメトリック値): スケールアクションを実行するために選択したメトリックの値。自動スケーリングエンジンによって表示または計算されます。 1 つの自動スケーリング設定に複数のルールを設定できるため、"メトリックソース" をディメンションとして使用して、複数のメトリックソースをフィルター処理できます。
[Metric Threshold](メトリックのしきい値): スケールアクションを実行するために設定するしきい値。 1 つの自動スケーリング設定に複数のルールを設定できるため、"メトリックルール" をディメンションとして使用して、複数のメトリックソースをフィルター処理できます。
[Observed Capacity](実際の容量): 自動スケーリングエンジンから見たターゲットリソースのアクティブなインスタンス数。
開始されたスケールアクション: 自動スケーリングエンジンによって開始されたスケールアウトおよびスケールインアクションの数。スケールアウトとスケールインアクションでフィルター処理できます。

メトリックスエクスプローラーを使用すると、上記のメトリックをすべて 1 か所でグラフ化できます。グラフには次が表示されます。

実際のメトリック。
自動スケーリングエンジンから見た/計算されたメトリック。
スケールアクションのしきい値。
容量の変更。

例 1: 自動スケーリングルールを分析する

仮想マシンスケールセットの自動スケーリング設定:

セットの平均 CPU 使用率が 10 分間 70% を超えたときにスケールアウトする。
セットの CPU 使用率が 10 分以上 5 % 未満のときにスケールインする。

自動スケーリングサービスのメトリックを確認してみましょう。

次のグラフは、仮想マシンスケールセットの [CPU 使用率] メトリックを示しています。

次のグラフは、自動スケーリング設定の [Observed Metric Value](実際のメトリック値) メトリックを示しています。

最後のグラフは、[Metric Threshold](メトリックのしきい値) と [Observed Capacity](実際の容量) メトリックを示しています。スケールアウトルールの上部にある [Metric Threshold](メトリックのしきい値) メトリックは 70 です。 [Observed Capacity](実際の容量) メトリックは、アクティブなインスタンスの数 (現在は 3) を示しています。

Note

スケールアウトのしきい値を確認するには、メトリックトリガールールディメンションのスケールアウト (増加) ルールと、スケールインルール (減少) で [Metric Threshold](メトリックのしきい値) をフィルター処理できます。

例 2: 仮想マシンスケールセットの高度な自動スケーリング

自動スケーリング設定により、仮想マシンスケールセットのリソースが、独自の送信フローメトリックに基づいてスケールアウトすることができます。メトリックのしきい値に対する [Divide metric by instance count](メトリックをインスタンス数で割る) オプションが選択されています。

スケールアクションルールでは、[Outbound Flow per instance](インスタンスごとの送信フロー) が10 を超える場合、自動スケーリングサービスは 1 インスタンスずつスケールアウトする必要があります。

この場合、自動スケーリングエンジンの実際のメトリック値は、インスタンスの数で割った実際のメトリック値として計算されます。実際のメトリック値がしきい値未満の場合、スケールアウトアクションは開始されません。

次のスクリーンショットは、2 つのメトリックグラフを示しています。

[Avg Outbound Flows](平均送信フロー) グラフには、[送信フロー] メトリックの値が表示されます。実際の値は 6 です。

次のグラフは、いくつかの値を示しています。

中央の [Observed Metric Value](実際のメトリック値) メトリックは 3 です。これは、アクティブなインスタンスが 2 つあり、6 を 2 で割った数が 3 であるためです。
下部の [Observed Capacity](実際の容量) メトリックは、自動スケーリングエンジンによって検出されたインスタンス数を示します。
上部の [メトリックのしきい値] メトリックは 10 に設定されています。

複数のスケールアクションルールがある場合は、分割を使用するか、メトリックスエクスプローラーグラフの [フィルターを追加する] オプションを選択して、特定のソースまたはルールでメトリックを確認できます。メトリックグラフの分割の詳細については、メトリックグラフの高度な機能 - 分割に関する記事を参照してください。

例 3: 自動スケーリングイベントを理解する

自動スケーリングの設定画面で、 [実行履歴] タブにアクセスして、最新のスケールアクションを確認します。また、このタブには実際の容量が時系列で示されます。自動スケーリング設定の更新や削除などの操作を含む、すべての自動スケーリングアクションに関する情報を確認するには、アクティビティログを表示し、自動スケーリングアクションでフィルター処理します。

自動スケーリングのリソースログ

自動スケーリングサービスでは、リソースログが提供されます。ログには次の 2 つのカテゴリがあります。

自動スケーリング評価: 自動スケーリングエンジンでは、チェックを行うたびに、単一の条件評価ごとにログエントリが記録されます。エントリには、メトリックの実際の値、評価されたルール、評価の結果がスケールアクションであったかどうかに関する詳細が含まれます。
自動スケーリングアクション: エンジンは、自動スケーリングサービスによって開始されるスケールアクションイベントと、スケールアクションの結果 (成功、失敗、および自動スケーリングサービスから見たスケーリングの数) を記録します。

サポートされている Azure Monitor サービスと同様に、診断設定を使用して、これらのログを次の場所にルーティングできます。

詳細な分析用の Log Analytics ワークスペース。
Azure Event Hubs。その後 Azure 以外のツールへ。
アーカイブ用の Azure Storage アカウント。

上記のスクリーンショットは、Azure portal の自動スケーリングの [Diagnostics settings](診断設定) ペイン示しています。ここで、[Diagnostic Logs](診断ログ) または [Resource Logs](リソースログ) タブを選択し、ログの収集とルーティングを有効にすることができます。また、REST API、Azure CLI、PowerShell、Azure Resource Manager テンプレートを使用して診断設定を行うこともできます。これを行うには、リソースの種類として [Microsoft Insights/AutoscaleSettings] を選択します。

自動スケーリングログを使用したトラブルシューティング

最適なトラブルシューティングを行うには、自動スケーリング設定を作成するときに、ワークスペースを使用して Azure Monitor ログ (Log Analytics) にログをルーティングすることをお勧めします。このプロセスについては、前のセクションのスクリーンショットを参照してください。 Log Analytics を使用すると、評価とスケーリングアクションをより適切に検証できます。

Log Analytics ワークスペースに送信されるように自動スケーリングログを構成したら、次のクエリを実行してログを確認できます。

開始するには、次のクエリを実行して、最新の自動スケーリング評価ログを表示します。

AutoscaleEvaluationsLog
| limit 50

または、次のクエリを実行して、最新のスケールアクションログを表示します。

AutoscaleScaleActionsLog
| limit 50

これらの質問の回答については、次のセクションを参照してください。

予期していなかったスケールアクションが発生した

まず、スケールアクションのクエリを実行して、目的のスケールアクションを見つけます。最新のスケールアクションの場合は、次のクエリを使用します。

AutoscaleScaleActionsLog
| take 1

スケールアクションログから CorrelationId フィールドを選択します。正しい評価ログを検索するには、CorrelationId を使用します。次のクエリを実行すると、評価され、そのスケールアクションにつながったすべてのルールと条件が表示されます。

AutoscaleEvaluationsLog
| where CorrelationId = "<correliationId>"

スケールアクションの原因となったプロファイルは何か

スケーリングされたアクションが発生しましたが、ルールとプロファイルが重複しており、このアクションの原因となったものを追跡する必要があります。

例 1 で説明したように、スケールアクションの CorrelationId を見つけます。次に、評価ログに対してクエリを実行し、プロファイルの詳細を確認します。

AutoscaleEvaluationsLog
| where CorrelationId = "<correliationId_Guid>"
| where ProfileSelected == true
| project ProfileEvaluationTime, Profile, ProfileSelected, EvaluationResult

次のクエリを使用して、プロファイル全体の評価をより適切に理解することもできます。

AutoscaleEvaluationsLog
| where TimeGenerated > ago(2h)
| where OperationName contains == "profileEvaluation"
| project OperationName, Profile, ProfileEvaluationTime, ProfileSelected, EvaluationResult

スケールアクションが発生しませんでした

スケールアクションを想定していましたが、発生しませんでした。スケールアクションイベントまたはログがない可能性があります。

メトリックベースのスケールルールを使用している場合は、自動スケーリングメトリックを確認します。 [Observed Metric](実際のメトリック) 値または [Observed Capacity](実際の容量) 値が想定したものではないため、スケールルールが起動されなかった可能性があります。評価は引き続き表示されますが、スケールアウトルールは表示されません。また、クールダウン時間によりスケールアクションが実行されなかった可能性もあります。

スケールアクションが発生すると想定された期間の自動スケーリングの評価ログを確認します。実行したすべての評価と、スケールアクションがトリガーされなかった理由を確認します。

AutoscaleEvaluationsLog
| where TimeGenerated > ago(2h)
| where OperationName == "MetricEvaluation" or OperationName == "ScaleRuleEvaluation"
| project OperationName, MetricData, ObservedValue, Threshold, EstimateScaleResult

スケールアクションに失敗しました

自動スケーリングサービスではスケールアクションが実行されましたが、システムによりスケーリングが中止されたか、スケーリングアクションの完了に失敗した可能性があります。このクエリを使用して、失敗したスケールアクションを検索します。

AutoscaleScaleActionsLog
| where ResultType == "Failed"
| project ResultDescription

アラートルールを作成して、自動スケーリングのアクションまたはエラーが通知されるようにします。アラートルールを作成して、自動スケーリングイベントについて通知を受け取ることもできます。

自動スケーリングのリソースログのスキーマ

詳細については、自動スケーリングのリソースログに関するページを参照してください。

次のステップ

自動スケーリングのベストプラクティスに関する情報を参照してください。

Azure Monitor の自動スケーリングのトラブルシューティング

Flex Virtual Machine Scale Sets

自動スケーリング メトリック

例 1: 自動スケーリング ルールを分析する

例 2: 仮想マシン スケール セットの高度な自動スケーリング

例 3: 自動スケーリング イベントを理解する

自動スケーリングのリソース ログ

自動スケーリング ログを使用したトラブルシューティング

予期していなかったスケール アクションが発生した

スケール アクションの原因となったプロファイルは何か

スケール アクションが発生しませんでした

スケール アクションに失敗しました

自動スケーリングのリソース ログのスキーマ