Überwachen von Betriebsproblemen in Ihrem Log Analytics-Arbeitsbereich in Azure Monitor

Artikel
07/02/2023

Um die Leistung und Verfügbarkeit Ihres Log Analytics-Arbeitsbereichs in Azure Monitor zu gewährleisten, müssen Sie in der Lage sein, jedes auftretende Probleme proaktiv zu erkennen. In diesem Artikel wird beschrieben, wie Sie die Integrität Ihres Log Analytics-Arbeitsbereichs mithilfe von Daten in der Operation-Tabelle überwachen. Diese Tabelle ist in jedem Log Analytics-Arbeitsbereich enthalten. Sie enthält Fehlermeldungen und Warnungen, die im Arbeitsbereich auftreten. Es wird empfohlen, Warnungen für Probleme mit der Stufe „Warnung“ bzw. „Fehler“ zu erstellen.

Erforderliche Berechtigungen

Sie müssen über Microsoft.OperationalInsights/workspaces/query/*/read-Berechtigungen für die Log Analytics-Arbeitsbereiche verfügen, die Sie abfragen, wie sie z. B. von der integrierten Log Analytics-Reader-Rolle bereitgestellt werden.

_LogOperation-Funktion

Azure Monitor-Protokolle senden Informationen zu einem Problem an die Tabelle Operation in dem Arbeitsbereich, in dem das Problem aufgetreten ist. Die Systemfunktion _LogOperation basiert auf der Tabelle Operation und bietet vereinfachte Informationen für Analysen und Warnungen.

Spalten

Die Funktion _LogOperation gibt die Spalten in der folgenden Tabelle zurück.

Spalte	BESCHREIBUNG
TimeGenerated	Der Zeitpunkt in UTC, zu dem der Vorfall aufgetreten ist.
Kategorie	Die Vorgangskategoriegruppe. Hiermit kann nach Vorgangstypen gefiltert werden und ermöglicht das Erstellen genauerer Systemüberwachungen und Warnungen. Eine Liste der Kategorien finden Sie im folgenden Abschnitt.
Vorgang	Eine Beschreibung des Vorgangstyps. Für diesen Vorgang kann darauf hingewiesen werden, dass einer der Log Analytics-Grenzwerte erreicht wurde, ein Problem mit dem Back-End-Prozess besteht oder eine andere Dienstmeldung angezeigt wird.
Ebene	Der Schweregrad des Problems: – Info: Es ist keine besondere Aufmerksamkeit erforderlich. – Warnung: Der Prozess wurde nicht erwartungsgemäß abgeschlossen, und Aufmerksamkeit ist erforderlich. – Fehler: Der Prozess ist fehlgeschlagen, und Aufmerksamkeit ist erforderlich.
Detail	Ausführliche Beschreibung des Vorgangs, enthält die spezifische Fehlermeldung.
_ResourceId	Die Ressourcen-ID der Azure-Ressource, die mit dem Vorgang im Zusammenhang steht.
Computer	Der Computername, wenn der Vorgang mit einem Azure Monitor-Agent im Zusammenhang steht.
CorrelationId	Hiermit werden aufeinander folgende verwandte Vorgänge gruppiert.

Kategorien

In der folgenden Tabelle werden die Kategorien der _LogOperation-Funktion beschrieben.

Category	BESCHREIBUNG
Erfassung	Vorgänge, die Teil des Datenerfassungsprozesses sind.
Agent	Weist auf ein Problem mit der Agentinstallation hin.
Datensammlung	Vorgänge im Zusammenhang mit Datensammlungsprozessen.
Zielgruppenadressierung	Vorgang des Typs `ConfigurationScope` wurde verarbeitet.
Bewertungslösung	Ein Bewertungsprozess wurde ausgeführt.

Erfassung

Erfassungsvorgänge sind Probleme, die bei der Datenerfassung aufgetreten sind, und umfassen Benachrichtigungen über das Erreichen der Grenzwerte für den Log Analytics-Arbeitsbereich. Fehlerbedingungen in dieser Kategorie können auf Datenverluste hindeuten und müssen daher unbedingt überwacht werden. Informationen zu Diensteinschränkungen für Log Analytics-Arbeitsbereiche finden Sie unter Azure Monitor-Diensteinschränkungen.

Wichtig

Wenn Sie die Datensammlung für ein Szenario behandeln, das eine Datensammlungsregel (Data Collection Rule, DCR) verwendet, z. B. Azure Monitor-Agent oder Protokollaufnahme-API, finden Sie weitere Informationen zur Problembehandlung unter Überwachen und Problembehandlung bei der DCR-Datensammlung in Azure Monitor.

Vorgang: Datensammlung beendet

„Die Datensammlung wurde beendet, da das Tageslimit für kostenlose Daten erreicht wurde. Erfassungsstatus = OverQuota“

Innerhalb der letzten sieben Tage wurde für die Sammlung von Protokollen das Tageslimit erreicht. Das Limit besteht entweder, weil der Arbeitsbereich auf Free-Tarif festgelegt ist oder für den Arbeitsbereich ein Limit für die tägliche Sammlung konfiguriert wurde. Nachdem die Datensammlung das festgelegte Limit erreicht hat, wird sie für den Tag automatisch beendet und erst am nächsten Sammlungstag fortgesetzt.

Empfohlene Aktionen:

Überprüfen Sie die _LogOperation-Tabelle auf Ereignisse zum Beenden und Fortsetzen der Sammlung:
_LogOperation | where TimeGenerated >= ago(7d) | where Category == "Ingestion" | where Detail has "Data collection"
Erstellen Sie eine Warnung für das Ereignis, dass der Datensammlungsvorgang beendet wurde. Diese Warnung benachrichtigt Sie, wenn das Sammlungslimit erreicht wird.
Daten, die nach Erreichen des täglichen Sammlungslimit gesammelt werden, gehen verloren. Verwenden Sie den Bereich für Erkenntnisse zu Arbeitsbereichen, um Nutzungsraten der einzelnen Quelle zu überprüfen. Sie können auch die Entscheidung treffen, Ihr maximales tägliches Datenvolumen zu verwalten oder eine Änderung in einen Tarif vorzunehmen, der für Ihr Sammlungsratenmuster geeignet ist.
Die Datensammlungsrate wird pro Tag berechnet und am Anfang des nächsten Tages zurückgesetzt. Sie können auch ein Sammlungsfortsetzungsereignis überwachen, indem Sie für das Ereignis, dass der Datensammlungsvorgang fortgesetzt wurde, eine Warnung erstellen.

Vorgang: Erfassungsrate

„Die Rate für das Datenerfassungsvolumen hat den Schwellenwert für Ihren Arbeitsbereich von {0:0.00} MB pro Minute überschritten, und es wurden Daten verworfen.“

Empfohlene Aktionen:

Überprüfen Sie die _LogOperation-Tabelle für ein Erfassungsratenereignis:
_LogOperation | where TimeGenerated >= ago(7d) | where Category == "Ingestion" | where Operation has "Ingestion rate"
Alle sechs Stunden wird ein Ereignis an die Operation-Tabelle im Arbeitsbereich gesendet, solange der Schwellenwert weiterhin überschritten wird.
Erstellen Sie eine Warnung für das Ereignis, dass der Datensammlungsvorgang beendet wurde. Diese Warnung benachrichtigt Sie, wenn das Limit erreicht wird.
Daten, die gesammelt wurden, während die Erfassungsrate 100 % erreicht hat, werden verworfen und gehen verloren. Verwenden Sie den Bereich Erkenntnisse zu Arbeitsbereichen, um Ihre Nutzungsmuster zu überprüfen und ggf. eine Reduzierung zu erzielen.
Weitere Informationen finden Sie unter:
- Azure Monitor-Diensteinschränkungen
- Analysieren der Nutzung im Log Analytics-Arbeitsbereich

Vorgang: Maximale Anzahl von Tabellenspalten

„Daten vom Typ <Tabellenname> wurden verworfen, da die Anzahl der Felder <Anzahl neuer Felder> über dem Grenzwert von <aktueller Grenzwert neuer Felder> für benutzerdefinierte Felder pro Datentyp liegt.“

Empfohlene Aktion: Für benutzerdefinierte Tabellen können Sie zur Analyse der Daten in Abfragen wechseln.

Vorgang: Überprüfung des Feldinhalts

„Die Werte der folgenden Felder <Feldname> vom Typ <Tabellenname> wurden bei der maximal zulässigen Größe von <Grenzwert für Feldgröße> Bytes abgeschnitten. Passen Sie Ihre Eingabe entsprechend an.“

Ein Feld, das größer als das Limit ist, wurde von Azure-Protokollen verarbeitet. Das Feld wurde auf das zulässige Feldlimit gekürzt. Es ist nicht ratsam, Felder zu senden, für die das zulässige Limit überschritten wird, weil dies zu Datenverlust führt.

Empfohlene Aktionen:

Überprüfen Sie die Quelle des betroffenen Datentyps:

Falls die Daten über die HTTP-Datensammler-API gesendet werden, müssen Sie Ihren Code bzw. Ihr Skript ändern, um die Daten vor der Erfassung aufzuteilen.
Ändern Sie bei benutzerdefinierten Protokollen, die vom Log Analytics-Agent gesammelt werden, die Protokollierungseinstellungen für die Anwendung bzw. das Tool.
Erstellen Sie bei allen anderen Datentypen einen Supportfall. Weitere Informationen finden Sie unter Azure Monitor-Diensteinschränkungen.

Datensammlung

Der folgende Abschnitt enthält Informationen zur Datensammlung.

Vorgang: Erfassen des Azure-Aktivitätsprotokolls

„Der Zugriff auf das Abonnement ist verloren gegangen. Stellen Sie sicher, dass sich das Abonnement <Abonnement-ID> im Microsoft Entra-Mandanten <Mandanten-ID> befindet. Wenn das Abonnement auf einen anderen Mandanten übertragen wird, hat dies keine Auswirkungen auf die Dienste. Es kann jedoch bis zu einer Stunde dauern, bis die Informationen für den Mandanten übertragen werden.

In einigen Situationen, z. B. beim Verschieben eines Abonnements auf einen anderen Mandanten, fließen die Azure-Aktivitätsprotokolle unter Umständen nicht mehr in den Arbeitsbereich. In diesen Situationen müssen Sie erneut eine Verbindung zum Abonnement herstellen, indem Sie den in diesem Artikel beschriebenen Prozess verwenden.

Empfohlene Aktionen:

Wenn das in der Warnmeldung erwähnte Abonnement nicht mehr vorhanden ist, wechseln Sie zum Bereich Legacy-Aktivitätsprotokollkonnektor unter Klassisch. Wählen Sie das relevante Abonnement und dann die Schaltfläche Trennen aus.
Gehen Sie wie folgt vor, falls Sie keinen Zugriff mehr auf das in der Warnmeldung angegebene Abonnement haben:
- Führen Sie obigen Schritt aus, um die Verbindung mit dem Abonnement zu trennen.
- Wenden Sie sich zum Fortsetzen der Sammlung von Protokollen aus diesem Abonnement an den Abonnementbesitzer, um die Berechtigungen korrigieren und die Sammlung von Aktivitätsprotokollen wieder aktivieren zu lassen.
Erstellen Sie eine Diagnoseeinstellung, um das Aktivitätsprotokoll an einen Log Analytics-Arbeitsbereich zu senden.

Agent

Im folgenden Abschnitt finden Sie Informationen zu Agents.

Vorgang: Linux-Agent

„Fehler bei zwei aufeinanderfolgenden Konfigurationsanwendungen aus OMS-Einstellungen“

Die Konfigurationseinstellungen im Portal wurden geändert.

Empfohlene Aktion: Dieses Problem tritt auf, falls der Agent die neuen Konfigurationseinstellungen nicht abrufen kann. Installieren Sie den Agent erneut, um dieses Problem zu beheben. Suchen Sie in der _LogOperation-Tabelle nach dem Agentereignis:

_LogOperation | where TimeGenerated >= ago(6h) | where Category == "Agent" | where Operation == "Linux Agent" | distinct _ResourceId

Die Liste enthält die Ressourcen-IDs, für die der Agent die falsche Konfiguration hat. Installieren Sie die aufgeführten Agents erneut, um das Problem zu beheben.

Warnregeln

Verwenden Sie Protokollsuchwarnungen in Azure Monitor, um proaktiv benachrichtigt zu werden, wenn ein Problem in Ihrem Log Analytics-Arbeitsbereich erkannt wird. Verwenden Sie eine Strategie, bei der Sie rechtzeitig auf Probleme reagieren können und gleichzeitig die Kosten reduziert werden. Für Ihr Abonnement werden Gebühren für die einzelnen Warnungsregeln berechnet, wie dies unter Azure Monitor – Preise angegeben ist.

Als Strategie wird empfohlen, mit zwei Warnungsregeln basierend auf dem Schweregrad des Problems zu beginnen. Verwenden Sie eine größere Häufigkeit (z. B. alle 5 Minuten) für Fehler und eine geringere Häufigkeit (z. B. alle 24 Stunden) für Warnungen. Da Fehler auf potenzielle Datenverluste hindeuten, sollten Sie schnell darauf reagieren, um Verluste zu minimieren. Warnungen weisen in der Regel auf ein Problem hin, das keine sofortige Aufmerksamkeit erfordert, sodass Sie diese täglich überprüfen können.

Nutzen Sie den Prozess unter Erstellen, Anzeigen und Verwalten von Protokollsuchwarnungen mithilfe von Azure Monitor, um Warnungsregeln für Protokollsuchen zu erstellen. In den folgenden Abschnitten werden die Details für jede Regel beschrieben.

Abfrage	Schwellenwert	Zeitraum	Häufigkeit
`_LogOperation \| where Level == "Error"`	0	5	5
`_LogOperation \| where Level == "Warning"`	0	1.440	1.440

Mit diesen Warnungsregeln wird auf alle Vorgänge auf gleiche Weise mit einem Fehler oder einer Warnung reagiert. Wenn Sie mit den Vorgängen, die Warnungen generieren, besser vertraut sind, kann es wünschenswert sein, auf bestimmte Vorgänge unterschiedlich zu reagieren. Es kann beispielsweise für bestimmte Vorgänge wünschenswert sein, Benachrichtigungen an verschiedene Personen zu senden.

Um eine Warnungsregel für einen bestimmten Vorgang zu erstellen, verwenden Sie eine Abfrage, die die Spalten Category und Operation enthält.

Im folgenden Beispiel wird eine Warnung der Stufe „Warnung“ erstellt, wenn die Rate für das Erfassungsvolumen 80 % des Limits erreicht hat:

Ziel: Auswählen Ihres Log Analytics-Arbeitsbereichs
Kriterien:
- Signalname: Benutzerdefinierte Protokollsuche
- Suchabfrage: _LogOperation | where Category == "Ingestion" | where Operation == "Ingestion rate" | where Level == "Warning"
- Basierend auf: Anzahl der Ergebnisse
- Bedingung: Größer als
- Schwellenwert: 0
- Zeitraum: 5 (Minuten)
- Häufigkeit: 5 (Minuten)
Name der Warnungsregel: Daily data limit reached
Schweregrad: Warnung (Schweregrad 1)

Im folgenden Beispiel wird eine Warnung der Stufe „Warnung“ erstellt, wenn die Datensammlung das Tageslimit erreicht hat:

Ziel: Auswählen Ihres Log Analytics-Arbeitsbereichs
Kriterien:
- Signalname: Benutzerdefinierte Protokollsuche
- Suchabfrage: _LogOperation | where Category == "Ingestion" | where Operation == "Data collection Status" | where Level == "Warning"
- Basierend auf: Anzahl der Ergebnisse
- Bedingung: Größer als
- Schwellenwert: 0
- Zeitraum: 5 (Minuten)
- Häufigkeit: 5 (Minuten)
Name der Warnungsregel: Daily data limit reached
Schweregrad: Warnung (Schweregrad 1)

Nächste Schritte

Weitere Informationen zu Protokollsuchwarnungen.
Sammeln Sie Abfrageüberwachungsdaten für Ihren Arbeitsbereich.

Überwachen von Betriebsproblemen in Ihrem Log Analytics-Arbeitsbereich in Azure Monitor

Erforderliche Berechtigungen

_LogOperation-Funktion

Spalten

Kategorien

Erfassung

Vorgang: Datensammlung beendet

Vorgang: Erfassungsrate

Vorgang: Maximale Anzahl von Tabellenspalten

Vorgang: Überprüfung des Feldinhalts

Datensammlung

Vorgang: Erfassen des Azure-Aktivitätsprotokolls

Agent

Vorgang: Linux-Agent

Warnregeln

Nächste Schritte

Zusätzliche Ressourcen