Site Recovery bewaken met Azure Monitor-logboeken

In dit artikel wordt beschreven hoe u machines bewaakt die zijn gerepliceerd door Azure Site Recovery, met behulp van Azure Monitor-logboeken en Log Analytics.

Azure Monitor-logboeken bieden een platform voor logboekgegevens dat activiteiten- en resourcelogboeken verzamelt, samen met andere bewakingsgegevens. In Azure Monitor-logboeken gebruikt u Log Analytics om logboekquery's te schrijven en te testen en logboekgegevens interactief te analyseren. U kunt logboekresultaten visualiseren en er query's op uitvoeren, en waarschuwingen configureren om acties uit te voeren op basis van bewaakte gegevens.

Voor Site Recovery kunt u Azure Monitor-logboeken gebruiken om het volgende te doen:

  • Bewaak Site Recovery status. U kunt bijvoorbeeld de replicatiestatus, de failoverstatus testen, Site Recovery gebeurtenissen, RPO's (Recovery Point Objectives) voor beveiligde machines en snelheid van schijf-/gegevenswijzigingen bewaken.
  • Waarschuwingen instellen voor Site Recovery. U kunt bijvoorbeeld waarschuwingen configureren voor de machinestatus, testfailoverstatus of Site Recovery taakstatus.

Het gebruik van Azure Monitor-logboeken met Site Recovery wordt ondersteund voor replicatie van Azure naar Azure en replicatie van VMware-VM's/fysieke servers naar Azure.

Notitie

Als u de logboeken voor verloopgegevens en uploadsnelheidslogboeken voor VMware en fysieke machines wilt ophalen, moet u een Microsoft-bewakingsagent installeren op de processerver. Deze agent verzendt de logboeken van de replicerende machines naar de werkruimte. Deze mogelijkheid is alleen beschikbaar voor de mobility-agentversie 9.30 en hoger.

Vereisten

U hebt het volgende nodig:

  • Ten minste één machine is beveiligd in een Recovery Services-kluis.
  • Een Log Analytics-werkruimte voor het opslaan van Site Recovery logboeken. Meer informatie over het instellen van een werkruimte.
  • Basiskennis van het schrijven, uitvoeren en analyseren van logboekquery's in Log Analytics. Meer informatie.

We raden u aan om veelvoorkomende controlevragen te bekijken voordat u begint.

Site Recovery configureren voor het verzenden van logboeken

  1. Selecteer diagnostische instellingen Diagnostische instellingen>Diagnostische instelling toevoegen in de kluis.

    Schermopname van de optie Diagnostische instelling toevoegen.

  2. Geef in Diagnostische instellingen een naam op en schakel het selectievakje Verzenden naar Log Analytics in.

  3. Selecteer het Azure Monitor Logs-abonnement en de Log Analytics-werkruimte.

  4. Selecteer Azure Diagnostics in de wisselknop.

  5. Selecteer in de lijst met logboeken alle logboeken met het voorvoegsel AzureSiteRecovery. Selecteer vervolgens OK.

    Schermopname van het scherm Diagnostische instellingen.

De Site Recovery logboeken worden ingevoerd in een tabel (AzureDiagnostics) in de geselecteerde werkruimte.

Microsoft-bewakingsagent op de processerver configureren voor het verzenden van verloop- en uploadsnelheidslogboeken

U kunt on-premises gegevens vastleggen over de gegevensverloopsnelheid en informatie over de uploadsnelheid van brongegevens voor uw VMware-/fysieke machines. Als u dit wilt inschakelen, moet er een Microsoft-bewakingsagent zijn geïnstalleerd op de processerver.

  1. Ga naar de Log Analytics-werkruimte en selecteer Geavanceerde instellingen.

  2. Selecteer de pagina Verbonden bronnen en selecteer verder Windows-servers.

  3. Download de Windows-agent (64-bits) op de processerver.

  4. De werkruimte-id en -sleutel ophalen

  5. Agent configureren voor het gebruik van TLS 1.2

  6. Voltooi de installatie van de agent door de verkregen werkruimte-id en sleutel op te geven.

  7. Zodra de installatie is voltooid, gaat u naar Log Analytics-werkruimte en selecteert u Beheer van verouderde agents. Ga naar de pagina Gegevens en selecteer Windows-prestatiemeteritems.

  8. Selecteer + om de volgende twee tellers toe te voegen met een voorbeeldinterval van 300 seconden:

    • ASRAnalytics(*)\SourceVmChurnRate
    • ASRAnalytics(*)\SourceVmThrpRate

De gegevens over het verloop en de uploadsnelheid worden in de werkruimte ingevoerd.

Query's uitvoeren op de logboeken - voorbeelden

U haalt gegevens op uit logboeken met behulp van logboekquery's die zijn geschreven met de Kusto-querytaal. In deze sectie vindt u enkele voorbeelden van veelvoorkomende query's die u kunt gebruiken voor Site Recovery bewaking.

Notitie

In sommige voorbeelden wordt gebruikgemaakt van replicationProviderName_s ingesteld op A2A. Hiermee worden Azure-VM's opgehaald die worden gerepliceerd naar een secundaire Azure-regio met behulp van Site Recovery. In deze voorbeelden kunt u A2A vervangen door InMageRcm als u on-premises VMware-VM's of fysieke servers wilt ophalen die met behulp van Site Recovery naar Azure worden gerepliceerd.

Status van queryreplicatie

Deze query plot een cirkeldiagram voor de huidige replicatiestatus van alle beveiligde Azure-VM's, onderverdeeld in drie statussen: Normaal, Waarschuwing of Kritiek.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , replicationHealth_s  
| summarize count() by replicationHealth_s  
| render piechart   

Query Mobility-service versie

Met deze query wordt een cirkeldiagram weergegeven voor azure-VM's die worden gerepliceerd met Site Recovery, opgesplitst naar de versie van de Mobility-agent die ze uitvoeren.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , agentVersion_s  
| summarize count() by agentVersion_s  
| render piechart 

RPO-tijd opvragen

Met deze query wordt een staafdiagram uitgeschreven van azure-VM's die zijn gerepliceerd met Site Recovery, opgesplitst naar RPO (Recovery Point Objective): minder dan 15 minuten, tussen 15 en 30 minuten, meer dan 30 minuten.

AzureDiagnostics 
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| extend RPO = case(rpoInSeconds_d <= 900, "<15Min",   
rpoInSeconds_d <= 1800, "15-30Min", ">30Min")  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , RPO  
| summarize Count = count() by RPO  
| render barchart 

Schermopname van een staafdiagram met azure-VM's die zijn gerepliceerd met Site Recovery.

Query uitvoeren op Site Recovery-taken

Met deze query worden alle Site Recovery taken opgehaald (voor alle scenario's voor herstel na noodgevallen), geactiveerd in de afgelopen 72 uur, en de voltooiingsstatus.

AzureDiagnostics  
| where Category == "AzureSiteRecoveryJobs"  
| where TimeGenerated >= ago(72h)   
| project JobName = OperationName , VaultName = Resource , TargetName = affectedResourceName_s, State = ResultType  

Query Site Recovery gebeurtenissen

Met deze query worden alle Site Recovery gebeurtenissen (voor alle scenario's voor herstel na noodgevallen) opgehaald die in de afgelopen 72 uur zijn opgetreden, samen met de ernst ervan.

AzureDiagnostics   
| where Category == "AzureSiteRecoveryEvents"   
| where TimeGenerated >= ago(72h)   
| project AffectedObject=affectedResourceName_s , VaultName = Resource, Description_s = healthErrors_s , Severity = Level  

Failoverstatus van querytest (cirkeldiagram)

Met deze query wordt een cirkeldiagram weergegeven voor de testfailoverstatus van azure-VM's die zijn gerepliceerd met Site Recovery.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| where isnotempty(failoverHealth_s) and isnotnull(failoverHealth_s)  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , Resource, failoverHealth_s  
| summarize count() by failoverHealth_s  
| render piechart 

Failoverstatus van querytest (tabel)

Deze query plot een tabel voor de testfailoverstatus van Azure-VM's die zijn gerepliceerd met Site Recovery.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| where isnotempty(failoverHealth_s) and isnotnull(failoverHealth_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project VirtualMachine = name_s , VaultName = Resource , TestFailoverStatus = failoverHealth_s 

Query machine RPO

Met deze query wordt een trendgrafiek weergegeven die de RPO van een specifieke Azure-VM (ContosoVM123) voor de afgelopen 72 uur bijhoudt.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where TimeGenerated > ago(72h)  
| where isnotempty(name_s) and isnotnull(name_s)   
| where name_s == "ContosoVM123"  
| project TimeGenerated, name_s , RPO_in_seconds = rpoInSeconds_d   
| render timechart 

Schermopname van een trendgrafiek die de RPO van een specifieke Azure-VM bijhoudt.

Gegevenswijzigingssnelheid (verloop) en uploadsnelheid voor een Azure-VM opvragen

Deze query plot een trendgrafiek voor een specifieke Azure-VM (ContosoVM123), die de snelheid voor gegevenswijziging (bytes schrijven per seconde) en de snelheid voor het uploaden van gegevens weergeeft.

AzureDiagnostics   
| where Category in ("AzureSiteRecoveryProtectedDiskDataChurn", "AzureSiteRecoveryReplicationDataUploadRate")   
| extend CategoryS = case(Category contains "Churn", "DataChurn",   
Category contains "Upload", "UploadRate", "none")  
| extend InstanceWithType=strcat(CategoryS, "_", InstanceName_s)   
| where TimeGenerated > ago(24h)   
| where InstanceName_s startswith "ContosoVM123"   
| project TimeGenerated , InstanceWithType , Churn_MBps = todouble(Value_s)/1048576   
| render timechart  

schermopname van een trendgrafiek voor een specifieke Azure-VM.

Gegevenswijzigingssnelheid (verloop) en uploadsnelheid voor een VMware- of fysieke machine opvragen

Notitie

Zorg ervoor dat u de bewakingsagent op de processerver instelt om deze logboeken op te halen. Raadpleeg de stappen voor het configureren van de bewakingsagent.

Deze query plot een trendgrafiek voor een specifieke schijf, disk0, van een gerepliceerd item, win-9r7sfh9qlru, die de snelheid voor gegevenswijziging (bytes schrijven per seconde) en de snelheid voor het uploaden van gegevens vertegenwoordigt. U vindt de schijfnaam op de blade Schijven van het gerepliceerde item in de Recovery Services-kluis. De instantienaam die in de query moet worden gebruikt, is de DNS-naam van de computer, gevolgd door _ en de schijfnaam, zoals in dit voorbeeld.

Perf
| where ObjectName == "ASRAnalytics"
| where InstanceName contains "win-9r7sfh9qlru_disk0"
| where TimeGenerated >= ago(4h) 
| project TimeGenerated ,CounterName, Churn_MBps = todouble(CounterValue)/5242880 
| render timechart

Processerver pusht deze gegevens elke 5 minuten naar de Log Analytics-werkruimte. Deze gegevenspunten vertegenwoordigen het gemiddelde dat gedurende 5 minuten is berekend.

Samenvatting van herstel na noodgeval voor query's (Azure naar Azure)

Met deze query wordt een overzichtstabel uitgezet voor Azure-VM's die zijn gerepliceerd naar een secundaire Azure-regio. Hier ziet u de vm-naam, replicatie en beveiligingsstatus, RPO, testfailoverstatus, versie van de Mobility-agent, eventuele actieve replicatiefouten en de bronlocatie.

AzureDiagnostics 
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project VirtualMachine = name_s , Vault = Resource , ReplicationHealth = replicationHealth_s, Status = protectionState_s, RPO_in_seconds = rpoInSeconds_d, TestFailoverStatus = failoverHealth_s, AgentVersion = agentVersion_s, ReplicationError = replicationHealthErrors_s, SourceLocation = primaryFabricName_s 

Samenvatting van herstel na noodgeval voor query's (VMware-/fysieke servers)

Met deze query wordt een overzichtstabel weergegeven voor VMware-VM's en fysieke servers die worden gerepliceerd naar Azure. Het toont de naam van de machine, de replicatie- en beveiligingsstatus, de RPO, de status van de testfailover, de versie van de Mobility-agent, eventuele actieve replicatiefouten en de relevante processerver.

AzureDiagnostics  
| where replicationProviderName_s == "InMageRcm"   
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project VirtualMachine = name_s , Vault = Resource , ReplicationHealth = replicationHealth_s, Status = protectionState_s, RPO_in_seconds = rpoInSeconds_d, TestFailoverStatus = failoverHealth_s, AgentVersion = agentVersion_s, ReplicationError = replicationHealthErrors_s, ProcessServer = processServerName_g  

Waarschuwingen instellen - voorbeelden

U kunt Site Recovery waarschuwingen instellen op basis van Azure Monitor-gegevens. Meer informatie over het instellen van logboekwaarschuwingen.

Notitie

In sommige voorbeelden wordt gebruikgemaakt van replicationProviderName_s ingesteld op A2A. Hiermee worden waarschuwingen ingesteld voor Azure-VM's die worden gerepliceerd naar een secundaire Azure-regio. In deze voorbeelden kunt u A2A vervangen door InMageRcm als u waarschuwingen wilt instellen voor on-premises VMware-VM's of fysieke servers die worden gerepliceerd naar Azure.

Meerdere machines met een kritieke status

Stel een waarschuwing in als meer dan 20 gerepliceerde Azure-VM's de status Kritiek krijgen.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where replicationHealth_s == "Critical"  
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count() 

Stel voor de waarschuwing Drempelwaarde in op 20.

Eén computer met een kritieke status

Stel een waarschuwing in als een specifieke gerepliceerde Azure-VM de status Kritiek krijgt.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where replicationHealth_s == "Critical"  
| where name_s == "ContosoVM123"  
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count()  

Stel voor de waarschuwing Drempelwaarde in op 1.

Meerdere computers overschrijden de RPO

Stel een waarschuwing in als de RPO voor meer dan 20 Azure-VM's langer is dan 30 minuten.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| where rpoInSeconds_d > 1800  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project name_s , rpoInSeconds_d   
| summarize count()  

Stel voor de waarschuwing Drempelwaarde in op 20.

Eén computer overschrijdt de RPO

Stel een waarschuwing in als de RPO voor één Azure-VM langer is dan 30 minuten.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| where name_s == "ContosoVM123"  
| where rpoInSeconds_d > 1800  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project name_s , rpoInSeconds_d   
| summarize count()  

Stel voor de waarschuwing Drempelwaarde in op 1.

Testfailover voor meerdere machines langer dan 90 dagen

Stel een waarschuwing in als de laatste geslaagde testfailover meer dan 90 dagen duurde voor meer dan 20 VM's.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where Category == "AzureSiteRecoveryReplicatedItems"  
| where isnotempty(name_s) and isnotnull(name_s)   
| where lastSuccessfulTestFailoverTime_t <= ago(90d)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count()  

Stel voor de waarschuwing Drempelwaarde in op 20.

Testfailover voor één machine duurt langer dan 90 dagen

Stel een waarschuwing in als de laatste geslaagde testfailover voor een specifieke VM meer dan 90 dagen geleden was.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where Category == "AzureSiteRecoveryReplicatedItems"  
| where isnotempty(name_s) and isnotnull(name_s)   
| where lastSuccessfulTestFailoverTime_t <= ago(90d)   
| where name_s == "ContosoVM123"  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count()  

Stel voor de waarschuwing Drempelwaarde in op 1.

Site Recovery taak mislukt

Stel een waarschuwing in als een Site Recovery taak (in dit geval de taak Opnieuw beveiligen) mislukt voor een Site Recovery scenario, gedurende de afgelopen dag.

AzureDiagnostics   
| where Category == "AzureSiteRecoveryJobs"   
| where OperationName == "Reprotect"  
| where ResultType == "Failed"  
| summarize count()  

Stel voor de waarschuwing Drempelwaarde in op 1 en Periode op 1440 minuten om fouten in de afgelopen dag te controleren.

Volgende stappen

Meer informatie over ingebouwde Site Recovery bewaking.