A Site Recovery monitorozása az Azure Monitor naplóival

Ez a cikk azt ismerteti, hogyan figyelheti az Azure Site Recovery által replikált gépeket az Azure Monitor-naplók és a Log Analytics használatával.

Az Azure Monitor-naplók olyan naplóadat-platformot biztosítanak, amely tevékenység- és erőforrásnaplókat, valamint egyéb monitorozási adatokat gyűjt. Az Azure Monitor-naplókban a Log Analytics használatával napló lekérdezéseket írhat és tesztelhet, valamint interaktívan elemezheti a naplóadatokat. Megjelenítheti és lekérdezheti a napló eredményeit, és riasztásokat konfigurálhat a figyelt adatokon alapuló műveletek elvégzéséhez.

A Site Recovery az Azure Monitor-naplók használatával segíthet a következők végrehajtásában:

  • Monitorozza Site Recovery állapotát és állapotát. Figyelheti például a replikáció állapotát, tesztelheti a feladatátvétel állapotát, Site Recovery eseményeket, helyreállításipont-célkitűzéseket (RPO-kat) a védett gépekhez, valamint lemez-/adatváltozási arányokat.
  • Riasztások beállítása Site Recovery. Konfigurálhatja például a gép állapotára, a feladatátvételi teszt állapotára vagy Site Recovery feladat állapotára vonatkozó riasztásokat.

Az Azure Monitor-naplók Site Recovery használata az Azure-ból Azure-ba történő replikáció és a VMware virtuális gép/fizikai kiszolgáló azure-beli replikációja esetén támogatott.

Megjegyzés

A VMware- és fizikai gépek adatváltozási naplóinak és feltöltési sebességnaplóinak lekéréséhez telepítenie kell egy Microsoft monitorozási ügynököt a folyamatkiszolgálóra. Ez az ügynök elküldi a replikáló gépek naplóit a munkaterületnek. Ez a funkció csak a 9.30-as mobilitási ügynök verziójához érhető el.

Előfeltételek

A következőkre lesz szüksége:

Javasoljuk, hogy a kezdés előtt tekintse át a gyakori monitorozási kérdéseket .

Site Recovery konfigurálása naplók küldéséhez

  1. A tárolóban válassza a Diagnosztikai beállítások>Diagnosztikai beállítás hozzáadása lehetőséget.

    Képernyőkép a Diagnosztikai beállítás hozzáadása lehetőségről.

  2. A Diagnosztikai beállítások területen adjon meg egy nevet, és jelölje be a Küldés a Log Analyticsbe jelölőnégyzetet.

  3. Válassza ki az Azure Monitor Logs-előfizetést és a Log Analytics-munkaterületet.

  4. A kapcsolóban válassza a Azure Diagnostics lehetőséget.

  5. A naplólistában válassza ki az AzureSiteRecovery előtaggal rendelkező összes naplót. Ez után válassza az OK gombot.

    Képernyőkép a Diagnosztika beállítási képernyőről.

A Site Recovery-naplók elkezdenek egy táblába (AzureDiagnostics) betáplálást indítani a kiválasztott munkaterületen.

A Microsoft monitorozási ügynökének konfigurálása a folyamatkiszolgálón adatváltozási és feltöltési sebességnaplók küldéséhez

A helyszíni VMware-/fizikai gépek adatváltozási sebességére és a forrásadatok feltöltési sebességére vonatkozó információkat rögzítheti. Ennek engedélyezéséhez telepíteni kell egy Microsoft monitorozási ügynököt a folyamatkiszolgálóra.

  1. Lépjen a Log Analytics-munkaterületre, és válassza a Speciális beállítások lehetőséget.

  2. Válassza a Csatlakoztatott források lapot, majd a Windows-kiszolgálók lehetőséget.

  3. Töltse le a Windows-ügynököt (64 bites) a folyamatkiszolgálóra.

  4. A munkaterület azonosítójának és kulcsának beszerzése

  5. Ügynök konfigurálása a TLS 1.2 használatára

  6. Fejezze be az ügynök telepítését a beszerzett munkaterület-azonosító és -kulcs megadásával.

  7. A telepítés befejezése után lépjen a Log Analytics-munkaterületre, és válassza az Örökölt ügynökök kezelése lehetőséget. Lépjen az Adatok lapra, és válassza a Windows teljesítményszámlálók lehetőséget.

  8. A "+" lehetőséget választva adja hozzá a következő két számlálót 300 másodperces mintaintervallummal:

    • ASRAnalytics(*)\SourceVmChurnRate
    • ASRAnalytics(*)\SourceVmThrpRate

Az adatváltozási és feltöltési sebesség adatai elkezdenek betáplálást indítani a munkaterületre.

Naplók lekérdezése – példák

A Naplókból a Kusto lekérdezési nyelvvel írt naplóbeli lekérdezésekkel kér le adatokat. Ez a szakasz néhány példát mutat be a Site Recovery monitorozásához használható gyakori lekérdezésekre.

Megjegyzés

Néhány példa replicationProviderName_sA2A értékre van állítva. Ez lekéri a másodlagos Azure-régióba replikált Azure-beli virtuális gépeket Site Recovery használatával. Ezekben a példákban lecserélheti az A2A-taz InMageRcm értékre, ha helyszíni VMware virtuális gépeket vagy fizikai kiszolgálókat szeretne lekérni, amelyeket a Site Recovery használatával replikál az Azure-ba.

A replikáció állapotának lekérdezése

Ez a lekérdezés egy kördiagramot ábrázol az összes védett Azure-beli virtuális gép aktuális replikációs állapotáról, három állapotra lebontva: Normál, Figyelmeztetés vagy Kritikus.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , replicationHealth_s  
| summarize count() by replicationHealth_s  
| render piechart   

Lekérdezés Mobility szolgáltatás verziója

Ez a lekérdezés egy kördiagramot ábrázol a Site Recovery replikált Azure-beli virtuális gépekhez, az általuk futtatott mobilitási ügynök verziója szerint lebontva.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , agentVersion_s  
| summarize count() by agentVersion_s  
| render piechart 

Lekérdezés RPO-ideje

Ez a lekérdezés a Site Recovery replikált Azure-beli virtuális gépek sávdiagramját ábrázolja helyreállítási időkorlát (RPO) szerint lebontva: Kevesebb mint 15 perc, 15–30 perc és 30 perc közötti idő.

AzureDiagnostics 
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| extend RPO = case(rpoInSeconds_d <= 900, "<15Min",   
rpoInSeconds_d <= 1800, "15-30Min", ">30Min")  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , RPO  
| summarize Count = count() by RPO  
| render barchart 

Képernyőkép a Site Recovery replikált Azure-beli virtuális gépek sávdiagramjával.

Site Recovery-feladatok lekérdezése

Ez a lekérdezés lekéri az elmúlt 72 órában aktivált összes Site Recovery feladatot (az összes vészhelyreállítási forgatókönyv esetében), valamint azok befejezési állapotát.

AzureDiagnostics  
| where Category == "AzureSiteRecoveryJobs"  
| where TimeGenerated >= ago(72h)   
| project JobName = OperationName , VaultName = Resource , TargetName = affectedResourceName_s, State = ResultType  

Site Recovery események lekérdezése

Ez a lekérdezés lekéri az elmúlt 72 órában kiváltott összes Site Recovery eseményt (az összes vészhelyreállítási forgatókönyv esetében), valamint azok súlyosságát.

AzureDiagnostics   
| where Category == "AzureSiteRecoveryEvents"   
| where TimeGenerated >= ago(72h)   
| project AffectedObject=affectedResourceName_s , VaultName = Resource, Description_s = healthErrors_s , Severity = Level  

Feladatátvételi állapot lekérdezése (tortadiagram)

Ez a lekérdezés egy kördiagramot ábrázol a Site Recovery replikált Azure-beli virtuális gépek feladatátvételi tesztállapotához.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| where isnotempty(failoverHealth_s) and isnotnull(failoverHealth_s)  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , Resource, failoverHealth_s  
| summarize count() by failoverHealth_s  
| render piechart 

Lekérdezési feladatátvételi állapot (tábla)

Ez a lekérdezés egy táblát ábrázol a Site Recovery replikált Azure-beli virtuális gépek feladatátvételi tesztállapotához.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| where isnotempty(failoverHealth_s) and isnotnull(failoverHealth_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project VirtualMachine = name_s , VaultName = Resource , TestFailoverStatus = failoverHealth_s 

GépI RPO lekérdezése

Ez a lekérdezés egy trendgráfot ábrázol, amely egy adott Azure-beli virtuális gép (ContosoVM123) RPO-ját követi nyomon az elmúlt 72 órában.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where TimeGenerated > ago(72h)  
| where isnotempty(name_s) and isnotnull(name_s)   
| where name_s == "ContosoVM123"  
| project TimeGenerated, name_s , RPO_in_seconds = rpoInSeconds_d   
| render timechart 

Képernyőkép egy trendgráfról, amely egy adott Azure-beli virtuális gép RPO-ját követi nyomon.

Adatváltozási sebesség (adatváltozás) és feltöltési sebesség lekérdezése Azure-beli virtuális gépekhez

Ez a lekérdezés egy trendgráfot ábrázol egy adott Azure-beli virtuális géphez (ContosoVM123), amely az adatváltozási sebességet (bájt/másodperc írás) és az adatfeltöltési sebességet jelöli.

AzureDiagnostics   
| where Category in ("AzureSiteRecoveryProtectedDiskDataChurn", "AzureSiteRecoveryReplicationDataUploadRate")   
| extend CategoryS = case(Category contains "Churn", "DataChurn",   
Category contains "Upload", "UploadRate", "none")  
| extend InstanceWithType=strcat(CategoryS, "_", InstanceName_s)   
| where TimeGenerated > ago(24h)   
| where InstanceName_s startswith "ContosoVM123"   
| project TimeGenerated , InstanceWithType , Churn_MBps = todouble(Value_s)/1048576   
| render timechart  

egy adott Azure-beli virtuális gép trendgráfjának képernyőképe.

Adatváltozási arány (adatváltozás) és feltöltési sebesség lekérdezése VMware vagy fizikai gép esetén

Megjegyzés

Győződjön meg arról, hogy beállította a figyelési ügynököt a folyamatkiszolgálón a naplók lekéréséhez. Tekintse meg a monitorozási ügynök konfigurálásának lépéseit.

Ez a lekérdezés egy win-9r7sfh9qlru nevű replikált elem egy adott lemezének (disk0) trendgráfját ábrázolja, amely az adatváltozási sebességet (bájt/másodperc írás) és az adatfeltöltési sebességet jelöli. A lemez nevét a replikált elem Lemezek paneljén találja a helyreállítási tárban. A lekérdezésben használandó példánynév a gép DNS-neve, amelyet a _ és a lemeznév követ, ahogy ebben a példában is látható.

Perf
| where ObjectName == "ASRAnalytics"
| where InstanceName contains "win-9r7sfh9qlru_disk0"
| where TimeGenerated >= ago(4h) 
| project TimeGenerated ,CounterName, Churn_MBps = todouble(CounterValue)/5242880 
| render timechart

A folyamatkiszolgáló 5 percenként küldi le ezeket az adatokat a Log Analytics-munkaterületre. Ezek az adatpontok az 5 percig kiszámított átlagot jelölik.

Vészhelyreállítási összegzés lekérdezése (Azure-ból Azure-ba)

Ez a lekérdezés egy összefoglaló táblát ábrázol a másodlagos Azure-régióba replikált Azure-beli virtuális gépekhez. Megjeleníti a virtuális gép nevét, replikációját és védelmi állapotát, az RPO-t, a feladatátvételi teszt állapotát, a mobilitási ügynök verzióját, az aktív replikációs hibákat és a forráshelyet.

AzureDiagnostics 
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project VirtualMachine = name_s , Vault = Resource , ReplicationHealth = replicationHealth_s, Status = protectionState_s, RPO_in_seconds = rpoInSeconds_d, TestFailoverStatus = failoverHealth_s, AgentVersion = agentVersion_s, ReplicationError = replicationHealthErrors_s, SourceLocation = primaryFabricName_s 

Vészhelyreállítási összegzés lekérdezése (VMware/fizikai kiszolgálók)

Ez a lekérdezés egy összegző táblát ábrázol az Azure-ba replikált VMware virtuális gépekhez és fizikai kiszolgálókhoz. Megjeleníti a gép nevét, a replikáció és a védelem állapotát, az RPO-t, a feladatátvételi teszt állapotát, a mobilitási ügynök verzióját, az aktív replikációs hibákat és a megfelelő folyamatkiszolgálót.

AzureDiagnostics  
| where replicationProviderName_s == "InMageRcm"   
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project VirtualMachine = name_s , Vault = Resource , ReplicationHealth = replicationHealth_s, Status = protectionState_s, RPO_in_seconds = rpoInSeconds_d, TestFailoverStatus = failoverHealth_s, AgentVersion = agentVersion_s, ReplicationError = replicationHealthErrors_s, ProcessServer = processServerName_g  

Riasztások beállítása – példák

Az Azure Monitor adatai alapján Site Recovery riasztásokat állíthat be. További információ a naplóriasztások beállításáról.

Megjegyzés

Néhány példa replicationProviderName_sA2A értékre van állítva. Ez beállítja a másodlagos Azure-régióba replikált Azure-beli virtuális gépekre vonatkozó riasztásokat. Ezekben a példákban az A2A-taz InMageRcm értékre cserélheti, ha riasztásokat szeretne beállítani az Azure-ba replikált helyszíni VMware virtuális gépekhez vagy fizikai kiszolgálókhoz.

Több gép kritikus állapotban

Riasztás beállítása, ha több mint 20 replikált Azure-beli virtuális gép kritikus állapotba kerül.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where replicationHealth_s == "Critical"  
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count() 

A riasztáshoz állítsa a Küszöbérték értékét a értékre 20.

Egyetlen gép kritikus állapotban

Riasztás beállítása, ha egy adott replikált Azure-beli virtuális gép kritikus állapotba kerül.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where replicationHealth_s == "Critical"  
| where name_s == "ContosoVM123"  
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count()  

A riasztáshoz állítsa a Küszöbérték értékét a értékre 1.

Több gép túllépi az RPO-t

Riasztás beállítása, ha az RPO több mint 20 Azure-beli virtuális gép esetében meghaladja a 30 percet.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| where rpoInSeconds_d > 1800  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project name_s , rpoInSeconds_d   
| summarize count()  

A riasztáshoz állítsa a Küszöbérték értékét a értékre 20.

Egy gép meghaladja az RPO-t

Riasztás beállítása, ha egyetlen Azure-beli virtuális gép RPO-értéke meghaladja a 30 percet.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| where name_s == "ContosoVM123"  
| where rpoInSeconds_d > 1800  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project name_s , rpoInSeconds_d   
| summarize count()  

A riasztáshoz állítsa a Küszöbérték értékét a értékre 1.

Több gép feladatátvételének tesztelése meghaladja a 90 napot

Riasztás beállítása, ha az utolsó sikeres feladatátvételi teszt több mint 90 nap volt, több mint 20 virtuális gép esetében.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where Category == "AzureSiteRecoveryReplicatedItems"  
| where isnotempty(name_s) and isnotnull(name_s)   
| where lastSuccessfulTestFailoverTime_t <= ago(90d)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count()  

A riasztáshoz állítsa a Küszöbérték értékét a értékre 20.

Egyetlen gép feladatátvételének tesztelése több mint 90 nap

Riasztás beállítása, ha egy adott virtuális gép legutóbbi sikeres feladatátvételi tesztje több mint 90 nappal ezelőtt volt.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where Category == "AzureSiteRecoveryReplicatedItems"  
| where isnotempty(name_s) and isnotnull(name_s)   
| where lastSuccessfulTestFailoverTime_t <= ago(90d)   
| where name_s == "ContosoVM123"  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count()  

A riasztáshoz állítsa a Küszöbérték értékét a értékre 1.

Site Recovery feladat meghiúsul

Riasztás beállítása, ha egy Site Recovery feladat (ebben az esetben az Újravédett feladat) meghiúsul bármely Site Recovery forgatókönyv esetében az elmúlt nap során.

AzureDiagnostics   
| where Category == "AzureSiteRecoveryJobs"   
| where OperationName == "Reprotect"  
| where ResultType == "Failed"  
| summarize count()  

A riasztásnál állítsa a Küszöbérték értékét 1-re, az Időtartamot pedig 1440 percre az elmúlt nap hibáinak ellenőrzéséhez.

Következő lépések

Ismerje meg a beépített Site Recovery monitorozást.