Monitorování online koncových bodů

Azure Machine Učení používá integraci se službou Azure Monitor ke sledování a monitorování metrik a protokolů pro online koncové body. Metriky můžete zobrazit v grafech, porovnat mezi koncovými body a nasazeními, připnout na řídicí panely webu Azure Portal, nakonfigurovat výstrahy, dotazovat se z tabulek protokolů a odesílat protokoly do podporovaných cílů. K analýze událostí z uživatelských kontejnerů můžete použít také Přehledy aplikace.

  • Metriky: Pro metriky na úrovni koncového bodu, jako je latence požadavků, požadavky za minutu, nová připojení za sekundu a bajty sítě, můžete přejít k podrobnostem a zobrazit podrobnosti na úrovni nasazení nebo na úrovni stavu. Metriky na úrovni nasazení, jako je využití procesoru nebo GPU a využití paměti nebo disku, je také možné přejít k podrobnostem na úrovni instance. Azure Monitor umožňuje sledování těchto metrik v grafech a nastavení řídicích panelů a upozornění pro další analýzu.

  • Protokoly: Metriky můžete odesílat do pracovního prostoru služby Log Analytics, kde můžete dotazovat protokoly pomocí syntaxe dotazu Kusto. K dalšímu zpracování můžete také odesílat metriky do účtů služby Azure Storage nebo event Hubs. Kromě toho můžete použít vyhrazené tabulky protokolů pro protokoly související s online koncovým bodem, provozem a protokoly konzoly (kontejneru). Dotaz Kusto umožňuje složitou analýzu a spojování více tabulek.

  • Application Insights: Kurátorovaná prostředí zahrnují integraci s Přehledy aplikací a tuto integraci můžete povolit nebo zakázat při vytváření online nasazení. Integrované metriky a protokoly se odesílají do Přehledy aplikace a k další analýze můžete použít integrované funkce služby Application Přehledy (například živé metriky, vyhledávání transakcí, selhání a výkon).

V tomto článku získáte informace o těchto tématech:

  • Volba správné metody pro zobrazení a sledování metrik a protokolů
  • Zobrazení metrik pro váš online koncový bod
  • Vytvoření řídicího panelu pro metriky
  • Vytvoření upozornění na metriku
  • Zobrazení protokolů pro váš online koncový bod
  • Sledování metrik a protokolů pomocí Přehledy aplikace

Požadavky

  • Nasazení Učení online koncového bodu Azure Machine
  • Ke koncovému bodu musíte mít alespoň přístup čtenáře.

Metriky

Stránky metrik pro online koncové body nebo nasazení můžete zobrazit na webu Azure Portal. Snadný přístup k těmto stránkám metrik je prostřednictvím odkazů dostupných v uživatelském rozhraní studio Azure Machine Learning – konkrétně na kartě Podrobnosti na stránce koncového bodu. Na základě těchto odkazů přejdete na přesnou stránku metrik na webu Azure Portal pro koncový bod nebo nasazení. Případně můžete přejít na web Azure Portal a vyhledat stránku metrik pro koncový bod nebo nasazení.

Přístup ke stránkám metrik prostřednictvím odkazů dostupných v sadě Studio:

  1. Přejděte na studio Azure Machine Learning.

  2. V levém navigačním panelu vyberte stránku Koncové body .

  3. Vyberte koncový bod kliknutím na jeho název.

  4. Výběrem možnosti Zobrazit metriky v části Atributy koncového bodu otevřete stránku metrik koncového bodu na webu Azure Portal.

  5. Výběrem možnosti Zobrazit metriky v části pro každé dostupné nasazení otevřete stránku metrik nasazení na webu Azure Portal.

    A screenshot showing how to access the metrics of an endpoint and deployment from the studio UI.

Přístup k metrikám přímo z webu Azure Portal:

  1. Přihlaste se k portálu Azure.

  2. Přejděte do online koncového bodu nebo prostředku nasazení.

    Online koncové body a nasazení jsou prostředky Azure Resource Manageru (ARM), které najdete tak, že přejdete do vlastnící skupiny prostředků. Vyhledejte typy prostředků Učení online koncového bodu a Učení online nasazení počítače.

  3. V levém sloupci vyberte Metriky.

Dostupné metriky

V závislosti na vybraném prostředku se metriky budou lišit. Metriky se pro online koncové body a online nasazení liší.

Metriky v oboru koncového bodu

  • Latence požadavku
  • Latence požadavku P50 (latence požadavku na 50. percentilu)
  • Latence požadavku P90 (latence požadavku na 90. percentilu)
  • Latence požadavku P95 (latence požadavku na 95. percentilu)
  • Žádosti za minutu
  • Nová připojení za sekundu
  • Počet aktivních připojení
  • Bajty v síti

Rozdělení na následující dimenze:

  • Nasazení
  • Kód stavu
  • Třída stavového kódu

Můžete například rozdělit dimenzi nasazení a porovnat latenci požadavků různých nasazení v rámci koncového bodu.

Omezování šířky pásma

Šířka pásma se omezí, pokud dojde k překročení limitů kvót pro spravované online koncové body. Další informace o limitech najdete v článku o omezeních pro online koncové body. Určení, jestli jsou požadavky omezené:

  • Monitorování metriky Síťové bajty
  • Přívěsy odpovědí budou mít pole: ms-azureml-bandwidth-request-delay-ms a ms-azureml-bandwidth-response-delay-ms. Hodnoty polí jsou zpoždění v milisekundách omezování šířky pásma. Další informace najdete v tématu Problémy s omezením šířky pásma.

Metriky v oboru nasazení

  • Procento využití procesoru
  • Kapacita nasazení (počet instancí požadovaného typu instance)
  • Využití disků
  • Využití paměti GPU (platí jenom pro instance GPU)
  • Využití GPU (platí jenom pro instance GPU)
  • Procento využití paměti

Rozdělení na následující dimenzi:

  • Instance Id

Můžete například porovnat využití procesoru nebo paměti mezi různými instancemi online nasazení.

Vytváření řídicích panelů a upozornění

Azure Monitor umožňuje vytvářet řídicí panely a výstrahy na základě metrik.

Vytváření řídicích panelů a vizualizace dotazů

Na webu Azure Portal můžete vytvářet vlastní řídicí panely a vizualizovat metriky z více zdrojů, včetně metrik pro váš online koncový bod. Další informace o vytvářenířídicích

Vytváření výstrah

Můžete také vytvořit vlastní upozornění, která vás upozorní na důležité aktualizace stavu vašeho online koncového bodu:

  1. V pravém horním rohu stránky metrik vyberte Nové pravidlo upozornění.

    Screenshot showing 'New alert rule' button surrounded by a red box.

  2. Vyberte název podmínky, která určuje, kdy má být upozornění aktivováno.

    Screenshot showing 'Configure signal logic' button surrounded by a red box.

  3. Vyberte Přidat skupiny akcí Vytvořit skupiny> akcí a určete, co se má stát při aktivaci upozornění.

  4. Zvolte Vytvořit pravidlo upozornění a dokončete vytváření upozornění.

Další informace najdete v tématu Vytvoření pravidel upozornění služby Azure Monitor.

Protokoly

Pro online koncové body je možné povolit tři protokoly:

  • AmlOnlineEndpointTrafficLog: Pokud chcete zkontrolovat informace o vaší žádosti, můžete se rozhodnout povolit protokoly provozu. Tady jsou některé případy:

    • Pokud odpověď není 200, zkontrolujte hodnotu sloupce ResponseCodeReason a podívejte se, co se stalo. V článku Řešení potíží s online koncovými body také zkontrolujte důvod v části Stavové kódy HTTPS.

    • Kód odpovědi a důvod odpovědi modelu můžete zkontrolovat ze sloupce ModelStatusCode a ModelStatusReason.

    • Chcete zkontrolovat dobu trvání požadavku, jako je celková doba trvání, doba trvání požadavku nebo odpovědi a zpoždění způsobené omezováním sítě. Můžete to zkontrolovat v protokolech a zobrazit latenci rozpisu.

    • Pokud chcete zkontrolovat, kolik požadavků nebo neúspěšných požadavků nedávno selhalo. Můžete také povolit protokoly.

  • AmlOnlineEndpointConsoleLog: Obsahuje protokoly, které kontejnery vypíše do konzoly. Tady jsou některé případy:

    • Pokud se kontejner nepodaří spustit, může být protokol konzoly užitečný pro ladění.

    • Monitorujte chování kontejneru a ujistěte se, že jsou všechny požadavky správně zpracovány.

    • V protokolu konzoly můžete zapisovat ID žádostí. Připojte se k ID požadavku, AmlOnlineEndpointConsoleLog a AmlOnlineEndpointTrafficLog v pracovním prostoru služby Log Analytics, můžete trasovat požadavek ze vstupního bodu sítě online koncového bodu do kontejneru.

    • Tento protokol můžete použít také k analýze výkonu při určování času potřebného modelem ke zpracování jednotlivých požadavků.

  • AmlOnlineEndpointEventLog: Obsahuje informace o události týkající se životního cyklu kontejneru. V současné době poskytujeme informace o následujících typech událostí:

    Název Zpráva
    BackOff Opětovné restartování neúspěšného kontejneru
    Vytáhl Image kontejneru "<IMAGE_NAME>" už na počítači existuje.
    Zabíjení Sonda odezvy na serveru odvození kontejneru selhala, bude restartována.
    Vytvořeno Vytvoření image kontejneru – fetcher
    Vytvořeno Vytvoření serveru pro odvození kontejneru
    Vytvořeno Vytvoření modelu kontejneru – připojení
    LivenessProbeFailed Sonda aktivity selhala: <FAILURE_CONTENT>
    ReadinessProbeFailed Sonda připravenosti selhala: <FAILURE_CONTENT>
    Zahájeno Spuštěná image kontejneru – fetcher
    Zahájeno Spuštěno odvození kontejneru - server
    Zahájeno Spuštěné připojení modelu kontejneru
    Zabíjení Zastavení odvozování kontejneru – server
    Zabíjení Zastavení připojení modelu kontejneru

Jak povolit nebo zakázat protokoly

Důležité

Protokolování používá Azure Log Analytics. Pokud aktuálně nemáte pracovní prostor služby Log Analytics, můžete ho vytvořit pomocí postupu v části Vytvoření pracovního prostoru služby Log Analytics na webu Azure Portal.

  1. Na webu Azure Portal přejděte do skupiny prostředků, která obsahuje váš koncový bod, a pak vyberte koncový bod.

  2. V části Monitorování na levé straně stránky vyberte Nastavení diagnostiky a pak Přidejte nastavení.

  3. Vyberte kategorie protokolů, které chcete povolit, vyberte Možnost Odeslat do pracovního prostoru služby Log Analytics a pak vyberte pracovní prostor služby Log Analytics, který chcete použít. Nakonec zadejte název nastavení diagnostiky a vyberte Uložit.

    Screenshot of the diagnostic settings dialog.

    Důležité

    Povolení připojení k pracovnímu prostoru služby Log Analytics může trvat až hodinu. Než budete pokračovat dalším postupem, počkejte hodinu.

  4. Odešlete žádosti o bodování do koncového bodu. Tato aktivita by měla v protokolech vytvářet položky.

  5. Z vlastností online koncového bodu nebo pracovního prostoru služby Log Analytics vyberte protokoly nalevo od obrazovky.

  6. Zavřete dialogové okno Dotazy, které se automaticky otevře, a potom poklikejte na AmlOnlineEndpointConsoleLog. Pokud ho nevidíte, použijte vyhledávací pole.

    Screenshot showing the log queries.

  7. Vyberte Spustit.

    Screenshots of the results after running a query.

Vzorové dotazy

Ukázkové dotazy najdete na kartě Dotazy při prohlížení protokolů. Vyhledejte koncový bod Online a vyhledejte ukázkové dotazy.

Screenshot of the example queries.

Podrobnosti o sloupci protokolu

Následující tabulky obsahují podrobnosti o datech uložených v jednotlivých protokolech:

AmlOnlineEndpointTrafficLog

Vlastnost Popis
metoda Požadovaná metoda od klienta.
Cesta Požadovaná cesta od klienta.
SubscriptionId ID předplatného strojového učení online koncového bodu.
AzureMLWorkspaceId ID pracovního prostoru strojového učení online koncového bodu.
AzureMLWorkspaceName Název pracovního prostoru strojového učení online koncového bodu.
Název koncového bodu Název online koncového bodu.
DeploymentName Název online nasazení.
Protokol Protokol požadavku.
ResponseCode Konečný kód odpovědi vrácený klientovi.
ResponseCodeReason Poslední důvod kódu odpovědi vrácený klientovi.
ModelStatusCode Stavový kód odpovědi z modelu.
ModelStatusReason Důvod stavu odpovědi z modelu.
RequestPayloadSize Celkový počet bajtů přijatých od klienta
ResponsePayloadSize Celkový počet bajtů odeslaných zpět klientovi.
UserAgent Hlavička uživatelského agenta požadavku, včetně komentářů, ale zkrácená na maximálně 70 znaků.
XRequestId ID požadavku vygenerované službou Azure Machine Učení pro interní trasování.
XMSClientRequestId ID sledování vygenerované klientem.
TotalDurationMs Doba trvání v milisekundách od počátečního času požadavku do posledního bajtu odpovědi odeslaného zpět klientovi. Pokud se klient odpojil, měří se od času spuštění až po dobu odpojení klienta.
RequestDurationMs Doba trvání v milisekundách od počátečního času požadavku do posledního bajtu požadavku přijatého od klienta.
ResponseDurationMs Doba trvání v milisekundách od počátečního času požadavku do prvního bajtu odpovědi načteného z modelu.
RequestThrottlingDelayMs Zpoždění v milisekundách při přenosu dat požadavku kvůli omezování sítě
ResponseThrottlingDelayMs Zpoždění v milisekundách při přenosu dat odpovědí kvůli omezování sítě

AmlOnlineEndpointConsoleLog

Vlastnost Popis
TimeGenerated Časové razítko (UTC) při vygenerování protokolu
OperationName Operace přidružená k záznamu protokolu.
InstanceId ID instance, která vygenerovala tento záznam protokolu.
DeploymentName Název nasazení přidruženého k záznamu protokolu.
ContainerName Název kontejneru, ve kterém se protokol vygeneroval.
Zpráva Obsah protokolu.

AmlOnlineEndpointEventLog

Vlastnost Popis
TimeGenerated Časové razítko (UTC) při vygenerování protokolu
OperationName Operace přidružená k záznamu protokolu.
InstanceId ID instance, která vygenerovala tento záznam protokolu.
DeploymentName Název nasazení přidruženého k záznamu protokolu.
Název Název události.
Zpráva Obsah události.

Použití Application Insights

Kurátorovaná prostředí zahrnují integraci s Přehledy aplikací a tuto integraci můžete povolit nebo zakázat při vytváření online nasazení. Integrované metriky a protokoly se odesílají do Přehledy aplikace a k další analýze můžete použít integrované funkce služby Application Přehledy (například živé metriky, vyhledávání transakcí, selhání a výkon).

Další informace najdete v tématu Přehledy aplikace.

V sadě Studio můžete pomocí karty Monitorování na stránce online koncového bodu zobrazit grafy monitorování aktivit vysoké úrovně pro spravovaný online koncový bod. Pokud chcete použít kartu monitorování, musíte při vytváření koncového bodu vybrat povolit shromažďování diagnostických dat a shromažďování dat Application Insight.

A screenshot of monitoring endpoint-level metrics in the studio.