Monitorowanie usługi Azure Machine LearningMonitor Azure Machine Learning

Jeśli masz krytyczne aplikacje i procesy biznesowe polegające na zasobach platformy Azure, chcesz monitorować te zasoby pod kątem ich dostępności, wydajności i operacji.When you have critical applications and business processes relying on Azure resources, you want to monitor those resources for their availability, performance, and operation. W tym artykule opisano dane monitorowania wygenerowane przez Azure Machine Learning oraz sposób analizowania i generowania alertów dotyczących tych danych przy użyciu Azure Monitor.This article describes the monitoring data generated by Azure Machine Learning and how to analyze and alert on this data with Azure Monitor.

Porada

Informacje przedstawione w tym dokumencie są przeznaczone głównie dla administratorów, ponieważ opisują monitorowanie usługi Azure Machine Learning i skojarzonych usług platformy Azure.The information in this document is primarily for administrators, as it describes monitoring for the Azure Machine Learning service and associated Azure services. Jeśli jesteś analitykiem danych lub deweloperem, a chcesz monitorować informacje specyficzne dla przebiegów szkoleniowych modelu, zobacz następujące dokumenty:If you are a data scientist or developer, and want to monitor information specific to your model training runs, see the following documents:

Jeśli chcesz monitorować informacje generowane przez modele wdrożone jako usługi sieci Web lub moduły IoT Edge, zobacz zbieranie danych modelu i monitorowanie z Application Insights.If you want to monitor information generated by models deployed as web services or IoT Edge modules, see Collect model data and Monitor with Application Insights.

Co to jest Azure Monitor?What is Azure Monitor?

Azure Machine Learning tworzy dane monitorowania przy użyciu Azure monitor, który jest pełną usługą monitorowania stosu na platformie Azure.Azure Machine Learning creates monitoring data using Azure Monitor, which is a full stack monitoring service in Azure. Azure Monitor zapewnia pełen zestaw funkcji do monitorowania zasobów platformy Azure.Azure Monitor provides a complete set of features to monitor your Azure resources. Może również monitorować zasoby w innych chmurach i lokalnie.It can also monitor resources in other clouds and on-premises.

Zacznij od artykułu monitorowanie zasobów platformy Azure za pomocą Azure monitor, który opisuje następujące pojęcia:Start with the article Monitoring Azure resources with Azure Monitor, which describes the following concepts:

  • Co to jest Azure Monitor?What is Azure Monitor?
  • Koszty związane z monitorowaniemCosts associated with monitoring
  • Monitorowanie danych zebranych na platformie AzureMonitoring data collected in Azure
  • Konfigurowanie zbierania danychConfiguring data collection
  • Standardowe narzędzia na platformie Azure na potrzeby analizowania danych monitorowania i powiadamiania o nichStandard tools in Azure for analyzing and alerting on monitoring data

Poniższe sekcje zostały skompilowane w tym artykule, opisując szczegółowe dane zebrane dla Azure Machine Learning.The following sections build on this article by describing the specific data gathered for Azure Machine Learning. Te sekcje zawierają również przykłady konfigurowania zbierania danych i analizowania tych danych za pomocą narzędzi platformy Azure.These sections also provide examples for configuring data collection and analyzing this data with Azure tools.

Porada

Aby zrozumieć koszty związane z Azure Monitor, zobacz użycie i szacowane koszty.To understand costs associated with Azure Monitor, see Usage and estimated costs. Aby zrozumieć czas, w jakim dane mają być wyświetlane w Azure Monitor, zobacz czas pozyskiwania danych dziennika.To understand the time it takes for your data to appear in Azure Monitor, see Log data ingestion time.

Monitorowanie danych z Azure Machine LearningMonitoring data from Azure Machine Learning

Azure Machine Learning gromadzi te same rodzaje danych monitorowania, jak inne zasoby platformy Azure, które są opisane w temacie monitorowanie danych z zasobów platformy Azure.Azure Machine Learning collects the same kinds of monitoring data as other Azure resources that are described in Monitoring data from Azure resources.

Aby uzyskać szczegółowe informacje o dziennikach i metrykach utworzonych przez Azure Machine Learning, zobacz Informacje o danych monitorowania Azure Machine Learning .See Azure Machine Learning monitoring data reference for a detailed reference of the logs and metrics created by Azure Machine Learning.

Kolekcja i RoutingCollection and routing

Metryki platformy i dziennik aktywności są zbierane i przechowywane automatycznie, ale mogą być kierowane do innych lokalizacji przy użyciu ustawień diagnostycznych.Platform metrics and the Activity log are collected and stored automatically, but can be routed to other locations by using a diagnostic setting.

Dzienniki zasobów nie są zbierane i przechowywane do momentu utworzenia ustawienia diagnostycznego i skierowania ich do co najmniej jednej lokalizacji.Resource Logs are not collected and stored until you create a diagnostic setting and route them to one or more locations.

Zobacz Tworzenie ustawień diagnostycznych, aby zbierać dzienniki platformy i metryki na platformie Azure w celu uzyskania szczegółowego procesu tworzenia ustawień diagnostycznych przy użyciu Azure Portal, interfejsu wiersza polecenia lub programu PowerShell.See Create diagnostic setting to collect platform logs and metrics in Azure for the detailed process for creating a diagnostic setting using the Azure portal, CLI, or PowerShell. Podczas tworzenia ustawienia diagnostycznego należy określić, które kategorie dzienników mają być zbierane.When you create a diagnostic setting, you specify which categories of logs to collect. Kategorie Azure Machine Learning są wymienione w temacie Azure Machine Learning monitorowanie danych.The categories for Azure Machine Learning are listed in Azure Machine Learning monitoring data reference.

Ważne

Włączenie tych ustawień wymaga dodatkowych usług platformy Azure (konta magazynu, centrum zdarzeń lub Log Analytics), co może zwiększyć koszt.Enabling these settings requires additional Azure services (storage account, event hub, or Log Analytics), which may increase your cost. Aby obliczyć szacowany koszt, odwiedź Kalkulator cen platformy Azure.To calculate an estimated cost, visit the Azure pricing calculator.

Następujące dzienniki można skonfigurować dla Azure Machine Learning:You can configure the following logs for Azure Machine Learning:

KategoriaCategory OpisDescription
AmlComputeClusterEventAmlComputeClusterEvent Zdarzenia z Azure Machine Learning klastrów obliczeniowych.Events from Azure Machine Learning compute clusters.
AmlComputeClusterNodeEventAmlComputeClusterNodeEvent Zdarzenia z węzłów w klastrze obliczeniowym Azure Machine Learning.Events from nodes within an Azure Machine Learning compute cluster.
AmlComputeJobEventAmlComputeJobEvent Zdarzenia z zadań uruchomionych na Azure Machine Learning COMPUTE.Events from jobs running on Azure Machine Learning compute.

Uwaga

Po włączeniu metryk w ustawieniu diagnostycznym informacje o wymiarach nie są obecnie uwzględniane jako część informacji wysyłanych do konta magazynu, centrum zdarzeń lub usługi log Analytics.When you enable metrics in a diagnostic setting, dimension information is not currently included as part of the information sent to a storage account, event hub, or log analytics.

Zebrane metryki i dzienniki zostały omówione w poniższych sekcjach.The metrics and logs you can collect are discussed in the following sections.

Analizowanie metrykAnalyzing metrics

Metryki dla Azure Machine Learning, a także metryki z innych usług platformy Azure, można analizować, otwierając metryki z menu Azure monitor .You can analyze metrics for Azure Machine Learning, along with metrics from other Azure services, by opening Metrics from the Azure Monitor menu. Aby uzyskać szczegółowe informacje na temat korzystania z tego narzędzia, zobacz Rozpoczynanie pracy z usługą Azure Eksplorator metryk .See Getting started with Azure Metrics Explorer for details on using this tool.

Aby zapoznać się z listą zebranych metryk platformy, zobacz monitorowanie Azure Machine Learning metryki odwołań danych.For a list of the platform metrics collected, see Monitoring Azure Machine Learning data reference metrics.

Wszystkie metryki dla Azure Machine Learning znajdują się w obszarze roboczym usługi przestrzeń nazw Machine Learning.All metrics for Azure Machine Learning are in the namespace Machine Learning Service Workspace.

Eksplorator metryk z wybranym obszarem roboczym usługi Machine Learning

W przypadku odwołania można zobaczyć listę wszystkich metryk zasobów obsługiwanych w Azure monitor.For reference, you can see a list of all resource metrics supported in Azure Monitor.

Porada

Dane metryk Azure Monitor są dostępne przez 90 dni.Azure Monitor metrics data is available for 90 days. Jednak podczas tworzenia wykresów można wizualizować tylko 30 dni.However, when creating charts only 30 days can be visualized. Na przykład jeśli chcesz wizualizować 90-dniowy okres, musisz go podzielić na trzy wykresy o 30 dni w okresie 90 dni.For example, if you want to visualize a 90 day period, you must break it into three charts of 30 days within the 90 day period.

Filtrowanie i dzielenieFiltering and splitting

W przypadku metryk, które obsługują wymiary, można zastosować filtry przy użyciu wartości wymiaru.For metrics that support dimensions, you can apply filters using a dimension value. Na przykład filtrowanie aktywnych rdzeni dla nazwy klastra cpu-cluster .For example, filtering Active Cores for a Cluster Name of cpu-cluster.

Możesz również podzielić metrykę według wymiaru, aby wizualizować różne segmenty porównania z innymi.You can also split a metric by dimension to visualize how different segments of the metric compare with each other. Na przykład należy podzielić Typ etapu potoku , aby zobaczyć liczbę typów kroków użytych w potoku.For example, splitting out the Pipeline Step Type to see a count of the types of steps used in the pipeline.

Więcej informacji o filtrowaniu i dzieleniu można znaleźć w temacie Advanced Features of Azure monitor.For more information of filtering and splitting, see Advanced features of Azure Monitor.

Analizowanie dziennikówAnalyzing logs

Użycie Log Analytics Azure Monitor wymaga utworzenia konfiguracji diagnostycznej i włączenia informacji wysyłanych do log Analytics.Using Azure Monitor Log Analytics requires you to create a diagnostic configuration and enable Send information to Log Analytics. Aby uzyskać więcej informacji, zobacz sekcję zbieranie i Routing .For more information, see the Collection and routing section.

Dane w dziennikach Azure Monitor są przechowywane w tabelach, w których każda tabela ma swój własny zestaw unikatowych właściwości.Data in Azure Monitor Logs is stored in tables, with each table having its own set of unique properties. Azure Machine Learning przechowuje dane w następujących tabelach:Azure Machine Learning stores data in the following tables:

TabelaTable OpisDescription
AmlComputeClusterEventAmlComputeClusterEvent Zdarzenia z Azure Machine Learning klastrów obliczeniowych.Events from Azure Machine Learning compute clusters.
AmlComputeClusterNodeEventAmlComputeClusterNodeEvent Zdarzenia z węzłów w klastrze obliczeniowym Azure Machine Learning.Events from nodes within an Azure Machine Learning compute cluster.
AmlComputeJobEventAmlComputeJobEvent Zdarzenia z zadań uruchomionych na Azure Machine Learning COMPUTE.Events from jobs running on Azure Machine Learning compute.

Ważne

Po wybraniu opcji dzienniki z menu Azure Machine Learning, log Analytics zostanie otwarty z zakresem zapytania ustawionym na bieżący obszar roboczy.When you select Logs from the Azure Machine Learning menu, Log Analytics is opened with the query scope set to the current workspace. Oznacza to, że zapytania dziennika będą zawierać tylko dane z tego zasobu.This means that log queries will only include data from that resource. Jeśli chcesz uruchomić zapytanie, które zawiera dane z innych baz danych lub danych z innych usług platformy Azure, wybierz pozycję dzienniki z menu Azure monitor .If you want to run a query that includes data from other databases or data from other Azure services, select Logs from the Azure Monitor menu. Aby uzyskać szczegółowe informacje , zobacz zakres zapytań dzienników i zakres czasu w Azure Monitor Log Analytics .See Log query scope and time range in Azure Monitor Log Analytics for details.

Aby uzyskać szczegółowe informacje na temat dzienników i metryk, zobacz Azure Machine Learning informacje o monitorowaniu danych.For a detailed reference of the logs and metrics, see Azure Machine Learning monitoring data reference.

Przykładowe zapytania KustoSample Kusto queries

Ważne

Po wybraniu opcji dzienniki z menu [nazwa usługi] log Analytics jest otwierany z zakresem zapytania ustawionym na bieżący obszar roboczy Azure Machine Learning.When you select Logs from the [service-name] menu, Log Analytics is opened with the query scope set to the current Azure Machine Learning workspace. Oznacza to, że zapytania dziennika będą zawierać tylko dane z tego zasobu.This means that log queries will only include data from that resource. Jeśli chcesz uruchomić zapytanie, które zawiera dane z innych obszarów roboczych lub danych z innych usług platformy Azure, wybierz pozycję dzienniki z menu Azure monitor .If you want to run a query that includes data from other workspaces or data from other Azure services, select Logs from the Azure Monitor menu. Aby uzyskać szczegółowe informacje , zobacz zakres zapytań dzienników i zakres czasu w Azure Monitor Log Analytics .See Log query scope and time range in Azure Monitor Log Analytics for details.

Poniżej przedstawiono zapytania, których można użyć w celu ułatwienia monitorowania zasobów Azure Machine Learning:Following are queries that you can use to help you monitor your Azure Machine Learning resources:

  • Pobierz zadania zakończone niepowodzeniem w ciągu ostatnich pięciu dni:Get failed jobs in the last five days:

    AmlComputeJobEvent
    | where TimeGenerated > ago(5d) and EventType == "JobFailed"
    | project  TimeGenerated , ClusterId , EventType , ExecutionState , ToolType
    
  • Pobierz rekordy dla określonej nazwy zadania:Get records for a specific job name:

    AmlComputeJobEvent
    | where JobName == "automl_a9940991-dedb-4262-9763-2fd08b79d8fb_setup"
    | project  TimeGenerated , ClusterId , EventType , ExecutionState , ToolType
    
  • Pobierz zdarzenia klastra w ciągu ostatnich pięciu dni dla klastrów, w których Standard_D1_V2 rozmiaru maszyny wirtualnej:Get cluster events in the last five days for clusters where the VM size is Standard_D1_V2:

    AmlComputeClusterEvent
    | where TimeGenerated > ago(4d) and VmSize == "STANDARD_D1_V2"
    | project  ClusterName , InitialNodeCount , MaximumNodeCount , QuotaAllocated , QuotaUtilized
    
  • Pobierz węzły przydzieloną w ciągu ostatnich ośmiu dni:Get nodes allocated in the last eight days:

    AmlComputeClusterNodeEvent
    | where TimeGenerated > ago(8d) and NodeAllocationTime  > ago(8d)
    | distinct NodeId
    

AlertyAlerts

Możesz uzyskać dostęp do alertów dla Azure Machine Learning, otwierając alerty z menu Azure monitor .You can access alerts for Azure Machine Learning by opening Alerts from the Azure Monitor menu. Aby uzyskać szczegółowe informacje na temat tworzenia alertów, zobacz Tworzenie i wyświetlanie alertów metryk oraz zarządzanie nimi za pomocą Azure monitor .See Create, view, and manage metric alerts using Azure Monitor for details on creating alerts.

Poniższa tabela zawiera listę typowych i zalecanych reguł alertów dotyczących metryk dla Azure Machine Learning:The following table lists common and recommended metric alert rules for Azure Machine Learning:

Typ alertuAlert type WarunekCondition OpisDescription
Wdrażanie modelu nie powiodło sięModel Deploy Failed Typ agregacji: łącznie, operator: większy niż, wartość progowa: 0Aggregation type: Total, Operator: Greater than, Threshold value: 0 Gdy co najmniej jedno wdrożenie modelu nie powiodło sięWhen one or more model deployments have failed
Procent wykorzystania przydziałówQuota Utilization Percentage Typ agregacji: Average, operator: większe niż, wartość progowa: 90Aggregation type: Average, Operator: Greater than, Threshold value: 90 Gdy wartość procentowa wykorzystania przydziałów jest większa niż 90%When the quota utilization percentage is greater than 90%
Węzły niezdatne do użytkuUnusable Nodes Typ agregacji: łącznie, operator: większy niż, wartość progowa: 0Aggregation type: Total, Operator: Greater than, Threshold value: 0 Gdy istnieje co najmniej jeden niezdatny do użytku węzełWhen there are one or more unusable nodes

Następne krokiNext steps