Microsoft.MachineLearningServices/workspaces 支持的指标
下表列出了可用于 Microsoft.MachineLearningServices/workspaces 资源类型的指标。
表标题
指标 - 在Azure 门户中显示的指标显示名称。
Rest API 中的名称 - REST API 中引用的指标名称。
单位 - 度量单位。
聚合 - 默认 聚合 类型。 有效值:Average、Minimum、Maximum、Total、Count。
尺寸 - 可用于指标的维度。
时间粒度 - 指标采样的间隔。 例如, PT1M
指示每分钟、每 30 分钟、 PT30M
PT1H
每小时等对指标进行采样。
DS 导出 - 指标是否可通过诊断设置导出到 Azure Monitor 日志。 有关导出指标的信息,请参阅 在 Azure Monitor 中创建诊断设置。
有关指标保留期的信息,请参阅 Azure Monitor 指标概述。
有关支持的日志列表,请参阅 支持的日志类别 - Microsoft.MachineLearningServices/workspaces
类别 | 指标 | REST API 中的名称 | 计价单位 | 聚合 | 维度 | 时间粒度 | DS 导出 |
---|---|---|---|---|---|---|---|
配额 | 活动核心数 活动核心数 |
Active Cores |
计数 | Average、Maximum、Minimum、Total | Scenario , ClusterName |
PT1M | 是 |
配额 | 活动节点数 活动节点数。 这些节点是正在运行作业的节点。 |
Active Nodes |
计数 | Average、Maximum、Minimum、Total | Scenario , ClusterName |
PT1M | 是 |
运行 | 请求取消运行数 此工作区请求取消的运行数。 当收到用于运行的取消请求时,将更新计数。 |
Cancel Requested Runs |
计数 | Total、Average、Minimum、Maximum、Count | Scenario , RunType , PublishedPipelineId , ComputeType , PipelineStepType , ExperimentName |
PT1M | 是 |
运行 | 已取消运行数 此工作区取消的运行数。 成功取消运行时,将更新计数。 |
Cancelled Runs |
计数 | Total、Average、Minimum、Maximum、Count | Scenario , RunType , PublishedPipelineId , ComputeType , PipelineStepType , ExperimentName |
PT1M | 是 |
运行 | 已完成的运行数 已成功为此工作区完成的运行数。 当运行完成并收集输出时,将更新计数。 |
Completed Runs |
计数 | Total、Average、Minimum、Maximum、Count | Scenario , RunType , PublishedPipelineId , ComputeType , PipelineStepType , ExperimentName |
PT1M | 是 |
资源 | CpuCapacityMillicores CPU 节点的最大容量(以毫核为单位)。 容量每分钟聚合一次。 |
CpuCapacityMillicores |
计数 | Average、Maximum、Minimum、Total | RunId , InstanceId , ComputeName |
PT1M | 是 |
资源 | CpuMemoryCapacityMegabytes CPU 节点的最大内存利用率(以 MB 为单位)。 利用率每分钟聚合一次。 |
CpuMemoryCapacityMegabytes |
计数 | Average、Maximum、Minimum、Total | RunId , InstanceId , ComputeName |
PT1M | 是 |
资源 | CpuMemoryUtilizationMegabytes CPU 节点的内存利用率(以 MB 为单位)。 利用率每分钟聚合一次。 |
CpuMemoryUtilizationMegabytes |
计数 | Average、Maximum、Minimum、Total | RunId , InstanceId , ComputeName |
PT1M | 是 |
资源 | CpuMemoryUtilizationPercentage CPU 节点的内存利用率百分比。 利用率每分钟聚合一次。 |
CpuMemoryUtilizationPercentage |
计数 | Average、Maximum、Minimum、Total | RunId , InstanceId , ComputeName |
PT1M | 是 |
资源 | CpuUtilization CPU 节点上的使用率百分比。 利用率每分钟报告一次。 |
CpuUtilization |
计数 | Average、Maximum、Minimum、Total | Scenario , runId , NodeId , ClusterName |
PT1M | 是 |
资源 | CpuUtilizationMillicores CPU 节点的利用率(以毫核为单位)。 利用率每分钟聚合一次。 |
CpuUtilizationMillicores |
计数 | Average、Maximum、Minimum、Total | RunId , InstanceId , ComputeName |
PT1M | 是 |
资源 | CpuUtilizationPercentage CPU 节点的利用率百分比。 利用率每分钟聚合一次。 |
CpuUtilizationPercentage |
计数 | Average、Maximum、Minimum、Total | RunId , InstanceId , ComputeName |
PT1M | 是 |
资源 | DiskAvailMegabytes 可用磁盘空间(以 MB 为单位)。 指标按一分钟的时间间隔进行聚合。 |
DiskAvailMegabytes |
计数 | Average、Maximum、Minimum、Total | RunId , InstanceId , ComputeName |
PT1M | 是 |
资源 | DiskReadMegabytes 从磁盘读取的数据(以 MB 为单位)。 指标按一分钟的时间间隔进行聚合。 |
DiskReadMegabytes |
计数 | Average、Maximum、Minimum、Total | RunId , InstanceId , ComputeName |
PT1M | 是 |
资源 | DiskUsedMegabytes 已用磁盘空间(以 MB 为单位)。 指标按一分钟的时间间隔进行聚合。 |
DiskUsedMegabytes |
计数 | Average、Maximum、Minimum、Total | RunId , InstanceId , ComputeName |
PT1M | 是 |
资源 | DiskWriteMegabytes 写入磁盘的数据(以 MB 为单位)。 指标按一分钟的时间间隔进行聚合。 |
DiskWriteMegabytes |
计数 | Average、Maximum、Minimum、Total | RunId , InstanceId , ComputeName |
PT1M | 是 |
运行 | 错误 此工作区中的运行错误数。 运行遇到错误时,将更新计数。 |
Errors |
计数 | Total、Average、Minimum、Maximum、Count | Scenario |
PT1M | 是 |
运行 | 失败的运行次数 此工作区失败的运行数。 运行失败时,将更新计数。 |
Failed Runs |
计数 | Total、Average、Minimum、Maximum、Count | Scenario , RunType , PublishedPipelineId , ComputeType , PipelineStepType , ExperimentName |
PT1M | 是 |
运行 | 完成状态运行数 此工作区的进入完成状态的运行数。 运行已完成但输出收集仍在进行时,将更新计数。 |
Finalizing Runs |
计数 | Total、Average、Minimum、Maximum、Count | Scenario , RunType , PublishedPipelineId , ComputeType , PipelineStepType , ExperimentName |
PT1M | 是 |
资源 | GpuCapacityMilliGPUs GPU 设备的最大容量(以毫 GPU 为单位)。 容量每分钟聚合一次。 |
GpuCapacityMilliGPUs |
计数 | Average、Maximum、Minimum、Total | RunId , InstanceId , DeviceId , ComputeName |
PT1M | 是 |
资源 | GpuEnergyJoules GPU 节点上的间隔功耗(焦耳)。 功耗每分钟报告一次。 |
GpuEnergyJoules |
计数 | Average、Maximum、Minimum、Total | Scenario , runId , rootRunId , InstanceId , DeviceId , ComputeName |
PT1M | 是 |
资源 | GpuMemoryCapacityMegabytes GPU 设备的最大内存容量(以兆字节为单位)。 容量每分钟聚合一次。 |
GpuMemoryCapacityMegabytes |
计数 | Average、Maximum、Minimum、Total | RunId , InstanceId , DeviceId , ComputeName |
PT1M | 是 |
资源 | GpuMemoryUtilization GPU 节点上内存利用率的百分比。 利用率每分钟报告一次。 |
GpuMemoryUtilization |
计数 | 平均值、最大值、最小值、总计 | Scenario , runId , NodeId , DeviceId , ClusterName |
PT1M | 是 |
资源 | GpuMemoryUtilizationMegabytes GPU 设备的内存利用率(以兆字节为单位)。 利用率每分钟聚合一次。 |
GpuMemoryUtilizationMegabytes |
计数 | 平均值、最大值、最小值、总计 | RunId , InstanceId , DeviceId , ComputeName |
PT1M | 是 |
资源 | GpuMemoryUtilizationPercentage GPU 设备的内存利用率百分比。 利用率每分钟聚合一次。 |
GpuMemoryUtilizationPercentage |
计数 | 平均值、最大值、最小值、总计 | RunId , InstanceId , DeviceId , ComputeName |
PT1M | 是 |
资源 | GpuUtilization GPU 节点上的使用率百分比。 利用率每分钟报告一次。 |
GpuUtilization |
计数 | 平均值、最大值、最小值、总计 | Scenario , runId , NodeId , DeviceId , ClusterName |
PT1M | 是 |
资源 | GpuUtilizationMilliGPUs GPU 设备利用率(以毫 GPU 为单位)。 利用率每分钟聚合一次。 |
GpuUtilizationMilliGPUs |
计数 | 平均值、最大值、最小值、总计 | RunId , InstanceId , DeviceId , ComputeName |
PT1M | 是 |
资源 | GpuUtilizationPercentage GPU 设备的利用率百分比。 利用率每分钟聚合一次。 |
GpuUtilizationPercentage |
计数 | 平均值、最大值、最小值、总计 | RunId , InstanceId , DeviceId , ComputeName |
PT1M | 是 |
资源 | IBReceiveMegabytes 通过 InfiniBand 接收的网络数据(以兆字节为单位)。 指标按一分钟的时间间隔进行聚合。 |
IBReceiveMegabytes |
计数 | 平均值、最大值、最小值、总计 | RunId , InstanceId , ComputeName , DeviceId |
PT1M | 是 |
资源 | IBTransmitMegabytes 通过 InfiniBand 发送的网络数据(以兆字节为单位)。 指标按一分钟的时间间隔进行聚合。 |
IBTransmitMegabytes |
计数 | 平均值、最大值、最小值、总计 | RunId , InstanceId , ComputeName , DeviceId |
PT1M | 是 |
配额 | 空闲核心数 空闲核心数 |
Idle Cores |
计数 | 平均值、最大值、最小值、总计 | Scenario , ClusterName |
PT1M | 是 |
配额 | 空闲节点数 空闲节点数。 空闲节点是指未运行任何作业,但可以接受新作业(如果可用)的节点。 |
Idle Nodes |
计数 | 平均值、最大值、最小值、总计 | Scenario , ClusterName |
PT1M | 是 |
配额 | 正在退出的核心数 正在退出的核心数 |
Leaving Cores |
计数 | 平均值、最大值、最小值、总计 | Scenario , ClusterName |
PT1M | 是 |
配额 | 正在退出的节点数 正在退出的节点数。 正在退出的节点是指刚刚完成了作业处理,将进入空闲状态的节点。 |
Leaving Nodes |
计数 | 平均值、最大值、最小值、总计 | Scenario , ClusterName |
PT1M | 是 |
型号 | 失败的模型部署数 此工作区中失败的模型部署数 |
Model Deploy Failed |
计数 | Total、Average、Minimum、Maximum、Count | Scenario , StatusCode |
PT1M | 是 |
型号 | 已启动的模型部署数 此工作区中已启动的模型部署数 |
Model Deploy Started |
计数 | Total、Average、Minimum、Maximum、Count | Scenario |
PT1M | 是 |
型号 | 成功的模型部署数 此工作区中成功的模型部署数 |
Model Deploy Succeeded |
计数 | Total、Average、Minimum、Maximum、Count | Scenario |
PT1M | 是 |
型号 | 失败的模型注册数 此工作区中失败的模型注册数 |
Model Register Failed |
计数 | Total、Average、Minimum、Maximum、Count | Scenario , StatusCode |
PT1M | 是 |
型号 | 成功的模型注册数 此工作区中成功的模型注册数 |
Model Register Succeeded |
计数 | Total、Average、Minimum、Maximum、Count | Scenario |
PT1M | 是 |
资源 | NetworkInputMegabytes 接收的网络数据(以兆字节为单位)。 指标按一分钟的时间间隔进行聚合。 |
NetworkInputMegabytes |
计数 | Average、Maximum、Minimum、Total | RunId , InstanceId , ComputeName , DeviceId |
PT1M | 是 |
资源 | NetworkOutputMegabytes 发送的网络数据(以兆字节为单位)。 指标按一分钟的时间间隔进行聚合。 |
NetworkOutputMegabytes |
计数 | Average、Maximum、Minimum、Total | RunId , InstanceId , ComputeName , DeviceId |
PT1M | 是 |
运行 | 无响应运行数 此工作区无响应的运行数。 当运行进入无响应状态时,将更新计数。 |
Not Responding Runs |
计数 | Total、Average、Minimum、Maximum、Count | Scenario , RunType , PublishedPipelineId , ComputeType , PipelineStepType , ExperimentName |
PT1M | 是 |
运行 | 未启动运行 此工作区处于“未启动”状态的运行数。 当收到创建运行的请求但尚未填充运行信息时,将更新计数。 |
Not Started Runs |
计数 | Total、Average、Minimum、Maximum、Count | Scenario , RunType , PublishedPipelineId , ComputeType , PipelineStepType , ExperimentName |
PT1M | 是 |
配额 | 占用的核心数 占用的核心数 |
Preempted Cores |
计数 | Average、Maximum、Minimum、Total | Scenario , ClusterName |
PT1M | 是 |
配额 | 抢占的节点 占用的节点数。 这些节点是已从可用节点池中取出的低优先级节点。 |
Preempted Nodes |
计数 | Average、Maximum、Minimum、Total | Scenario , ClusterName |
PT1M | 是 |
运行 | 准备的运行数 为此工作区准备的运行数。 准备运行环境时,当运行进入准备状态时,将更新计数。 |
Preparing Runs |
计数 | Total、Average、Minimum、Maximum、Count | Scenario , RunType , PublishedPipelineId , ComputeType , PipelineStepType , ExperimentName |
PT1M | 是 |
运行 | 预配运行数 为此工作区预配的运行数。 当运行正在等待创建或预配计算目标时,将更新计数。 |
Provisioning Runs |
计数 | Total、Average、Minimum、Maximum、Count | Scenario , RunType , PublishedPipelineId , ComputeType , PipelineStepType , ExperimentName |
PT1M | 是 |
运行 | 排队运行数 此工作区已排队的运行数。 当运行在计算目标中排队时,将更新计数。 等待所需计算节点准备就绪时,可能会发生。 |
Queued Runs |
计数 | Total、Average、Minimum、Maximum、Count | Scenario , RunType , PublishedPipelineId , ComputeType , PipelineStepType , ExperimentName |
PT1M | 是 |
配额 | 配额利用率百分比 已利用的配额百分比 |
Quota Utilization Percentage |
计数 | 平均值、最大值、最小值、总计 | Scenario , ClusterName , VmFamilyName , VmPriority |
PT1M | 是 |
运行 | 已启动的运行数 为此工作区运行的运行数。 运行在所需资源上开始运行时,将更新计数。 |
Started Runs |
计数 | Total、Average、Minimum、Maximum、Count | Scenario , RunType , PublishedPipelineId , ComputeType , PipelineStepType , ExperimentName |
PT1M | 是 |
运行 | 启动运行数 为此工作区启动的运行数。 在请求创建运行和运行信息(如运行 ID)已填充后,将更新计数 |
Starting Runs |
计数 | Total、Average、Minimum、Maximum、Count | Scenario , RunType , PublishedPipelineId , ComputeType , PipelineStepType , ExperimentName |
PT1M | 是 |
资源 | StorageAPIFailureCount Azure Blob 存储 API 调用失败计数。 |
StorageAPIFailureCount |
计数 | 平均值、最大值、最小值、总计 | RunId , InstanceId , ComputeName |
PT1M | 是 |
资源 | StorageAPISuccessCount Azure Blob 存储 API 调用成功计数。 |
StorageAPISuccessCount |
计数 | 平均值、最大值、最小值、总计 | RunId , InstanceId , ComputeName |
PT1M | 是 |
配额 | 核心总数 核心总数 |
Total Cores |
计数 | 平均值、最大值、最小值、总计 | Scenario , ClusterName |
PT1M | 是 |
配额 | 节点总数 节点总数。 此总数包括一些活动节点、空闲节点、不可用的节点、占用的节点和正在退出的节点 |
Total Nodes |
计数 | 平均值、最大值、最小值、总计 | Scenario , ClusterName |
PT1M | 是 |
配额 | 不可用的核心数 不可用的核心数 |
Unusable Cores |
计数 | 平均值、最大值、最小值、总计 | Scenario , ClusterName |
PT1M | 是 |
配额 | 不可用的节点数 不可用的节点数。 不可用的节点是由于存在某种不可解决的问题而无法正常运行的节点。 Azure 将回收这些节点。 |
Unusable Nodes |
计数 | 平均值、最大值、最小值、总计 | Scenario , ClusterName |
PT1M | 是 |
运行 | 警告 此工作区中的运行警告数。 运行遇到警告时,将更新计数。 |
Warnings |
计数 | Total、Average、Minimum、Maximum、Count | Scenario |
PT1M | 是 |
反馈
https://aka.ms/ContentUserFeedback。
即将发布:在整个 2024 年,我们将逐步淘汰作为内容反馈机制的“GitHub 问题”,并将其取代为新的反馈系统。 有关详细信息,请参阅:提交和查看相关反馈