你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

对传感器进行故障排除

本文介绍了传感器的基本故障排除工具。 除了本文所述的项目之外,你还可以通过以下方式检查系统的运行状况:

  • 警报:当监视流量的传感器接口关闭时,会创建警报。
  • SNMP:通过 SNMP 监视传感器的运行状况。 Microsoft Defender for IoT 响应从授权监视服务器发送的 SNMP 查询。
  • 系统通知:当管理控制台控制传感器时,可以转发有关传感器备份失败和传感器断开连接的警报。

如有任何其他问题,请联系 Microsoft 支持部门

先决条件

若要执行本文中的过程,请确保:

  • 以默认的管理员用户身份访问 OT 网络传感器。 有关详细信息,请参阅默认特权本地用户

检查传感器与云的连接问题

OT 传感器会自动运行连接性检查,以确保传感器可以访问所有必需的终结点。 如果未连接传感器,Azure 门户的“站点和传感器”页面以及传感器的“概述”页面上会指示错误。 例如:

屏幕截图为“概述”页上的连接错误。 ```

使用 OT 传感器中的“云连接性故障排除”页详细了解发生的错误以及可以采取的推荐缓解措施。

若要排查连接性错误,请登录到 OT 传感器并执行下列操作之一:

  • 在传感器的“概述”页中,选择页面顶部错误中的“故障排除”* 链接
  • 选择“系统设置”>“传感器管理”>“运行状况和故障排除”>“云连接性故障排除”

“云连接性故障排除”窗格在右侧打开。 如果传感器已连接到 Azure 门户,则窗格指示“传感器已成功连接到云”。 如果传感器未连接,则会改为列出问题说明和任何缓解措施说明。 例如:

屏幕截图为“连接性故障排除”窗格。

“云连接性故障排除”窗格涵盖以下类型的问题:

问题 说明
建立安全连接时出错 发生 SSL 错误,这通常意味着传感器不信任找到的证书。

这可能是由于传感器时间配置不正确或使用 SSL 检查服务造成的。 SSL 检查服务通常在代理中找到,可能导致潜在的证书错误。

有关详细信息,请参阅管理 SSL/TLS 证书同步 OT 传感器上的时区
常规连接错误 当传感器无法与一个或多个所需的终结点连接时发生。

在这种情况下,请确保可以从传感器访问所有所需的终结点,并考虑在防火墙中配置更多终结点。 有关详细信息,请参阅预配传感器以进行云管理
“无法访问 DNS 服务器”错误 当传感器由于无法访问 DNS 服务器而无法执行名称解析时发生。 在这种情况下,请验证传感器是否可以访问 DNS 服务器。 有关详细信息,请参阅更新 OT 传感器网络配置
代理身份验证问题 当代理要求身份验证,但没有提供凭据或凭据不正确时发生。

在这种情况下,请确保已正确配置代理凭据。 有关详细信息,请参阅更新 OT 传感器网络配置
名称解析失败 当传感器无法对特定终结点执行名称解析时发生。

在这种情况下,如果可访问 DNS 服务器,请确保在传感器上正确配置 DNS 服务器。 如果配置正确,建议联系 DNS 管理员。

有关详细信息,请参阅更新 OT 传感器网络配置
“无法访问代理服务器”错误 当传感器无法与代理服务器建立连接时发生。 在这种情况下,请与网络团队确认代理服务器的缩放可访问。

有关详细信息,请参阅更新 OT 传感器网络配置
检测到时间偏差 当传感器的 UTC 时间与 Azure 门户上的 Defender for IoT 不同步时发生。

在这种情况下,请配置网络时间协议 (NTP) 服务器以按 UTC 时间同步传感器。

有关详细信息,请参阅在 Azure 门户中配置 OT 传感器设置

检查系统运行状况

通过传感器检查系统运行状况。

若要访问系统运行状况工具,请执行以下操作:

  1. 使用管理员用户凭据登录到传感器,然后选择“系统设置”>“系统运行状况检查”。

  2. 在“系统运行状况检查”窗格中,从菜单中选择命令,以在框中查看更多详细信息。 例如:

    屏幕截图显示了传感器控制台上的系统运行状况检查屏幕。

系统运行状况检查包括以下内容:

名称 说明
健全性
- 设备 运行设备健全性检查。 可以使用 CLI 命令 system-sanity 执行同一检查。
- 版本 显示设备版本。
- 网络属性 显示传感器网络参数。
Redis
- 内存 提供内存使用整体情况,例如使用的内存量和剩余的内存量。
- 最长密钥 显示可能导致内存大量使用的最长密钥。
系统
- 核心日志 提供核心日志的最后 500 行,这样你便能够查看最新的日志行而无需导出整个系统日志。
- 任务管理器 将进程表中出现的任务转换为以下层:

- 永久性层 (Redis)
- 缓存层 (SQL)
- 网络统计信息 显示你的网络统计信息。
- TOP 显示进程表。 它是一个 Linux 命令,提供正在运行的系统的动态实时视图。
- 备份内存检查 提供备份内存的状态,检查以下各项:

- 备份文件夹的位置
- 备份文件夹的大小
- 备份文件夹的限制
- 上次备份的发生时间
- 有多少空间可用于额外的备份文件
- ifconfig 显示设备的物理接口的参数。
- CyberX nload 通过使用六秒测试来显示网络流量和带宽。
- 核心日志中的错误 显示核心日志文件中的错误。

使用 CLI 检查系统运行状况

在测试系统健全性之前,请验证系统是否已启动并正在运行。

有关详细信息,请参阅 OT 网络传感器的 CLI 命令参考

若要测试系统健全性,请执行以下操作:

  1. 通过 Linux 终端(例如 PuTTY)和用户管理员连接到 CLI。

  2. 输入 system sanity

  3. 检查所有服务是否均为绿色(正在运行)。

    屏幕截图,显示正在运行的服务。

  4. 验证“System is UP! (prod)”是否显示在底部。

验证是否使用了正确的版本:

若要检查系统版本,请执行以下操作:

  1. 通过 Linux 终端(例如 PuTTY)和用户管理员连接到 CLI。

  2. 输入 system version

  3. 检查是否显示了正确的版本。

验证安装过程中配置的所有输入接口是否正在运行:

若要验证系统的网络状态,请执行以下操作:

  1. 通过 Linux 终端(例如 PuTTY)和管理员用户连接到 CLI。

  2. 输入 network list(Linux 命令 ifconfig 的等效项)。

  3. 验证是否显示了所需的输入接口。 例如,如果安装了两个四端口铜缆 NIC,则列表中应有 10 个接口。

    屏幕截图,显示接口列表。

验证是否可以访问控制台 Web GUI:

若要检查管理是否有权访问 UI,请执行以下操作:

  1. 使用以太网电缆将便携式计算机连接到管理端口 (Gb1)。

  2. 将便携式计算机 NIC 地址的范围定义为与设备相同的范围。

    屏幕截图,显示对 UI 的管理访问权限。

  3. 从便携式计算机对设备的 IP 地址(默认值:10.100.10.1)进行 ping 操作,以验证连接性。

  4. 在便携式计算机上打开 Chrome 浏览器,输入设备的 IP 地址。

  5. 在“你的连接不是专用连接”窗口中选择“高级”,继续下一步。

  6. 如果显示 Defender for IoT 登录屏幕,则表明测试成功。

    屏幕截图,显示对管理控制台的访问。

下载诊断日志以获取支持

此过程介绍如何下载诊断日志以发送给与特定支持票证相关的客户支持。

以下传感器版本支持此功能:

  • 22.1.1 - 从传感器控制台下载诊断日志。
  • 22.1.3 或更高版本 - 对于本地管理的传感器,请从 Azure 门户的“站点和传感器”页面上传诊断日志。 在云连接的传感器上打开票证时,此文件会自动发送给客户支持。

从 Azure 门户下载的所有文件均由信任根签名,以便计算机仅使用已签名资产。

若要下载诊断日志,请执行以下操作:

  1. 在传感器控制台上,选择“系统设置”>“传感器管理”>“运行状况和故障排除”>“备份和还原”>“备份”

  2. 在“日志”下,选择“支持票证诊断”,然后选择“导出”。

    “备份和还原”窗格的屏幕截图,其中显示了“支持工单诊断”选项。

  3. 对于本地管理的传感器版本 22.1.3 或更高版本,请继续了解上传诊断日志以获得支持

检索取证数据

对于该传感器检测到的设备,以下类型的取证数据以本地方式存储在 OT 传感器上:

  • 设备数据
  • 警报数据
  • 警报 PCAP 文件
  • 事件时间线数据
  • 日志文件

在 OT 网络传感器上使用 OT 传感器的数据挖掘报告Azure Monitor 工作簿从该传感器的存储中检索取证数据。 每种类型的数据都有不同的保留期和最大容量。

有关详细信息,请参阅跨 Microsoft Defender for IoT 数据保留

不能使用 Web 界面进行连接

  1. 验证你尝试连接的计算机是否位于设备所在的网络上。

  2. 验证 GUI 网络是否连接到管理端口。

  3. 对设备的 IP 地址进行 ping 操作。 如果未 ping 通:

    1. 将监视器和键盘连接到设备。

    2. 使用管理员用户和密码登录。

    3. 使用 network list 命令查看当前 IP 地址。

  4. 如果网络参数配置错误,请使用以下过程来更改它们:

    1. 使用 network edit-settings 命令。

    2. 若要更改管理网络 IP 地址,请选择“Y”。

    3. 若要更改子网掩码,请选择“Y”。

    4. 若要更改 DNS,请选择“Y”。

    5. 若要更改默认网关 IP 地址,请选择“Y”。

    6. 对于输入接口更改(仅限传感器),请选择“N”。

    7. 若要应用设置,请选择“Y”。

  5. 重启后,请使用管理员用户的凭据进行连接,并使用 network list 命令验证参数是否已更改。

  6. 尝试 ping 操作并再次从 GUI 进行连接。

设备未响应

  1. 将监视器和键盘连接到设备,或使用 PuTTY 以远程方式连接到 CLI。

  2. 使用管理员用户凭据登录。

  3. 使用 system sanity 命令,检查所有进程是否正在运行。 例如:

    屏幕截图,显示 system sanity 命令。

如有任何其他问题,请联系 Microsoft 支持部门

调查首次登录时密码错误的问题

首次登录到预配置的传感器时,需要按照以下步骤执行密码恢复:

  1. 在 Defender for IoT 登录屏幕上,选择“密码恢复”。 此时会打开“密码恢复”屏幕。

  2. 选择“管理员”或“CyberX”,并复制唯一标识符

  3. 导航到 Azure 门户,然后选择“站点和传感器”。

  4. 选择“更多操作”下拉菜单,然后选择“恢复本地管理控制台密码”。

    “恢复本地管理控制台密码”选项的屏幕截图。

  5. 输入在“密码恢复”屏幕上收到的唯一标识符,然后选择“恢复” 。 此时将下载 password_recovery.zip 文件。 不要解压缩或修改 zip 文件。

    “恢复”对话框的屏幕截图。

  6. 在“密码恢复”屏幕上,选择“上传” 。 此时将打开“上传密码恢复文件”窗口。

  7. 选择“浏览”以找到 password_recovery.zip 文件,或将 password_recovery.zip 拖到窗口。

  8. 选择“下一步”,此时将出现你的用户和系统生成的管理控制台密码。

    注意

    首次登录传感器时,它会链接到你的 Azure 订阅,如果需要恢复管理员用户的密码,则需要该订阅。 有关详细信息,请参阅恢复对传感器的特权访问

调查缺少流量的问题

当传感器识别到某个配置的端口上没有流量时,控制台顶部会出现一个指示器。 此指示器对所有用户可见。 如果出现此消息,可以调查没有流量的位置。 请确保 SPAN 电缆已连接,且 SPAN 体系结构没有任何变化。

检查系统性能

如果部署了新传感器,或者传感器工作缓慢或未显示任何警报,可以检查系统性能。

  1. 登录到传感器并选择“概述”。 确保 PPS 大于 0,并且正在发现设备。
  2. 在“数据挖掘”页中,生成报告。
  3. 在“趋势和统计信息”页中,创建仪表板
  4. 在“警报”页中,检查警报是否已创建。

调查缺少预期警报的问题

如果“警报”窗口未显示预期警报,请验证以下各项:

  1. 检查“警报”窗口中是否显示相同警报,作为对不同安全实例所做的反应。 如果是,且尚未处理此警报,则传感器控制台不会显示新的警报。
  2. 请确保未在管理控制台中使用“警报排除”规则排除此警报。

调查未显示数据的仪表板

如果“趋势和统计信息”窗口中的仪表板未显示任何数据,请执行以下操作

  1. 检查系统性能
  2. 请确保已正确配置时间和区域设置,且未将其设置为将来的时间。

调查只显示广播设备的设备地图问题

当设备地图上显示的设备未彼此连接时,SPAN 端口配置可能会出现问题。 即,你可能只看到广播设备,而无单播通信。

  1. 验证是否只能看到广播流量。 若要完成此操作,请在“数据挖掘”中,选择“创建报告”。 在“创建新报告”中,指定报告字段。 在“选择类别”中,选择“全选”。
  2. 保存报告并查看,以确定是否仅显示广播和多播流量(并且没有单播流量)。 如果是,请联系网络团队修复 SPAN 端口配置,以便你也可以看到单播流量。 或者,直接从交换机记录 PCAP,或使用 Wireshark 连接笔记本电脑。

有关详细信息,请参阅:

将传感器连接到 NTP

你可以配置独立传感器和关联传感器的管理控制台以连接到 NTP。

提示

准备好开始大规模管理 OT 传感器设置后,请从 Azure 门户中定义 NTP 设置。 在 Azure 门户中应用设置后,传感器控制台上的设置是只读的。 有关详细信息,请参阅在 Azure 门户中配置 OT 传感器设置(公共预览版)

若要将独立传感器连接到 NTP,请执行以下操作:

若要将管理控制台控制的传感器连接到 NTP,请执行以下操作:

  • 与 NTP 的连接是在管理控制台上配置的。 管理控制台控制的所有传感器都会自动获取 NTP 连接。

有时 ICS 设备配置有外部 IP 地址。 这些 ICS 设备不会显示在地图上。 地图上出现 Internet 云,而非设备。 这些设备的 IP 地址包含在云映像中。 出现同一问题的另一个迹象是出现了多个与 Internet 相关的警报。 按照如下步骤进行操作以修复问题:

  1. 右键单击设备地图上的云图标,然后选择“导出 IP 地址”。
  2. 复制专用的公共范围,并将其添加到子网列表。 有关详细信息,请参阅微调子网列表
  3. 为 Internet 连接生成新的数据挖掘报表。
  4. 在数据挖掘报告中,进入管理员模式,并删除 ICS 设备的 IP 地址。

清除传感器数据

如果需要重新定位或擦除传感器,可以从传感器清除所有已获知的数据。

有关如何清除系统数据的详细信息,请参阅清除 OT 传感器数据

从传感器控制台导出日志以进行故障排除

若要进一步排除故障,可能需要导出日志(例如数据库或操作系统日志)并将其发送给支持团队。

若要导出日志数据,请执行以下操作:

  1. 在传感器控制台中,转到“系统设置”>“传感器管理”>“备份和还原”>“备份”

  2. 在“导出故障排除信息”对话框中:

    1. 在“文件名”字段中,为导出日志输入一个有意义的名称。 默认文件名使用当前日期,例如 2022-6-14-13:10.tar.gz。

    2. 选择要导出的日志。

    3. 选择“导出”。

    将导出该文件,并从“导出故障排除信息”对话框底部的“存档文件”列表链接该文件。

    例如:

    传感器控制台中导出故障排除信息对话框的屏幕截图。

  3. 选择文件链接以下载导出的日志,还可以选择 按钮查看其一次性密码。

  4. 若要打开导出的日志,请将下载的文件和一次性密码转发给支持团队。 只能在 Microsoft 支持团队的配合下打开导出的日志。

    为使日志保持安全,请务必将密码与下载的日志分开转发。

注意

可以从传感器控制台下载支持票证诊断结果,然后在 Azure 门户中直接上传给支持团队。 有关下载诊断日志的详细信息,请参阅下载诊断日志以获得支持

后续步骤