Azure Sphere 设备的远程故障排除最佳做法

远程管理设备时,有时可能会遇到妨碍设备正常运行的问题。 本文包含一系列问题和流程图,可帮助你对情况进行会审并确定出了什么问题。 完成本指南可以减少设备的停机时间,并帮助你快速进行自我故障排除,使设备恢复正常运行。

注意

下面是有关应演练的连接基础结构的初步清单:

  1. 按照 Azure Sphere OS 网络要求中的说明,确保网络基础结构配置为允许 Azure Sphere 设备所需的终结点:
    1. 若要确认终结点已正确配置,请运行 解决方案设计注意事项中的诊断检查。
    2. 若要确定设备是否连接到 Azure Sphere 安全服务 (AS3) ,请运行 命令 az sphere device listlastUpdateRequestUTC检查 字段,该字段提供设备上次从 Azure Sphere 安全服务请求更新的时间。
    3. 如果运行的是自定义 NTP,请确保 NTP 服务器已启动,其时间具有 24 小时的全局时间,并且设置为正确的 时区
  2. 检查应用程序的 Wi-Fi 配置设置
  3. 检查IoT 中心:
    1. 确保IoT 中心上的 Azure Sphere 安全服务证书是最新的。
    2. 检查IoT 中心服务器是否正常运行。
  4. 根据硬件解决方案的规格,检查设备是否获得足够的电源。
  5. 检查 Microsoft 的 NCSI 服务是否已启动并连接。 请参阅以下链接: (http://www.msftconnecttest.com/connecttest.txt) 。

在检查设备运行状况的其他方面之前,请考虑以下初步问题:

有多少设备受到影响? 这是唯一的设备,还是还有其他设备?

  1. 如果少数设备受到影响,请获取其设备 ID,并在 CLI 中运行 az sphere catalog download-error-report 并分析报告。 有关如何解释报表的信息,请参阅 收集和解释错误数据
  2. 如果有多个设备,请继续下一部分。

会审设备运行状况

下面是一些注意事项,可帮助你对情况进行会审。

通过跟踪以下流程图检查设备的连接性: 连接流程图。

首先,检查防火墙设置。 如果管理防火墙设置,检查网络设置符合 Sphere 的要求。 有关详细信息,请参阅 排查网络问题。 按照 Azure Sphere OS 网络要求 中的指南确保合规性。 如果不管理防火墙设置,请联系防火墙管理员以获取进一步指导。

接下来,看看北行连接。 如果使用 Wi-Fi 连接到 Internet,你的设备是否位于拥挤的区域? 如果是,请确保设置使用目标扫描。 有关目标扫描的详细信息,请参阅 WifiConfig_SetTargetedScanEnabled 函数。 如果你的设备不在拥挤的区域,请联系Microsoft 支持部门以获取进一步的指导。 是否使用 EAP-TLS? 如果是,请与提供程序检查生命周期证书管理,并参阅 EAP-TLS 证书续订。 如果不使用 EAP-TLS,请确保未更改 SSID 或密码。

如果使用手机网络连接到 Internet,请询问系统集成商或手机网络服务提供商设备是否显示在网络上。

问题的范围是什么? 通过以下流程图进行跟踪: 问题流程图的规模。

有多少设备遇到问题? 如果只是少数受影响的设备,首先,检查连接流程图。 接下来,检查设备的物理环境:设备是否已拔出或是否已对设备的硬件进行了一些更改? 如果设备已接通电源,并且设备的硬件上未进行任何更改,请获取 2 到 3 个设备 ID,并检查目录错误日志,方法是运行命令 az sphere catalog download-error-report,或者通过访问 Azure 门户并导航到资源菜单,然后选择“监视”标题下的“设备见解”选项卡。 检查“说明”字段。 如果说明包括以下任何内容,检查客户应用程序日志以获取进一步指导:

  • AppCrash
  • AppUpdate
  • AppExit

但是,如果说明包括以下任何内容,请联系 Microsoft 支持部门:

  • SystemAppCrash
  • 内核崩溃
  • 内核 Oops

如果所有设备都受到影响,请执行以下步骤:

  1. 设备最近是否进行了 OS 更新? 如果有,请联系Microsoft 支持部门。 如果他们尚未更新操作系统,请参阅连接流程图。 根据设备组所属的软件通道源,你可能收到了 OS 更新通知。 有关 OS 源的详细信息,请参阅 Azure Sphere OS 源
  2. 设备最近是否进行了应用程序更新? 如果有,请重新部署或回滚到应用程序的早期版本。 如果尚未联系,请联系Microsoft 支持部门。 有关无线更新的详细信息,请参阅 关于无线更新

在可以物理访问设备的情况下

如果能够获取对设备的物理访问权限,则可能需要执行以下本地故障排除步骤:

  1. 是否可以排除该特定位置的连接问题? 例如,建筑物是否存在连接问题?
  2. 检查连接流程图的“以太网”部分:连接流程图。如果使用以太网连接到 Internet,检查交换机端口。 如果交换机端口亮起,请重启设备电源。 如果它们未亮起,检查防火墙设置。
  3. 设备是否已拔出,或是否已对设备的硬件进行了一些更改? 例如,传感器是过度使用还是 USB 连接器损坏?
  4. 运行命令 az sphere get-support-data