針對儲存空間直接存取進行疑難排解

適用于:Azure Stack HCI 版本 22H2 和 21H2;Windows Server 2022、Windows Server 2019、Windows Server 2016

使用本文中的資訊,針對您的儲存空間直接存取部署進行疑難排解。

一般而言,請從下列步驟開始:

  1. 使用 Windows Server 目錄,確認 SSD 的製作和型號已通過 Windows Server 2016 和 Windows Server 2019 認證。 向廠商確認磁片磁碟機支援儲存空間直接存取。
  2. 檢查儲存體是否有任何故障的磁片磁碟機。 使用儲存體管理軟體來檢查磁片磁碟機的狀態。 如果有任何磁片磁碟機有故障,請與您的廠商合作。
  3. 視需要更新儲存體和磁片磁碟機韌體。 確定所有節點上都已安裝最新的 Windows 更新。 您可以從 Windows 10 和 Windows Server 2016 更新歷程記錄 取得 Windows Server 2016 的最新更新。 從 Windows 10 和 Windows Server 2019 更新歷程記錄 取得 Windows Server 2019 的最新更新。
  4. 更新網路介面卡驅動程式和韌體。
  5. 執行叢集驗證並檢閱 [儲存體空間直接存取] 區段。 請確定您用於快取的磁片磁碟機已正確回報,且沒有任何錯誤。

如果您仍然遇到問題,請檢閱本文中每個特定問題的疑難排解資訊。

虛擬磁片資源處於無備援狀態

因為當機或電源故障,儲存空間直接存取系統的節點意外重新開機。 然後,一或多個虛擬磁片可能無法上線,您會看到描述 沒有足夠的備援資訊

FriendlyName ResiliencySettingName OperationalStatus HealthStatus IsManualAttach 大小 PSComputerName
Disk4 鏡像 確定 Healthy True 10 TB Node-01.conto...
Disk3 鏡像 確定 Healthy True 10 TB Node-01.contoso。
Disk2 鏡像 無備援 Unhealthy True 10 TB Node-01.contoso。
Disk1 鏡像 {無備援,InService} Unhealthy True 10 TB Node-01.contoso。

此外,嘗試讓虛擬磁片上線之後,下列資訊會記錄在叢集記錄檔中。 DiskRecoveryAction

[Verbose] 00002904.00001040::YYYY/MM/DD-12:03:44.891 INFO [RES] Physical Disk <DiskName>: OnlineThread: SuGetSpace returned 0.
[Verbose] 00002904.00001040:: YYYY/MM/DD -12:03:44.891 WARN [RES] Physical Disk < DiskName>: Underlying virtual disk is in 'no redundancy' state; its volume(s) may fail to mount.
[Verbose] 00002904.00001040:: YYYY/MM/DD -12:03:44.891 ERR [RES] Physical Disk <DiskName>: Failing online due to virtual disk in 'no redundancy' state. If you would like to attempt to online the disk anyway, first set this resource's private property 'DiskRecoveryAction' to 1. We will try to bring the disk online for recovery, but even if successful, its volume(s) or CSV may be unavailable.

如果磁片失敗,或系統無法存取虛擬磁片上的資料,則會發生 「無備援作業狀態 」。 如果在節點上維護期間于節點上發生重新開機,就可能發生此問題。

若要修正此問題,請依照下列步驟操作:

  1. 從 CSV 移除受影響的虛擬磁片。 這樣做會將它們放在叢集中的可用儲存體群組中,並開始顯示為 的 ResourceType Physical Disk

    Remove-ClusterSharedVolume -Name "CSV Name"
    
  2. 在擁有可用儲存體群組的節點上,于處於無備援狀態的每個磁片上執行下列命令。 若要識別可用的儲存體群組所在的節點,您可以執行此命令:

    Get-ClusterGroup
    
  3. 設定磁片復原動作,然後啟動磁片。

    Get-ClusterResource "Physical Disk Resource Name" | Set-ClusterParameter -Name DiskRecoveryAction -Value 1
    Start-ClusterResource -Name "Physical Disk Resource Name"
    
  4. 修復應該會自動啟動。 等候修復完成。 它可能會進入暫停狀態,然後重新開始。 若要監視進度:

    • 執行 Get-StorageJob 以監視修復的狀態,並查看修復完成的時間。
    • 執行 Get-VirtualDisk 並確認空間傳回 HealthStatus of HealthStatus。
  5. 修復完成且虛擬磁片狀況良好之後,請將虛擬磁片參數變更回去。

     Get-ClusterResource "Physical Disk Resource Name" | Set-ClusterParameter -Name DiskRecoveryAction -Value 0
    
  6. 讓磁片離線,然後再次上線以取得 DiskRecoveryAction 生效:

    Stop-ClusterResource "Physical Disk Resource Name"
    Start-ClusterResource "Physical Disk Resource Name"
    
  7. 將受影響的虛擬磁片新增回 CSV。

    Add-ClusterSharedVolume -Name "Physical Disk Resource Name"
    

DiskRecoveryAction 是一個覆寫參數,可讓您在不進行任何檢查的情況下,以讀寫模式附加空間磁片區。 屬性可讓您診斷磁片區未上線的原因。 這類似于維護模式,但您可以在處於失敗狀態的資源上叫用它。 它也可讓您存取資料,以便複製資料。 這種存取在無備援的情況下很有説明。 屬性 DiskRecoveryAction 已于 2018 年 2 月 22 日新增,更新 KB 4077525。

在叢集中中斷連結狀態

當您執行 Get-VirtualDisk Cmdlet 時, OperationalStatus 一或多個儲存空間直接存取虛擬磁片的 會中斷連結。 不過,Cmdlet 所 Get-PhysicalDisk 報告的 HealthStatus 表示所有實體磁片都處於狀況良好狀態。

此範例顯示 Cmdlet 的 Get-VirtualDisk 輸出。

FriendlyName ResiliencySettingName OperationalStatus HealthStatus IsManualAttach 大小 PSComputerName
Disk4 鏡像 確定 Healthy True 10 TB Node-01.contoso。
Disk3 鏡像 確定 Healthy True 10 TB Node-01.contoso。
Disk2 鏡像 已卸離 Unknown True 10 TB Node-01.contoso。
Disk1 鏡像 已卸離 Unknown True 10 TB Node-01.contoso。

此外,下列事件可能會記錄在節點上:

Log Name: Microsoft-Windows-StorageSpaces-Driver/Operational
Source: Microsoft-Windows-StorageSpaces-Driver
Event ID: 311
Level: Error
User: SYSTEM
Computer: Node#.contoso.local
Description: Virtual disk {GUID} requires a data integrity scan.

Data on the disk is out-of-sync and a data integrity scan is required.

To start the scan, run this command:
Get-ScheduledTask -TaskName "Data Integrity Scan for Crash Recovery" | Start-ScheduledTask

Once you have resolved that condition, you can online the disk by using these commands in PowerShell:

Get-VirtualDisk | ?{ $_.ObjectId -Match "{GUID}" } | Get-Disk | Set-Disk -IsReadOnly $false
Get-VirtualDisk | ?{ $_.ObjectId -Match "{GUID}" } | Get-Disk | Set-Disk -IsOffline $false
------------------------------------------------------------

Log Name: System
Source: Microsoft-Windows-ReFS
Event ID: 134
Level: Error
User: SYSTEM
Computer: Node#.contoso.local
Description: The file system was unable to write metadata to the media backing volume <VolumeId>. A write failed with status "A device which does not exist was specified." ReFS will take the volume offline. It might be mounted again automatically.
------------------------------------------------------------
Log Name: Microsoft-Windows-ReFS/Operational
Source: Microsoft-Windows-ReFS
Event ID: 5
Level: Error
User: SYSTEM
Computer: Node#.contoso.local
Description: ReFS failed to mount the volume.
Context: 0xffffbb89f53f4180
Error: A device which does not exist was specified.
Volume GUID:{00000000-0000-0000-0000-000000000000}
DeviceName:
Volume Name:

Detached Operational Status如果髒區域追蹤 (DRT) 記錄已滿,就會發生 。 儲存空間針對鏡像空間使用骯髒的區域追蹤 (DRT),以確保發生電源故障時,會記錄中繼資料的任何即時更新。 記錄的更新可確保儲存空間可以重做或復原作業。 在電源還原之後,它們會將儲存空間傳回彈性且一致的狀態,而系統會備份。 如果 DRT 記錄已滿,則必須先同步處理並排清 DRT 中繼資料,才能讓虛擬磁片上線。 此程式需要執行完整掃描,可能需要數小時才能完成。

若要修正此問題,請依照下列步驟操作:

  1. 從 CSV 移除受影響的虛擬磁片。

    Remove-ClusterSharedVolume -Name "CSV Name"
    
  2. 在未上線的每個磁片上執行這些命令。

    Get-ClusterResource -Name "Physical Disk Resource Name" | Set-ClusterParameter DiskRunChkDsk 7
    Start-ClusterResource -Name "Physical Disk Resource Name"
    
  3. 在中斷連結的磁片區上線上的每個節點上執行下列命令。

    Get-ScheduledTask -TaskName "Data Integrity Scan for Crash Recovery" | Start-ScheduledTask
    

    在中斷連結磁片區上線的所有節點上起始此工作。 修復應該會自動啟動。 等候修復完成。 它可能會進入暫停狀態,然後重新開始。 若要監視進度:

    • 執行 Get-StorageJob 以監視修復的狀態,並查看修復完成的時間。
    • 執行 Get-VirtualDisk 並確認 Space 會傳回 HealthStatus of Health。
      • 「當機復原的資料完整性掃描」是不會顯示為儲存體作業的工作,而且沒有進度指標。 如果工作顯示為執行中,它正在執行中。 完成時,會顯示已完成。

        此外,您也可以使用此 Cmdlet 來檢視執行中排程工作的狀態:

        Get-ScheduledTask | ? State -eq running
        
  4. 當機復原的資料完整性掃描完成之後,修復就會完成,虛擬磁片狀況良好。 將虛擬磁片參數變更回去。

    Get-ClusterResource -Name "Physical Disk Resource Name" | Set-ClusterParameter DiskRunChkDsk 0
    
  5. 讓磁片離線,然後再次上線以取得 DiskRecoveryAction 生效:

    Stop-ClusterResource "Physical Disk Resource Name"
    Start-ClusterResource "Physical Disk Resource Name"
    
  6. 將受影響的虛擬磁片新增回 CSV。

    Add-ClusterSharedVolume -Name "Physical Disk Resource Name"
    

    使用 DiskRunChkdsk value 7 附加空間磁片區,並將分割區設定為唯讀模式。 此動作可讓 Spaces 透過觸發修復來自我探索和自我修復。 修復會在掛接後自動執行。 它也可讓您存取資料來複製資料。 針對某些錯誤狀況,例如完整的 DRT 記錄檔,您必須執行「當機復原」排程工作的資料完整性掃描。

使用「當機復原的資料完整性掃描」工作來同步處理並清除完整的髒區域追蹤 (DRT) 記錄。 此工作可能需要數小時才能完成。 「當機復原的資料完整性掃描」是不會顯示為儲存體作業的工作,而且沒有進度指標。 如果工作顯示為執行中,它正在執行中。 完成時,會顯示為已完成。 如果您取消工作或在此工作執行時重新開機節點,工作必須從頭開始。

如需詳細資訊,請參閱 針對儲存空間直接存取健全狀況和作業狀態 進行疑難排解。

事件 5120 與 STATUS_IO_TIMEOUT c00000b5

重要

針對 Windows Server 2016:若要降低在套用修正程式更新時遇到這些徵兆的機會,建議您使用 儲存體維護模式 程式來安裝 2018 年 10 月 18 日、Windows Server 2016 的累積更新,或更新版本的節點目前已安裝從 5 月 8 日發行的 Windows Server 2016 累積更新時, 2018 年 10 月 9 日至 2018 年 10 月 9 日

當您重新開機 Windows Server 2016 上的節點,並安裝自 2018 年 5 月 8 日 2018 4462917 KB 4103723 到 2018 年 10 月 9 日為止的累積更新之後,您可能會收到事件 5120 STATUS_IO_TIMEOUT c00000b5。

當您重新開機節點時,事件 5120 會記錄在系統事件記錄檔中,並包含下列其中一個錯誤碼:

Event Source: Microsoft-Windows-FailoverClustering
Event ID: 5120
Description:    Cluster Shared Volume 'CSVName' ('Cluster Virtual Disk (CSVName)') has entered a paused state because of 'STATUS_IO_TIMEOUT(c00000b5)'. All I/O will temporarily be queued until a path to the volume is reestablished.

Cluster Shared Volume 'CSVName' ('Cluster Virtual Disk (CSVName)') has entered a paused state because of 'STATUS_CONNECTION_DISCONNECTED(c000020c)'. All I/O will temporarily be queued until a path to the volume is reestablished.

記錄事件 5120 時,即時傾印會產生以收集可能導致其他徵兆或影響效能的偵錯資訊。 當即時傾印產生時,它會導致短暫暫停。 暫停可讓記憶體快照集寫入傾印檔案。 具有大量記憶體和壓力的系統可能會導致節點卸載叢集成員資格,並導致記錄下列事件 1135。

Event source: Microsoft-Windows-FailoverClustering
Event ID: 1135
Description: Cluster node 'NODENAME'was removed from the active failover cluster membership. The Cluster service on this node might have stopped. This could also be due to the node having lost communication with other active nodes in the failover cluster. Run the Validate a Configuration wizard to check your network configuration. If the condition persists, check for hardware or software errors related to the network adapters on this node. Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.

2018 年 5 月 8 日對 Windows Server 2016 引進的變更是累積更新,可針對儲存空間直接存取叢集內部 SMB 網路會話新增 SMB 復原控制碼。 此更新旨在改善暫時性網路失敗的復原能力,並改善 RoCE 處理網路壅塞的方式。 當 SMB 連線嘗試重新連線,並在節點重新開機時等候逾時時,這些改善也會不小心增加逾時。 這些問題可能會影響承受壓力的系統。 在非計劃性停機期間,系統等候連線逾時時,也會觀察到最多 60 秒的 IO 暫停。若要修正此問題,請安裝 2018 年 10 月 18 日、Windows Server 2016 或更新版本的累積更新。

注意

此更新會將 CSV 逾時與 SMB 連線逾時對齊,以修正此問題。 它不會實作變更,以停用因應措施一節中所述的即時傾印產生。

關機程式流程

  1. 執行 Get-VirtualDisk Cmdlet,並確定 HealthStatus 值為 HealthStatus。

  2. 執行此 Cmdlet 以清空節點:

    Suspend-ClusterNode -Drain
    
  3. 執行此 Cmdlet,讓該節點上的磁片處於儲存體維護模式:

    Get-StorageFaultDomain -Type StorageScaleUnit | Where-Object {$_.FriendlyName -eq "<NodeName>"} | Enable-StorageMaintenanceMode
    
  4. Get-PhysicalDisk執行 Cmdlet,並確定 OperationalStatus 值為 In Maintenance mode。

  5. Restart-Computer執行 Cmdlet 以重新開機節點。

  6. 節點重新開機之後,請執行此 Cmdlet,從儲存體維護模式移除該節點上的磁片:

    Get-StorageFaultDomain -Type StorageScaleUnit | Where-Object {$_.FriendlyName -eq "<NodeName>"} | Disable-StorageMaintenanceMode
    
  7. 執行此 Cmdlet 以繼續節點:

    Resume-ClusterNode
    
  8. 執行此 Cmdlet 來檢查重新同步作業的狀態:

    Get-StorageJob
    

停用即時傾印

若要降低即時傾印產生對具有大量記憶體和壓力的系統的影響,您可以停用即時傾印產生。 提供這三個選項:

警告

此程式可以防止收集Microsoft 支援服務可能需要調查此問題的診斷資訊。 支援專員可能會要求您根據特定疑難排解案例重新啟用即時傾印產生。

停用所有傾印

若要完全停用所有傾印,包括全系統即時傾印,請遵循下列步驟。 針對此案例使用此程式:

  1. 建立下列登錄機碼:HKLM\System\CurrentControlSet\Control\CrashControl\ForceDumpsDisabled
  2. 在新的 ForceDumpsDisabled 機碼下,建立 REG_DWORD 屬性作為 GuardedHost,然後將其值設定為 0x10000000。
  3. 將新的登錄機碼套用至每個叢集節點。

注意

您必須重新開機電腦,nregistry 變更才會生效。

設定此登錄機碼之後,即時傾印建立將會失敗,並產生 STATUS_NOT_SUPPORTED 錯誤。

只允許一個 LiveDump

根據預設,Windows 錯誤報告每 7 天只允許每個報表類型一個 LiveDump,每部機器每五天只允許一個 LiveDump。 您可以將下列登錄機碼設定為只允許電腦上的一個 LiveDump 永遠變更。

reg add "HKLM\Software\Microsoft\Windows\Windows Error Reporting\FullLiveKernelReports" /v SystemThrottleThreshold /t REG_DWORD /d 0xFFFFFFFF /f
reg add "HKLM\Software\Microsoft\Windows\Windows Error Reporting\FullLiveKernelReports" /v ComponentThrottleThreshold /t REG_DWORD /d 0xFFFFFFFF /f

注意

您必須重新開機電腦,變更才會生效。

停用叢集產生

若要停用即時傾印的叢集產生(例如記錄事件 5120 時),請執行此 Cmdlet:

(Get-Cluster).DumpPolicy = ((Get-Cluster).DumpPolicy -Band 0xFFFFFFFFFFFFFFFE)

此 Cmdlet 在所有叢集節點上都會立即生效,而不需要重新開機電腦。

IO 效能緩慢

如果您看到 IO 效能變慢,請檢查儲存空間直接存取組態中是否已啟用快取。

有兩種方式可以檢查:

  1. 使用叢集記錄。 使用您選擇的文字編輯器開啟叢集記錄檔,並搜尋 「[\ SBL 磁片 \]」。 您會看到記錄檔產生之節點上的磁片清單。

    快取已啟用磁片範例:請注意,狀態為 CacheDiskStateInitializedAndBound ,且此處有 GUID。

    [=== SBL Disks ===]
     {26e2e40f-a243-1196-49e3-8522f987df76},3,false,true,1,48,{1ff348f1-d10d-7a1a-d781-4734f4440481},CacheDiskStateInitializedAndBound,1,8087,54,false,false,HGST,HUH721010AL4200,7PG3N2ER,A21D,{d5e27a3b-42fb-410a-81c6-9d8cc12da20c},[R/M 0 R/U 0 R/T 0 W/M 0 W/U 0 W/T 0],
    

    快取未啟用:您可以在這裡看到沒有 GUID,且狀態為 CacheDiskStateNonHybrid

    [=== SBL Disks ===]
     {426f7f04-e975-fc9d-28fd-72a32f811b7d},12,false,true,1,24,{00000000-0000-0000-0000-000000000000},CacheDiskStateNonHybrid,0,0,0,false,false,HGST,HUH721010AL4200,7PGXXG6C,A21D,{d5e27a3b-42fb-410a-81c6-9d8cc12da20c},[R/M 0 R/U 0 R/T 0 W/M 0 W/U 0 W/T 0],
    

    快取未啟用:當所有磁片都屬於相同類型時,預設不會啟用大小寫。 您可以在這裡看到沒有 GUID 存在,且狀態為 CacheDiskStateIneligibleDataPartition

    {d543f90c-798b-d2fe-7f0a-cb226c77eeed},10,false,false,1,20,{00000000-0000-0000-0000-000000000000},CacheDiskStateIneligibleDataPartition,0,0,0,false,false,NVMe,INTEL SSDPE7KX02,PHLF7330004V2P0LGN,0170,{79b4d631-976f-4c94-a783-df950389fd38},[R/M 0 R/U 0 R/T 0 W/M 0 W/U 0 W/T 0],
    
  2. 從 SDDCDiagnosticInfo 使用 Get-PhysicalDisk.xml。

    1. 使用 「$d = Import-Clixml GetPhysicalDisk.XML」開啟 XML 檔案。
    2. 執行 ipmo storage
    3. 執行 $d。 請注意,[使用量] 是 [自動選取],而非 [日誌]。

    您應該會看到類似以下的輸出:

    FriendlyName SerialNumber MediaType CanPool OperationalStatus HealthStatus 使用方式 大小
    NVMe INTEL SSDPE7KX02 PHLF733000372P0LGN SSD False 確定 Healthy 自動選取 1.82 TB
    NVMe INTEL SSDPE7KX02 PHLF7504008J2P0LGN SSD False 確定 Healthy 自動選取 1.82 TB
    NVMe INTEL SSDPE7KX02 PHLF7504005F2P0LGN SSD False 確定 Healthy 自動選取 1.82 TB
    NVMe INTEL SSDPE7KX02 PHLF7504002A2P0LGN SSD False 確定 Healthy 自動選取 1.82 TB
    NVMe INTEL SSDPE7KX02 PHLF7504004T2P0LGN SSD False 確定 Healthy 自動選取 1.82 TB
    NVMe INTEL SSDPE7KX02 PHLF7504002E2P0LGN SSD False 確定 Healthy 自動選取 1.82 TB
    NVMe INTEL SSDPE7KX02 PHLF7330002Z2P0LGN SSD False 確定 Healthy 自動選取 1.82 TB
    NVMe INTEL SSDPE7KX02 PHLF733000272P0LGN SSD False 確定 Healthy 自動選取 1.82 TB
    NVMe INTEL SSDPE7KX02 PHLF7330001J2P0LGN SSD False 確定 Healthy 自動選取 1.82 TB
    NVMe INTEL SSDPE7KX02 PHLF733000302P0LGN SSD False 確定 Healthy 自動選取 1.82 TB
    NVMe INTEL SSDPE7KX02 PHLF7330004D2P0LGN SSD False 確定 Healthy 自動選取 1.82 TB

如何終結現有的叢集,以便再次使用相同的磁片

在儲存空間直接存取叢集中,停用儲存空間直接存取並使用清除磁片磁碟機 中所述 的清除程式。 叢集存放集區仍然處於離線狀態,且健全狀況服務已從叢集移除。

下一個步驟是移除虛設存放集區:

Get-ClusterResource -Name "Cluster Pool 1" | Remove-ClusterResource

現在,如果您在任何節點上執行 Get-PhysicalDisk ,您會看到集區中的所有磁片。 例如,在具有 4 個 SAS 磁片的 4 個節點叢集的實驗室中,每個叢集都會顯示 100 GB 給每個節點。 在此情況下,停用儲存體空間直接存取之後,這會移除 SBL (儲存體 匯流排層),但如果您執行 Get-PhysicalDisk ,它應該會報告 4 個磁片,但不包括本機 OS 磁片。 相反,它報告了16。 叢集中所有節點的行為都相同。 當您執行 Get-Disk 命令時,您會看到本機連結的磁片編號為 0、1、2 等等,如下列範例輸出所示:

數值 易記名稱 序號 HealthStatus OperationalStatus 大小總計 資料分割樣式
0 Msft Virtual Healthy 線上 127 GB GPT
Msft Virtual Healthy 離線 100 GB RAW
Msft Virtual Healthy 離線 100 GB RAW
Msft Virtual Healthy 離線 100 GB RAW
Msft Virtual Healthy 離線 100 GB RAW
1 Msft Virtual Healthy 離線 100 GB RAW
Msft Virtual Healthy 離線 100 GB RAW
2 Msft Virtual Healthy 離線 100 GB RAW
Msft Virtual Healthy 離線 100 GB RAW
Msft Virtual Healthy 離線 100 GB RAW
Msft Virtual Healthy 離線 100 GB RAW
Msft Virtual Healthy 離線 100 GB RAW
4 Msft Virtual Healthy 離線 100 GB RAW
3 Msft Virtual Healthy 離線 100 GB RAW
Msft Virtual Healthy 離線 100 GB RAW
Msft Virtual Healthy 離線 100 GB RAW
Msft Virtual Healthy 離線 100 GB RAW

當您使用 Enable-ClusterS2D 建立儲存空間直接存取叢集時發生「不支援的媒體類型」錯誤訊息

當您執行 Enable-ClusterS2D Cmdlet 時,可能會看到類似的錯誤:

A screenshot of errors when running the Enable-ClusterS2D cmdlet when unsupported media is present.

若要修正此問題,請確定 HBA 介面卡是以 HBA 模式設定。 不應在 RAID 模式中設定 HBA。

Enable-Cluster儲存體SpacesDirect 停止回應「等待 SBL 磁片呈現」或 27%

您會在驗證報告中看到下列資訊:

連線到節點 <nodename> 的磁片 <identifier> 傳回 SCSI 埠關聯,且找不到對應的主機殼裝置。 硬體與儲存空間直接存取不相容(S2D)。 請連絡硬體廠商,以驗證 SCSI 主機殼服務 (SES) 的支援。

問題在於位於磁片與 HBA 卡之間的 HPE SAS 擴充器卡片。 SAS 展開器會在連線到展開器和展開器本身的第一個磁片磁碟機之間建立重複的識別碼。 此問題已在 HPE 智慧陣列控制器 SAS 擴充器韌體中 解決:4.02

Intel SSD DC P4600 系列具有非統一的 NGUID

您可能會看到 Intel SSD DC P4600 系列裝置似乎針對多個命名空間回報類似的 16 位元組 NGUID 的問題,例如 0100000000100000E4D25C000014E214 或 0100000001000000E4D25C00000EEE214。

UniqueId DeviceId MediaType BusType SerialNumber 大小 CanPool FriendlyName OperationalStatus
5000CCA251D12E30 0 HDD SAS 7PKR197G 10000831348736 False HGST HUH721010AL4200
eui.0100000000100000E4D25C000014E214 4 SSD NVMe 0100_0000_0100_0000_E4D2_5C00_0014_E214。 1600321314816 True 英特爾 SSDPE2KE016T7
eui.0100000000100000E4D25C000014E214 5 SSD NVMe 0100_0000_0100_0000_E4D2_5C00_0014_E214。 1600321314816 True 英特爾 SSDPE2KE016T7
eui.0100000000100000E4D25C0000EEE214 6 SSD NVMe 0100_0000_0100_0000_E4D2_5C00_00EE_E214。 1600321314816 True 英特爾 SSDPE2KE016T7
eui.0100000000100000E4D25C0000EEE214 7 SSD NVMe 0100_0000_0100_0000_E4D2_5C00_00EE_E214。 1600321314816 True 英特爾 SSDPE2KE016T7

若要修正此問題,請將 Intel 磁片磁碟機上的韌體更新為最新版本。 從 2018 年 5 月起的韌體版本QDV101B1已知可解決此問題。

Intel SSD 資料中心工具 的 2018 年 5 月版本包含 Intel SSD DC P4600 系列的韌體更新,QDV101B1。

實體磁片和 OperationalStatus 的 HealthStatus

在 Windows Server 2016 儲存空間直接存取 叢集中,您可能會看到一或多個實體磁片的 HealthStatus 為 狀況良好 ,而 OperationalStatus 正在 從集區中移除,確定

呼叫 時 Remove-PhysicalDisk ,會設定 [從集區移除] 狀態,但儲存在 [健全狀況] 中以維護狀態,並在移除作業失敗時允許復原。 您可以使用下列其中一種方法,手動將 OperationalStatus 變更為 Healthy:

  • 從集區中移除實體磁片,然後將其新增回去。
  • Import-Module Clear-PhysicalDiskHealthData.ps1。
  • 執行 Clear-PhysicalDiskHealthData.ps1 腳本 來清除意圖。 此腳本可供下載為 .txt 檔案。 您必須先將它儲存為 ps1 檔案,才能執行它。

以下是示範如何執行腳本的一些範例:

  • SerialNumber使用 參數來指定您需要設定為 [狀況良好] 的磁片。 您可以從 或 Get-PhysicalDisk 取得序號 WMI MSFT_PhysicalDisk 。 此範例會使用零來代表序號。

    Clear-PhysicalDiskHealthData -Intent -Policy -SerialNumber 000000000000000 -Verbose -Force
    
  • UniqueId使用 參數,再次從 WMI MSFT_PhysicalDiskGet-PhysicalDisk 指定磁片。

    Clear-PhysicalDiskHealthData -Intent -Policy -UniqueId 00000000000000000 -Verbose -Force
    

檔案複製速度緩慢

當您使用 檔案總管 將大型 VHD 複製到虛擬磁片時,您可能會看到檔案複製所需的時間比預期還要長。

我們不建議您使用 檔案總管、Robocopy 或 Xcopy 將大型 VHD 複製到虛擬磁片。 這會導致效能低於預期。 複製程式不會經過位於儲存體堆疊下方的 儲存空間直接存取 堆疊,而是像本機複製程式一樣。

如果您想要測試儲存空間直接存取效能,建議您使用 VMFleet 和 Diskspd 來載入和壓力測試伺服器,以取得基底線並設定儲存空間直接存取效能的預期。

在節點重新開機期間,您會在其餘節點上看到的預期事件

可以放心地忽略這些事件:

Event ID 205: Windows lost communication with physical disk {XXXXXXXXXXXXXXXXXXXX}. This can occur if a cable failed or was disconnected, or if the disk itself failed.

Event ID 203: Windows lost communication with physical disk {XXXXXXXXXXXXXXXXXXXX}. This can occur if a cable failed or was disconnected, or if the disk itself failed.

如果您執行 Azure VM,可以忽略此事件: 事件識別碼 32:驅動程式偵測到裝置 \Device\Harddisk5\DR5 已啟用寫入快取。資料損毀可能會發生

使用 Intel P3x00 NVMe 裝置的部署效能緩慢或「遺失通訊」、「IO 錯誤」、「中斷連結」或「無備援」錯誤

我們發現一個重大問題,會影響在「維護版本 8」之前,以 Intel P3x00 系列 NVM Express (NVMe) 裝置為基礎的某些儲存空間直接存取使用者使用硬體。

注意

個別 OEM 可能有以 Intel P3x00 系列 NVMe 裝置為基礎且具有唯一韌體版本字串的裝置。 如需最新韌體版本的詳細資訊,請連絡 OEM。

如果您使用以 Intel P3x00 系列 NVMe 裝置為基礎的部署硬體,建議您立即套用最新的可用韌體(至少維護第 8 版)。