Memecahkan masalah pendaftaran Azure Stack HCI

Pemecahan masalah pendaftaran Azure Stack HCI memerlukan melihat log pendaftaran PowerShell dan log debug hcisvc dari setiap server di kluster.

Kumpulkan log pendaftaran PowerShell

Saat cmdlet Register-AzStackHCI dan Unregister-AzStackHCI dijalankan, file log bernama RegisterHCI_{yyyymmdd-hhss}.log dan UnregisterHCI_{yyyymmdd-hhss}.log dibuat untuk setiap upaya. File-file ini dibuat di direktori kerja sesi PowerShell tempat cmdlet dijalankan. Log debug tidak disertakan secara default. Jika ada masalah yang memerlukan log debug tambahan, atur preferensi debug ke Lanjutkan dengan menjalankan cmdlet berikut sebelum menjalankan Register-AzStackHCI atau Unregister-AzStackHCI:

$DebugPreference = 'Continue'

Mengumpulkan log hcisvc lokal

Untuk mengaktifkan log debug untuk hcisvc, jalankan perintah berikut di PowerShell di setiap server di kluster:

wevtutil.exe sl /q /e:true Microsoft-AzureStack-HCI/Debug

Untuk mendapatkan log:

Get-WinEvent -Logname Microsoft-AzureStack-HCI/Debug -Oldest -ErrorAction Ignore

Gagal mendaftarkan. Tidak dapat membuat sertifikat yang ditandatangani sendiri pada node {Node1,Node2}. Tak dapat mengatur dan memverifikasi sertifikat pendaftaran pada node {Node1,Node2}

Penjelasan status kegagalan:

Selama pendaftaran, setiap server di kluster harus aktif dan berjalan dengan konektivitas internet keluar ke Azure. Cmdlet Register-AzStackHCI berkomunikasi dengan semua server di kluster untuk menentukan sertifikat untuk masing-masing. Setiap server akan menggunakan sertifikatnya untuk membuat panggilan API ke layanan HCI di cloud untuk memvalidasi pendaftaran.

Jika pendaftaran gagal, Anda mungkin melihat pesan berikut: Gagal mendaftar. Tidak dapat membuat sertifikat yang ditandatangani sendiri pada node {Node1,Node2}. Tidak dapat mengatur dan memverifikasi sertifikat pendaftaran pada node {Node1,Node2}

Jika ada nama node setelah bagian Tidak dapat membuat sertifikat yang ditandatangani sendiri pada node dari pesan kesalahan, maka sistem tidak dapat membuat sertifikat di server tersebut.

Tindakan remediasi:

  1. Periksa apakah setiap server yang tercantum dalam pesan di atas aktif dan berjalan. Anda dapat memeriksa status hcisvc dengan menjalankan sc.exe query hcisvc dan memulainya jika diperlukan dengan start-service hcisvc.

  2. Periksa apakah setiap server yang tercantum dalam pesan galat memiliki konektivitas ke mesin tempat cmdlet Register-AzStackHCI dijalankan. Verifikasi hal ini dengan menjalankan cmdlet berikut dari mesin tempat Register-AzStackHCI dijalankan, gunakan New-PSSession untuk terhubung ke setiap server di kluster dan pastikan hal ini berfungsi:

    New-PSSession -ComputerName {failing nodes}
    

Jika ada nama node setelah bagian Tidak dapat menentukan dan memverifikasi sertifikat pendaftaran pada node dari pesan kesalahan, maka layanan dapat membuat sertifikat di server, tetapi server tidak berhasil memanggil API layanan cloud HCI. Pemecahan masalah:

  1. Pastikan setiap server memiliki konektivitas internet yang diperlukan untuk berkomunikasi dengan layanan cloud Azure Stack HCI dan layanan Azure lainnya yang diperlukan seperti Azure Active Directory, dan tidak diblokir oleh firewall. Lihat Persyaratan firewall untuk Azure Stack HCI.

  2. Coba jalankan cmdlet Test-AzStackHCIConnection dan pastikan berhasil. Cmdlet ini memanggil titik akhir kesehatan layanan cloud HCI untuk menguji konektivitas.

  3. Lihatlah log debug hcisvc pada setiap node yang tercantum dalam pesan kesalahan.

    • Tidak masalah jika terdapat pesan Operasi ExecuteWithRetry AADTokenFetch gagal dengan kesalahan yang dapat dicoba lagi yang muncul beberapa kali sebelum gagal dengan operasi ExecuteWithRetry AADTokenFetch gagal setelah semua percobaan ulang atau operasi ExecuteWithRetry AADTokenFetch berhasil coba lagi.
    • Jika Anda menemukan operasi ExecuteWithRetry AADTokenFetch gagal setelah semua percobaan ulang di log, sistem tidak dapat mengambil token Azure Active Directory dari layanan bahkan setelah semua percobaan ulang. Akan ada pengecualian Azure AD terkait yang dicatat dengan pesan ini.
    • Jika Anda melihat AADSTS700027: Pernyataan klien berisi tanda tangan yang tidak valid. [Alasan - Kunci yang digunakan sudah kadaluarsa. Thumbprint kunci yang digunakan oleh klien: '{SomeThumbprint}', Kunci yang ditemukan 'Start=06/29/2021 21:13:15, End=06/29/2023 21:13:15', ini adalah masalah dengan bagaimana waktu diatur di server. Periksa waktu UTC di semua server dengan menjalankan [System.DateTime]::UtcNow di PowerShell, dan bandingkan dengan waktu UTC yang sebenarnya. Jika waktunya tidak tepat, maka tetapkan waktu yang benar di server dan kemudian coba pendaftaran lagi.

Menghapus sumber daya HCI dari portal dan mendaftarkan ulang kluster yang sama menyebabkan masalah

Penjelasan status kegagalan:

Jika Anda secara eksplisit menghapus sumber daya kluster Azure Sack HCI dari portal Azure tanpa terlebih dahulu membatalkan pendaftaran kluster dari Pusat Admin Windows atau PowerShell, penghapusan sumber daya HCI Azure Resource Manager langsung dari portal menghasilkan status sumber daya kluster yang buruk. Pembatalan pendaftaran harus selalu dipicu dari dalam kluster HCI menggunakan cmdlet Unregister-AzStackHCI untuk pembatalan pendaftaran yang bersih. Bagian ini menjelaskan langkah-langkah pembersihan untuk skenario di mana sumber daya kluster HCI telah dihapus dari portal.

Tindakan remediasi:

  1. Masuk ke server kluster HCI lokal menggunakan informasi masuk pengguna kluster.
  2. Jalankan cmdlet Unregister-AzStackHCI pada kluster untuk membersihkan status pendaftaran kluster dan status Arc kluster.
    • Jika pembatalan pendaftaran berhasil, navigasikan ke Pendaftaran aplikasi> Azure Active Directory (Semua aplikasi) dan cari nama yang cocok dengan clusterName dan clusterName.arc. Hapus dua ID aplikasi jika ada.
    • Jika pembatalan pendaftaran gagal dengan kesalahan KESALAHAN: Tidak dapat menonaktifkan integrasi Azure Arc pada nama node < Node>, coba jalankan Disable-AzureStackHCIArcIntegration cmdlet pada node. Jika node dalam status di mana Disable-AzureStackHCIArcIntegration tidak dapat dijalankan, hapus node dari kluster dan coba jalankan Unregister-AzStackHCI cmdlet lagi. Masuk ke setiap node individu:
      1. Ubah direktori ke tempat agen Arc diinstal: cd 'C:\Program Files\AzureConnectedMachineAgent\'.
      2. Dapatkan status di arcmagent.exe dan tentukan grup sumber daya Azure yang diproyeksikan ke: .\azcmagent.exe show. Output untuk perintah ini menunjukkan informasi grup sumber daya.
      3. Putuskan secara paksa agen Arc dari node: .\azcmagent.exe disconnect --force-local-only.
      4. Masuk ke portal Azure dan hapus sumber daya Arc-for-Server dari grup sumber daya yang ditentukan pada langkah ii.

Pengguna menghapus ID Aplikasi secara tidak sengaja

Penjelasan status kegagalan:

Jika kluster terputus selama lebih dari 8 jam, ada kemungkinan bahwa pendaftaran aplikasi Azure AD terkait yang mewakili kluster HCI dan pendaftaran Arc bisa saja dihapus secara tidak sengaja. Untuk berfungsinya kluster HCI dan skenario Arc, dua pendaftaran aplikasi dibuat di penyewa selama pendaftaran.

  • Jika <clustername> ID aplikasi dihapus, sumber daya kluster Koneksi Azure di portal Azure menampilkan Terputus - Kluster tidak dalam status tersambung selama lebih dari 8 jam. Lihat log debug HCIsvc pada node: pesan kesalahan adalah Aplikasi dengan pengidentifikasi '<ID>' tidak ditemukan di direktori 'Direktori Default'. Ini dapat terjadi jika aplikasi belum diinstal oleh administrator penyewa atau disetujui oleh pengguna mana pun di penyewa. Anda mungkin telah mengirim permintaan autentikasi ke penyewa yang salah.
  • Jika <clustername>.arc dibuat selama pengaktifan Arc dihapus, tidak ada kesalahan yang terlihat selama operasi normal. Identitas ini hanya diperlukan selama proses pendaftaran dan pembatalan pendaftaran. Dalam skenario ini, pembatalan pendaftaran gagal dengan kesalahan Tidak dapat menonaktifkan integrasi Azure Arc pada Nama Node <Node >. Coba jalankan cmdlet Disable-AzureStackHCIArcIntegration pada node. Jika node dalam status di mana cmdlet Disable-AzureStackHCIArcIntegration tidak dapat dijalankan, hapus node dari kluster dan coba jalankan cmdlet Unregister-AzStackHCI lagi.

Menghapus salah satu aplikasi ini mengakibatkan kegagalan untuk berkomunikasi dari kluster HCI ke cloud.

Tindakan remediasi:

  • Jika hanya <clustername> AppId yang dihapus, lakukan pendaftaran perbaikan pada kluster untuk menyiapkan aplikasi Azure AD:

    Register-AzStackHCI  -SubscriptionId "<subscription_ID>" -ComputerName Server1 -RepairRegistration
    

    Memperbaiki pendaftaran membuat ulang aplikasi Azure AD yang diperlukan sambil mempertahankan informasi lain seperti nama sumber daya, grup sumber daya, dan pilihan pendaftaran lainnya.

  • Jika <clustername>.arc ID aplikasi dihapus, tidak ada kesalahan yang terlihat di log. Pembatalan pendaftaran akan gagal jika <clustername>.arc dihapus. Jika pembatalan pendaftaran gagal, ikuti tindakan remediasi yang sama yang dijelaskan di bagian ini.

Di luar kesalahan kebijakan

Penjelasan status kegagalan:

Jika kluster yang terdaftar sebelumnya menunjukkan status OutOfPolicy, perubahan pada konfigurasi sistem mungkin menyebabkan status pendaftaran Azure Stack HCI menjadi tidak sesuai dengan kebijakan.

Misalnya, perubahan sistem mungkin meliputi, tetapi tidak terbatas pada:

  • Menonaktifkan konflik pengaturan Boot Aman pada node yang terdaftar.
  • Membersihkan Modul Platform Terpercaya (TPM).
  • Perubahan waktu sistem yang signifikan.

Catatan

Azure Stack HCI 21H2 dengan KB5010421, dan versi yang lebih baru, akan mencoba memulihkan secara otomatis dari status OutOfPolicy. Tinjau Microsoft-AzureStack-HCI/Log Peristiwa Admin untuk informasi lebih lanjut tentang status OutOfPolicy saat ini dan informasi lainnya.

Pesan ID Peristiwa 'OutOfPolicy' apa yang mungkin dapat saya lihat selama pendaftaran?

Tersedia tiga jenis pesan ID peristiwa: Informasi, Peringatan, dan Kesalahan.

Pesan berikut adalah pembaruan dengan Azure Stack HCI 21H2 dengan KB5010421, dan tidak akan terlihat jika KB ini tidak diinstal.

ID peristiwa informasi

Pesan ID Peristiwa Informasi yang terjadi selama pendaftaran. Tinjau dan tindak lanjuti saran apa pun dalam pesan:

  • (Informasi) ID Peristiwa 592: "Azure Stack HCI telah memulai perbaikan datanya. Tidak ada tindakan lebih lanjut dari pengguna yang diperlukan saat ini."

  • (Informasi) ID Peristiwa 594: "Azure Stack HCI mengalami kesalahan saat mengakses datanya. Untuk memperbaikinya, silakan periksa node mana yang terpengaruh - jika seluruh kluster OutOfPolicy (jalankan Get-AzureStackHCI) silakan jalankan Unregister-AzStackHCI di kluster, hidupkan ulang, lalu jalankan Register-AzStackHCI. Hanya jika node ini terpengaruh, hapus node ini dari kluster, hidupkan ulang, dan tunggu perbaikan selesai, lalu bergabung kembali dengan kluster."

ID Peristiwa Peringatan

Dengan adanya pesan peringatan, status pendaftaran tidak selesai. Bisa jadi ada masalah. Pertama, tinjau pesan ID Peristiwa sebelum mengambil langkah pemecahan masalah.

(Peringatan) ID Peristiwa 585: "Azure Stack HCI gagal memperbarui lisensi dari Azure. Untuk mendapatkan detail lebih lanjut tentang kesalahan spesifik, aktifkan saluran peristiwa Microsoft-AzureStack-HCI/Debug."

Catatan

Kemungkinan tertundanya pemulihan koneksi penuh ke Azure tampaknya terjadi setelah perbaikan otomatis berhasil dilakukan dan dapat menyebabkan ID Peristiwa 585 muncul. Ini tidak memengaruhi beban kerja atau lisensi node. Artinya, masih ada lisensi yang diinstal, kecuali jika node keluar dari jendela 30 hari sebelum perbaikan otomatis.

Catatan

Dalam beberapa kasus, Azure Stack HCI mungkin tidak berhasil dalam pemulihan otomatis. Hal ini dapat terjadi ketika status pendaftaran semua node di kluster adalah keluar dari kebijakan. Beberapa langkah manual diperlukan. Lihat pesan ID peristiwa Microsoft-AzureStack-HCI/Admin.

ID peristiwa kesalahan

Pesan kesalahan ID Peristiwa mengidentifikasi kegagalan dalam proses pendaftaran. Pesan kesalahan menyediakan instruksi tentang cara mengatasi kesalahan.

  • (Kesalahan) ID Peristiwa 591: "Azure Stack HCI gagal terhubung dengan Azure. Jika Anda terus melihat kesalahan ini, coba jalankan Register-AzStackHCI lagi dengan parameter -RepairRegistration."

  • (Kesalahan) ID Peristiwa 594: "Azure Stack HCI mengalami kesalahan saat mengakses datanya. Untuk memperbaiki, periksa node mana yang terpengaruh - jika seluruh kluster OutOfPolicy (jalankan Get-AzureStackHCI), jalankan Unregister-AzStackHCI pada kluster, hidupkan ulang, lalu jalankan Register-AzStackHCI. Hanya jika node ini yang terpengaruh, hapus node ini dari kluster, hidupkan ulang, tunggu hingga perbaikan selesai, lalu bergabung kembali dengan kluster."

Sumber daya Kluster dan Arc di portal Azure ada tetapi status Get-AzureStackHCI mengatakan "Belum" terdaftar

Penjelasan status kegagalan:

Masalah ini disebabkan oleh pembatalan pendaftaran kluster HCI dengan lingkungan cloud yang salah atau informasi langganan yang salah. Jika pengguna menjalankan Unregister-AzStackHCI cmdlet dengan parameter -EnvironmentName atau -SubcriptionId yang salah untuk kluster, status pendaftaran kluster akan dihapus dari kluster lokal itu sendiri, tetapi kluster dan sumber daya Arc di portal Azure akan masih ada di lingkungan asli atau langganan.

Contohnya:

  • Salah -EnvironmentName <value>: Anda mendaftarkan kluster di -EnvironmentName AzureUSGovernment seperti pada contoh berikut. Perhatikan bahwa default -EnvironmentName adalah "Azurecloud". Misalnya, Anda menjalankan:

    Register-AzStackHCI  -SubscriptionId "<subscription_ID>" -EnvironmentName AzureUSGovernment
    

    Tetapi Anda kemudian menjalankan Unregister-AzStackHCI cmdlet dengan -EnvironmentName Azurecloud (default) sebagai berikut:

    Unregister-AzStackHCI -SubscriptionId "<subscription_ID>"
    
  • Salah -SubscriptionId <value>: Anda mendaftarkan kluster dengan -SubscriptionId "<subscription_id_1>" sebagai berikut:

    Register-AzStackHCI  -SubscriptionId "<subscription_id_1>"
    

    Tetapi Anda kemudian menjalankan Unregister-AzStackHCI cmdlet untuk ID langganan yang berbeda:

    Unregister-AzStackHCI -SubscriptionId "<subscription_id_2>"
    

Tindakan remediasi:

  1. Hapus kluster dan sumber daya Arc dari portal.
  2. Navigasikan ke Azure Active Directory > Pendaftaran aplikasi (Semua aplikasi), dan telusuri nama yang cocok dengan <clusterName> dan <clusterName>.arc, lalu hapus kedua ID aplikasi tersebut.

Mengeluarkan Sync-AzureStackHCI segera setelah menghidupkan ulang node kluster mengakibatkan penghapusan sumber daya Arc

Penjelasan status kegagalan:

Melakukan sinkronisasi sensus sebelum sinkronisasi node dapat mengakibatkan sinkronisasi dikirim ke Azure, yang tidak menyertakan node. Ini menyebabkan sumber daya Arc untuk node tersebut dihapus. Sync-AzureStackHCI Cmdlet harus digunakan hanya untuk mendebug konektivitas cloud kluster HCI. Kluster HCI memiliki waktu pemanasan kecil setelah reboot untuk mendamaikan status kluster; oleh karena itu, jangan jalankan Sync-AzureStackHCI segera setelah mereboot sebuah node.

Tindakan remediasi:

  1. Di portal Azure, masuk ke node yang muncul sebagai Tidak terinstal.

    Cuplikan layar portal Microsoft Azure dengan node yang disorot yang muncul sebagai tidak terinstal.

  2. Putuskan sambungan agen Arc menggunakan dua perintah berikut:

    cd "C:\Program Files\AzureConnectedMachineAgent"
    

    kemudian

    .\azcmagent.exe disconnect --force-local-only
    
  3. Perbaiki pendaftaran:

    Register-AzStackHCI  -SubscriptionId "<subscription_ID>" -ComputerName Server1  -RepairRegistration
    
  4. Setelah operasi perbaikan, node kembali ke status tersambung.

Pendaftaran berhasil diselesaikan tetapi koneksi Azure Arc di portal mengatakan Tidak Terinstal

Penjelasan status kegagalan:

Ini terjadi dalam skenario ketika satu atau semua node kluster HCI diaktifkan secara manual dan bukan sebagai bagian dari cmdlet Register-AzStackHCI atau alur kerja pendaftaran Azure Stack HCI pusat Admin Windows. Hal ini juga dapat terjadi dalam skenario ketika kluster HCI tidak terdaftar dengan benar seperti yang direkomendasikan dalam artikel ini sebelum mencoba mendaftarkan ulang kluster yang sama.

Dengan cluster dalam status ini, saat Anda mencoba mendaftarkan HCI dengan Azure, pendaftaran berhasil diselesaikan. Namun, di portal Azure, koneksi Azure Arc menampilkan Tidak Terinstal.

Tindakan remediasi:

  1. Masuk ke node kluster dengan status Azure Arc yang ditampilkan sebagai Tidak terinstal:

    Cuplikan layar node yang muncul sebagai tidak terinstal di bagian node kluster status Azure Arc.

  2. Putuskan sambungan agen Arc menggunakan dua perintah berikut:

    cd "C:\Program Files\AzureConnectedMachineAgent"
    

    kemudian

    .\azcmagent.exe disconnect --force-local-only
    
  3. Pastikan Anda menjalankan modul PS Az.StackHCI terbaru:

    Install-Module -Name Az.StackHCI 
    
  4. Jalankan cmdlet pendaftaran perbaikan:

    Register-AzStackHCI  -SubscriptionId "<subscription_ID>" -ComputerName Server1  -RepairRegistration
    

Tidak dapat memutar sertifikat di Fairfax dan Mooncake

Penjelasan status kegagalan:

  1. Dari portal Azure, sumber daya kluster Koneksi Azure menampilkan Terputus.
  2. Lihat log debug HCIsvc pada node. Pesan kesalahannya akan menjadi pengecualian: AADSTS700027: Pernyataan klien validasi tanda tangan gagal.
  3. Kesalahan juga dapat ditampilkan sebagai RotateRegistrationCertificate gagal: Audiens Tidak Valid.

Tindakan remediasi:

Lakukan pendaftaran perbaikan pada kluster untuk menambahkan sertifikat baru di aplikasi Azure AD:

Register-AzStackHCI  -SubscriptionId "<subscription_ID>" -ComputerName Server1 -RepairRegistration

Memperbaiki pendaftaran menghasilkan sertifikat pengganti baru di aplikasi Azure AD, sambil mempertahankan informasi lain seperti nama sumber daya, grup sumber daya, dan pilihan pendaftaran lainnya.

OnPremisesPasswordValidationTimeSkew

Penjelasan status kegagalan:

Pembuatan token Azure AD gagal dengan kesalahan waktu jika waktu node lokal terlalu jauh tidak sinkron dengan waktu saat ini (UTC). Azure AD mengembalikan kesalahan berikut:

AADSTS80013: OnPremisesPasswordValidationTimeSkew - Upaya autentikasi tidak dapat diselesaikan karena perbedaan waktu antara mesin yang menjalankan agen autentikasi dan AD. Perbaikan masalah waktu sinkronisasi.

Tindakan remediasi:

Pastikan waktu disinkronkan ke sumber waktu yang diketahui dan akurat.

Langkah berikutnya