Memperbaiki server di Azure Stack HCI, versi 23H2

Artikel
05/17/2024

Berlaku untuk: Azure Stack HCI, versi 23H2

Artikel ini menjelaskan cara memperbaiki server di kluster Azure Stack HCI Anda.

Tentang server perbaikan

Azure Stack HCI adalah sistem hyperconverged yang memungkinkan Anda memperbaiki server dari kluster yang ada. Anda mungkin perlu memperbaiki server dalam kluster jika ada kegagalan perangkat keras.

Sebelum Anda memperbaiki server, pastikan untuk memeriksa dengan penyedia solusi Anda, komponen mana di server yang merupakan unit penggantian bidang (FRUs) yang dapat Anda ganti sendiri dan komponen mana yang memerlukan penggantian teknisi.

Bagian yang mendukung hot swap biasanya tidak mengharuskan Anda untuk menggambar ulang server tidak seperti komponen yang tidak dapat ditukar dengan panas seperti motherboard. Konsultasikan dengan produsen perangkat keras Anda untuk menentukan penggantian komponen mana yang mengharuskan Anda untuk mencitrakan ulang server. Untuk informasi selengkapnya, lihat Penggantian komponen.

Memperbaiki alur kerja server

Diagram alur berikut menunjukkan proses keseluruhan untuk memperbaiki server.

*Server mungkin tidak dalam keadaan di mana pematian dimungkinkan atau diperlukan

Untuk memperbaiki server yang sudah ada, ikuti langkah-langkah tingkat tinggi ini:

Jika memungkinkan, matikan server yang ingin Anda perbaiki. Tergantung pada status server, pematian mungkin tidak dimungkinkan atau diperlukan.
Gambar ulang server yang perlu diperbaiki.
Jalankan operasi server perbaikan. Sistem operasi, driver, dan firmware Azure Stack HCI diperbarui sebagai bagian dari operasi perbaikan.

Penyimpanan secara otomatis diseimbangkan kembali pada server yang digambatkan ulang. Penyeimbangan ulang penyimpanan adalah tugas prioritas rendah yang dapat berjalan selama beberapa hari tergantung pada jumlah server dan penyimpanan yang digunakan.

Catatan

Jika Anda menyebarkan kluster Azure Stack HCI menggunakan IP penyimpanan kustom, Anda harus menetapkan IP secara manual ke adaptor jaringan penyimpanan setelah server diperbaiki.

Skenario yang didukung

Memperbaiki server menggambar ulang server dan membawanya kembali ke kluster dengan nama dan konfigurasi sebelumnya.

Memperbaiki satu server menghasilkan penyebaran ulang dengan opsi untuk mempertahankan volume data. Hanya volume sistem yang dihapus dan baru disediakan selama penyebaran.

Penting

Pastikan Anda selalu memiliki cadangan untuk beban kerja Anda dan tidak hanya mengandalkan ketahanan sistem. Ini sangat penting dalam skenario server tunggal.

Pengaturan ketahanan

Dalam rilis ini, untuk memperbaiki operasi server, tugas tertentu tidak dilakukan pada volume beban kerja yang Anda buat setelah penyebaran. Untuk operasi server perbaikan, hanya volume infrastruktur yang diperlukan dan volume beban kerja yang dipulihkan dan muncul sebagai volume bersama kluster (CSV).

Volume beban kerja lain yang Anda buat setelah penyebaran masih dipertahankan dan Anda dapat menemukan volume ini dengan menjalankan Get-VirtuaDisk cmdlet. Anda harus membuka kunci volume secara manual (jika volume mengaktifkan BitLocker), dan membuat CSV (jika diperlukan).

Persyaratan perangkat keras

Saat memperbaiki server, sistem memvalidasi perangkat keras server baru yang masuk dan memastikan bahwa server memenuhi persyaratan perangkat keras sebelum ditambahkan ke kluster.

Komponen	Pemeriksaan kesertaan
CPU	Validasi server baru memiliki jumlah inti CPU atau lebih yang sama. Jika inti CPU pada simpul masuk tidak memenuhi persyaratan ini, peringatan akan ditampilkan. Namun, operasi ini diizinkan.
Memori	Validasi server baru memiliki jumlah atau lebih memori yang sama yang terinstal. Jika memori pada simpul masuk tidak memenuhi persyaratan ini, peringatan akan disajikan. Namun, operasi ini diizinkan.
Drive	Validasi server baru memiliki jumlah drive data yang sama yang tersedia untuk Ruang Penyimpanan Langsung. Jika jumlah drive pada simpul masuk tidak memenuhi persyaratan ini, kesalahan akan dilaporkan dan operasi diblokir.

Penggantian server

Anda dapat mengganti seluruh server:

Dengan server baru yang memiliki nomor seri yang berbeda dibandingkan dengan server lama.
Dengan server saat ini setelah Anda menggambar ulang server tersebut.

Skenario berikut didukung selama penggantian server:

Server	Disk	Didukung
Server baru	Disk baru	Ya
Server baru	Disk saat ini	Ya
Server saat ini (digambut ulang)	Disk saat ini diformat ulang *	Tidak
Server saat ini (digambut ulang)	Disk baru	Ya
Server saat ini (digambut ulang)	Disk saat ini	Ya

**Disk yang telah digunakan oleh Ruang Penyimpanan Langsung, memerlukan pembersihan yang tepat. Memformat ulang tidak cukup. Lihat cara Membersihkan drive.

Penting

Jika Anda mengganti komponen selama perbaikan server, Anda tidak perlu mengganti atau mengatur ulang drive data. Jika Anda mengganti drive atau mengatur ulang drive, drive tidak akan dikenali setelah server bergabung dengan kluster.

Penggantian komponen

Pada kluster Azure Stack HCI Anda, komponen yang tidak dapat ditukar dengan hot menyertakan item berikut:

Pengontrol manajemen motherboard/baseboard (BMC)/kartu video
Pengontrol disk/adaptor bus host (HBA)/backplace
Adapter jaringan
Unit pemrosesan grafis
Drive data (drive yang tidak mendukung hot swap, misalnya kartu add-in PCI-e)

Langkah-langkah penggantian aktual untuk komponen yang tidak dapat ditukar dengan panas bervariasi berdasarkan vendor perangkat keras produsen peralatan asli (OEM) Anda. Lihat dokumentasi vendor OEM Anda jika perbaikan server diperlukan untuk komponen yang tidak dapat ditukar dengan panas.

Prasyarat

Sebelum memperbaiki server, Anda harus memastikan bahwa:

AzureStackLCMUser aktif di Direktori Aktif. Untuk informasi selengkapnya, lihat Menyiapkan Direktori Aktif.
Masuk sebagai AzureStackLCMUser atau pengguna lain dengan izin yang setara.
Kredensial untuk AzureStackLCMUser yang belum berubah.

Jika diperlukan, ambil server yang telah Anda identifikasi untuk diperbaiki secara offline. Ikuti langkah-langkah di sini:

Memperbaiki server

Bagian ini menjelaskan cara memperbaiki server menggunakan PowerShell, memantau status Repair-Server operasi dan memecahkan masalah, jika ada masalah.

Pastikan Anda telah meninjau prasyarat.

Ikuti langkah-langkah ini di server yang coba Anda perbaiki.

Instal sistem operasi dan driver yang diperlukan. Ikuti langkah-langkah dalam Menginstal Azure Stack HCI, Sistem Operasi versi 23H2.

Catatan

Anda juga harus Menginstal Peran Windows yang diperlukan.
Daftarkan server dengan Arc. Ikuti langkah-langkah dalam Mendaftar dengan Arc dan menyiapkan izin.

Catatan

Anda harus menggunakan parameter yang sama dengan simpul yang ada untuk mendaftar dengan Arc. Misalnya: Nama Grup Sumber Daya, Wilayah, Langganan, dan Tenda.

Ikuti langkah-langkah ini di server lain yang merupakan anggota kluster Azure Stack HCI yang sama.

Sebelum Anda menambahkan server, pastikan untuk mendapatkan token autentikasi yang diperbarui. Jalankan perintah berikut:
```
 Update-AuthenticationToken
```
Masuk ke server yang sudah menjadi anggota kluster, dengan info masuk pengguna domain yang Anda berikan selama penyebaran kluster. Jalankan perintah berikut untuk memperbaiki server masuk:
```
$Cred = Get-Credential 
Repair-Server -Name "< Name of the new server>" -LocalAdminCredential $Cred
```
Catat ID operasi sebagai output oleh Repair-Server perintah . Anda menggunakan ini nanti untuk memantau kemajuan Repair-Server operasi.

Catatan

Jika Anda menyebarkan kluster Azure Stack HCI menggunakan IP penyimpanan kustom, Anda harus menetapkan IP secara manual ke adaptor jaringan penyimpanan setelah server diperbaiki.

Memantau kemajuan operasi

Untuk memantau kemajuan operasi tambahkan server, ikuti langkah-langkah berikut:

Jalankan cmdlet berikut dan berikan ID operasi dari langkah sebelumnya.

$ID = "<Operation ID>" 
Start-MonitoringActionplanInstanceToComplete -actionPlanInstanceID $ID

Setelah operasi selesai, pekerjaan penyeimbangan ulang penyimpanan latar belakang akan terus berjalan. Tunggu hingga pekerjaan penyeimbangan ulang penyimpanan selesai. Untuk memverifikasi kemajuan pekerjaan penyeimbangan ulang penyimpanan ini, gunakan cmdlet berikut:
```
Get-VirtualDisk|Get-StorageJob
```
Jika pekerjaan penyeimbangan ulang penyimpanan selesai, cmdlet tidak akan mengembalikan output.

Skenario pemulihan

Skenario pemulihan berikut dan langkah-langkah mitigasi yang direkomendasikan ditabulasikan untuk memperbaiki server:

Deskripsi Skenario	Mitigasi	Didukung?
Operasi server perbaikan gagal.	Untuk menyelesaikan operasi, selidiki kegagalan tersebut. Jalankan ulang operasi yang gagal menggunakan `Add-Server -Rerun`.	Ya
Operasi server perbaikan berhasil sebagian tetapi harus dimulai dengan penginstalan sistem operasi baru.	Dalam skenario ini, orkestrator (juga dikenal sebagai Lifecycle Manager) telah memperbarui penyimpanan pengetahuannya dengan server baru. Gunakan skenario server perbaikan.	Ya

Pemecahan Masalah

Jika Anda mengalami kegagalan atau kesalahan saat memperbaiki server, Anda dapat mengambil output kegagalan dalam file log.

Masuk dengan info masuk pengguna domain yang Anda berikan selama penyebaran kluster. Ambil masalah dalam file log.
```
Get-ActionPlanInstance -ActionPlanInstanceID $ID |out-file log.txt
```
Untuk menjalankan ulang operasi yang gagal, gunakan cmdlet berikut:
```
Repair-Server -Rerun
```

Langkah berikutnya

Pelajari selengkapnya tentang cara Menambahkan server.

Share via