Prinsip dan praktik SRE utama: Sisi manusiawi SRE

Selesai

Proses operasi yang sukses, yang mencapai keandalan yang diinginkan dan mempertahankannya, sangat bergantung pada cara kita memperlakukan mesin seperti halnya kita memperlakukan manusia yang bertanggung jawab atas lingkungan tersebut. Rekayasa keandalan situs mengakui kebenaran ini dalam beberapa cara yang penting untuk praktiknya.

Kerja keras

Yang pertama adalah fokus pada gagasan dari “kerja keras”. Dalam konteks SRE, kerja keras mengacu pada pekerjaan operasi yang dilakukan oleh manusia yang memiliki karakteristik tertentu. Toil tidak memiliki nilai penukaran jangka panjang. Toil tidak memajukan layanan dengan cara apa pun yang berarti. Toil sering berulang dan sebagian besar bersifat manual (meskipun bisa diotomatisasi). Ketika layanan atau sistem semakin besar dari waktu ke waktu, jumlah permintaan untuk sistem itu juga mungkin akan meningkat dalam jumlah dengan tingkat proporsional dan membutuhkan lebih banyak tenaga kerja manual.

Misalnya, jika layanan mengharuskan tim SRE untuk mengatur ulang sesuatu setiap minggu, atau untuk memprovisikan akun baru dan ruang disk secara manual, atau berulang kali menghidupkan ulang secara manual, hal ini adalah beban operasional yang melelahkan. Menyelesaikan tindakan tersebut tidak membuat layanan lebih baik dengan cara jangka panjang dan persisten. Tindakan ini kemungkinan harus diulangi berkali-kali.

Catatan

Bahkan jika Anda menyimpan permintaan semacam ini dalam semacam sistem tiket seperti yang dilakukan banyak tempat, melakukan tindakan dan menyelesaikan tiket masih melelahkan. Hal ini hanya merupakan kerja keras yang terlacak dengan baik.

SRes adalah jawaban atas pekerjaan yang melelahkan ini. Layanan ini bekerja untuk menyingkirkan toil bila memungkinkan dan tepat. Ini adalah salah satu tempat otomatisasi ikut berperan di SRE. Jika permintaan ini dapat ditangani secara otomatis, hal tersebut akan membebaskan tim untuk mengerjakan hal-hal yang lebih bermanfaat dan berdampak daripada menghabiskan antrean permintaan.

Perlu diperhatikan bahwa penggunaan kata “tepat” di sini mirip dengan penggunaannya pada keandalan. Ada situasi saat pekerjaan penghapusan kerja keras memiliki prioritas lebih rendah daripada pekerjaan lain, tetapi secara keseluruhan, menghilangkan kerja keras dari layanan adalah fokus utama bagi SRE.

Pekerjaan proyek vs. pekerjaan "operasi" reaktif

Untuk melakukan pekerjaan yang diperlukan guna menghilangkan kerja keras, atau meningkatkan keandalan sistem, waktu SRE harus dialokasikan sedemikian rupa sehingga tidak menghabiskan seluruh waktu SRE untuk menyelesaikan masalah, membalas halaman, atau hanya memproses antrean tiket. SRE perlu menyisihkan waktu untuk menulis kode guna menghilangkan kerja keras, membangun otomatisasi layanan mandiri sehingga tiket tidak diperlukan, membangun proyek yang membuat layanan dan orang-orang lebih efisien. Angka yang biasanya dikutip (yang berasal dari model Google asli) adalah salah satu dari beban operasional tim yang tidak lebih dari 50%.

Catatan

50% adalah angka yang agak arbitrer, tetapi dalam praktiknya angka tersebut tampaknya berfungsi sebagai tujuan yang masuk akal bagi banyak orang.

Ada saat-saat dalam kehidupan SRE ketika seluruh waktu mereka dikhususkan untuk menyelesaikan masalah, tetapi hal tersebut tidak dapat menjadi status yang stabil. Jika pekerjaan "operasi" reaktif tim (sebagian besar kerja keras) menghabiskan lebih dari 50% waktu mereka untuk waktu yang lama, hal tersebut merupakan resep kelelahan dan keandalan yang buruk. Dalam situasi ini, siklus yang baik yang telah kita diskusikan sebelumnya tidak dapat beroperasi atau dibangun. SRE juga memperhatikan beban panggilan yang tidak seimbang karena hal tersebut juga memiliki potensi dampak negatif yang sangat kuat pada tim.

Sekarang setelah kita memiliki kesempatan untuk melihat beberapa praktik dan prinsip inti SRE, mari kita membahas sedikit tentang cara memulai.

Uji pengetahuan Anda

1.

Dari hal-hal ini, mana yang bukan merupakan karakteristik dari kerja keras (dalam konteks SRE)?

2.

Apa hubungan SRE dengan kerja keras?

3.

Apa rincian pekerjaan yang disarankan untuk SRE?