Основные принципы и методы SRE: человеческая сторона SRE

Завершено

Успешный процесс операций — это процесс, который достигает требуемой надежности и поддерживает его. Такой процесс зависит от того, как он обрабатывает людей, ответственных за ту среду, как она зависит от того, как она обрабатывает машины. Проектирование надежности сайта признает эту правду во многих отношениях, которые имеют решающее значение для его практики.

Рутина

Сначала рассмотрим понятие "рутина" (toil). В контексте SRE под рутиной понимаются операции, выполняемые человеком и имеющие определенные характеристики. Рутина не имеет ценности в долгосрочной перспективе. Она никаким образом не развивает службу. Это часто повторяющееся и в значительной степени вручную (даже если это может быть автоматизировано). По мере роста службы или системы количество запросов к этой системе, скорее всего, также пропорционально возрастет, что, в свою очередь, приведет к увеличению ручного труда.

Например, службе может потребоваться, чтобы команда SRE влечет за собой рабочие нагрузки, такие как те, которые считаются рабочими нагрузками:

  • Сброс чего-то каждую неделю.
  • Подготовка новых учетных записей и места на диске вручную.
  • Повторно перезапустить процесс вручную.

Выполнение этих действий не делает службу лучше в долгосрочной, постоянной форме. Это также, скорее всего, эти действия должны повторяться снова и снова.

Примечание.

Даже если поместить запросы подобного рода в рамки некоторой системы обработки запросов, как это сделано во многих организациях, все равно выполнение этих действий и обработка запросов будут являться рутиной. Это будет просто хорошо организованной рутиной.

Подход SRE не приемлет рутину. Инженеры SRE работают над тем, чтобы исключить рутину во всех случаях, когда это возможно и целесообразно. Эта цель является одним из мест, где автоматизация вступает в игру в SRE. Если эти запросы можно обрабатывать автоматически, то это позволит высвободить силы команды для работы над более важными, чем разгребание очереди запросов в службу поддержки, вещами.

Использование слова "соответствующее" в отношении тиля похоже на его использование вокруг надежности. Существуют ситуации, когда избавление от рутины имеет более низкий приоритет по отношению к другим задачам, однако в целом исключение рутины из службы имеет ключевое значение в SRE.

Работа над проектами или работа по обслуживанию системы

Чтобы выполнить необходимые действия, чтобы удалить труд, или повысить надежность системы, необходимо выделить соответствующее время SRE. Они хотят убедиться, что они не тратят все свое время пожарных, отвечая на страницы или просто обрабатывая очередь билетов. У них должно быть время для написания кода, который поможет устранить рутину, создать автоматическую систему самообслуживания (чтобы отпала необходимость в создании запросов в службу поддержки), создать проекты, благодаря которым службы и люди станут эффективнее. Обычно приводят следующую пропорцию (источником которой является исходная модель Google): не более 50 % рабочей нагрузки в команде.

Примечание.

Значение 50 % взято в определенной степени произвольно, но на практике во многих случаях оно выглядит вполне разумно.

В некоторые моменты инженеры SRE тратят все свое время на устранение авралов, но это не является нормой. Если работа по обслуживанию (большая часть из которой является рутиной) в течение продолжительного времени занимает более 50 % рабочего времени команды, то это ведет к выгоранию и снижению надежности. В этой ситуации добродетельные циклы, которые мы обсуждали, прежде чем не могут работать или быть созданы. SRE аналогично уделяет внимание плохо сбалансированной нагрузке по вызову, так как это тоже имеет потенциал для сильного негативного влияния на команду.

Теперь, когда мы определили некоторые основные методики и принципы SRE, поговорим немного о том, с чего же начать работу.

Проверьте свои знания

1.

Какое из следующих утверждений не является характеристикой тяжелого труда (в контексте SRE)?

2.

Как инженеры SRE относятся к тяжелому труду?

3.

Как рекомендуется разделять работу в SRE?