Estabelecer processos de gestão de operações

Artigo
07/11/2023

À medida que a sua empresa começa a operar cargas de trabalho no Azure, o próximo passo é estabelecer um processo de gestão operacional e adequação. Este processo enumera, implementa e analisa e otimiza iterativamente o estado operacional destas cargas de trabalho.

Um processo de revisão da condição física operacional garante que todo o portefólio de cargas de trabalho cumpre os compromissos empresariais com o desempenho, a fiabilidade e o custo. Este processo alinha os esforços das equipas centrais de TI, centro de excelência da cloud e cargas de trabalho para proporcionar excelência operacional em escala.

Estabelecer um processo principal para revisão da condição física operacional

Crie um processo de revisão da condição física operacional para compreender totalmente os problemas resultantes da execução de cargas de trabalho num ambiente de produção e como remediar e resolver esses problemas. Este artigo descreve um processo de alto nível para revisão da condição física operacional que a sua empresa pode utilizar para atingir este objetivo.

Condição física operacional na Microsoft

Desde o início, muitas equipas em toda a Microsoft têm estado envolvidas no desenvolvimento da plataforma do Azure. É difícil garantir qualidade e consistência para um projeto de tal dimensão e complexidade. Precisa de um processo robusto para enumerar e implementar regularmente requisitos fundamentais não funcionais.

Os processos que a Microsoft segue constituem a base dos processos descritos neste artigo.

Compreender as funções e os modelos operacionais

A gestão de operações é uma ampla disciplina que envolve várias funções em toda a empresa. Consoante o modelo operacional das organizações, essas funções podem funcionar num ambiente de matriz com várias desvantagens entre equipas de operações centralizadas e descentralizadas.

TI Central/CCoE: Esta função de tecnologia centralizada é responsável pela configuração, operações, governação e segurança de todos os recursos tecnológicos no portefólio de tecnologia.
Operações na cloud: Uma função na organização de tecnologia centralizada, esta função de operações gere o estado de funcionamento e as operações do portefólio de tecnologia. É da sua responsabilidade garantir que o processo é executado sem problemas, que cada função adjacente no processo tem as ferramentas necessárias e que cada uma das funções subsequentes é responsabilizada pelas expectativas deste processo.
Estratégia da cloud: Fornece conhecimentos sobre a empresa para identificar e atribuir prioridades a compromissos para manter os requisitos operacionais de várias cargas de trabalho. Esta função também compara o custo de mitigação com o impacto comercial e impulsiona a decisão final sobre a remediação.
Equipa de carga de trabalho: Responsável pelo desenvolvimento e operações de cargas de trabalho discretas que mapeiam a aplicações, serviços e infraestruturas de suporte específicos, seja no local ou na cloud. A função requer um conhecimento aprofundado da arquitetura da carga de trabalho.

O modelo operacional de cada organização determina a responsabilidade e as atividades diárias das funções acima:

Operações centralizadas: A TI Central mantém total responsabilidade pelas operações. Os proprietários de cargas de trabalho podem ter entrada nas operações e na configuração, mas não têm acesso a ambientes de produção alterados. Apenas as operações de TI e cloud centrais podem proporcionar alterações operacionais para melhorar a adequação operacional.
Operações descentralizadas: As equipas de carga de trabalho são totalmente responsáveis pelas operações, geralmente através de um pipeline CI/CD maduro e automatização de DevOps. Neste modelo, não existe suporte central para configuração, operações, governação ou segurança. Esta abordagem às operações está fora do âmbito da Cloud Adoption Framework. Este modelo operacional deverá ver o Azure Well-Architected Framework para obter orientações operacionais.
Operações empresariais: O centro de excelência da cloud é responsável pelas operações. As equipas de cargas de trabalho e operações na cloud partilham a responsabilidade por aspetos específicos da aptidão operacional.

Objetivo da revisão

A aptidão operacional é avaliada em todo o portefólio com algumas métricas: fiabilidade, desempenho e custo. Em conjunto, estas propriedades permitem uma avaliação rápida da saúde e adequação de todos os ativos no portefólio. Estas métricas são avaliadas nas três elevações da gestão de operações.

Elevações de operações

Linha de base de operações (ou linha de base melhorada): Avalia a aptidão operacional em todos os recursos implementados, independentemente da respetiva função. Esta visão abrangente das operações permite mudanças abrangentes e grandes impactos, mas está limitada pela falta de visibilidade sobre a arquitetura de cargas de trabalho individuais. Todos os recursos implementados na cloud devem ser abrangidos por uma linha de base de operações com suporte regular das operações na cloud. Alguns ambientes podem exigir um maior grau de suporte operacional para satisfazer as necessidades da linha de base melhorada.
Operações da plataforma: Avalia a aptidão operacional das plataformas de tecnologia centralizadas. Esta vista de operações é mais refinada, uma vez que considera a arquitetura da plataforma e como as alterações à solução afetarão a adequação operacional. As alterações às plataformas de tecnologia central podem ter um impacto alargado a jusante nas cargas de trabalho suportadas. Todas as plataformas fundamentais para a missão devem receber suporte dedicado de uma equipa de TI central.
Operações de carga de trabalho: Avalia a aptidão operacional de uma carga de trabalho individual. Esta vista de operações é mais refinada e deve ser considerada quando as melhorias operacionais da condição física requerem alterações na arquitetura de uma carga de trabalho. As operações de carga de trabalho devem cumprir os princípios do Azure Well-Architected Framework. Todas as cargas de trabalho fundamentais para a missão com um ciclo ativo do DevOps devem receber suporte dedicado de uma equipa de cargas de trabalho.

O objetivo da revisão da aptidão operacional é avaliar regularmente a aptidão operacional a todos os níveis. As melhorias identificadas podem então ser aplicadas ao nível adequado para informar as alterações necessárias para gerir o portefólio global.

Processo de revisão da condição física operacional

A chave para manter o desempenho e a continuidade do portefólio de uma empresa é implementar um processo de revisão operacional do fitness.

Uma descrição geral do processo de revisão da condição física operacional

A um nível elevado, o processo tem duas fases. Na fase de pré-requisitos, os requisitos são estabelecidos e mapeados para serviços de suporte. Esta fase ocorre com pouca frequência: talvez anualmente ou quando são introduzidas novas operações. O resultado da fase de pré-requisitos é utilizado na fase de fluxo. A fase de fluxo ocorre com mais frequência, como mensalmente.

Fase de pré-requisitos

Os passos nesta fase capturam os requisitos para realizar uma revisão regular do portefólio e quaisquer cargas de trabalho críticas para a missão.

Identificar operações empresariais críticas. Identifique as operações empresariais fundamentais para a missão da empresa com base nos compromissos comerciais acordados. As operações empresariais são independentes de qualquer funcionalidade de serviço de suporte. Por outras palavras, as operações empresariais representam as atividades reais que a empresa precisa de realizar e que são suportadas por um conjunto de serviços de TI.

O termo crítico para a missão (ou crítico para a empresa) reflete um impacto grave na empresa se a operação for impedida. Por exemplo, um revendedor online pode ter uma operação comercial, como "permitir que um cliente adicione um item a um carrinho de compras" ou "processar um pagamento com cartão de crédito". Se uma destas operações falhar, um cliente não conseguirá concluir a transação e a empresa não conseguirá realizar as vendas.
Mapear operações para serviços. Mapeie as operações empresariais críticas para os serviços de TI (operações de linha de base, plataforma ou carga de trabalho) que as suportam. Qualquer plataforma tecnológica ou carga de trabalho necessária para suportar uma função empresarial crítica também deve ser identificada para mapear operações e serviços para equipas responsáveis.
Analisar dependências do serviço. A maioria das operações empresariais requer orquestração entre várias cargas de trabalho de suporte e plataformas de tecnologia. É importante compreender as dependências entre cada conjunto de recursos de suporte e o fluxo de transações fundamentais através destes serviços.

Considere também as dependências entre os serviços no local e os serviços do Azure. No exemplo do carrinho de compras, o serviço de gestão de stock de inventário pode estar alojado no local e ingerir dados introduzidos por funcionários de um armazém físico. No entanto, pode armazenar dados fora do local num serviço do Azure, como o Armazenamento do Azure ou uma base de dados, como o Azure Cosmos DB.

Um resultado destas atividades é um conjunto de métricas de tabelas de indicadores para a gestão de operações. A tabela de indicadores mede critérios como fiabilidade, desempenho e custo. As métricas da tabela de indicadores expressam os critérios operacionais que espera que o serviço cumpra.

A tabela de indicadores deve ser expressa em termos simples para facilitar uma discussão significativa entre os proprietários de empresas, as operações na cloud e as equipas de carga de trabalho. Por exemplo, uma métrica de tabela de indicadores para fiabilidade pode ser codificada por cores com base na obtenção do SLA acordado. Verde significa cumprir o SLA definido, amarelo significa não cumprir os critérios definidos, mas implementar ativamente uma remediação planeada e vermelho significa não cumprir os critérios definidos sem plano ou ação.

É importante realçar que estas métricas devem refletir diretamente os compromissos empresariais.

Fase de revisão de serviços

A fase de revisão de serviço é o núcleo da revisão da condição física operacional. Envolve estes passos:

Medir as métricas do serviço. Utilize as métricas da tabela de indicadores para monitorizar o desempenho em cada nível de gestão de operações, para garantir que os serviços cumprem os compromissos empresariais. Os serviços de inventário e visibilidade na linha de base de operações são essenciais. Se não conseguir monitorizar um conjunto de recursos relativamente aos compromissos empresariais, considere que as métricas da tabela de indicadores correspondentes são vermelhas. Neste caso, o primeiro passo para a remediação é implementar a monitorização de serviço adequada. Por exemplo, se a empresa espera que um serviço funcione com 99,99 por cento de disponibilidade, mas não existir telemetria de produção para medir a disponibilidade, suponha que não está a cumprir o requisito.
Planear a remediação. Para cada compromisso empresarial para o qual as métricas ficam abaixo de um limiar aceitável, determine a equipa de operações adequada para concluir a remediação necessária. Essa equipa é responsável por calcular o custo da remediação do serviço para colocar as operações num nível aceitável. Se o custo de remediação do problema for maior do que o orçamento alocado a esse serviço, a equipa central de TI/CCoE deverá rever com a equipa de estratégia da cloud para avaliar os investimentos adicionais.
Implementar a remediação. Após as operações na cloud ou a equipa de carga de trabalho obter aceitação num plano de remediação, implemente-a. Comunique o estado da implementação sempre que rever as métricas da tabela de indicadores.

Este processo é iterativo. A equipa de TI/CCoE central é responsável pela gestão do processo e relatórios sobre o progresso para a equipa de estratégia da cloud. Esta equipa deve reunir-se regularmente para rever os projetos de remediação existentes, iniciar a revisão fundamental das novas cargas de trabalho e controlar a tabela de indicadores geral da empresa. A equipa também deve ter autoridade para responsabilizar as equipas de remediação (operações na cloud ou operações de carga de trabalho) se estiverem atrasadas ou não cumprirem as métricas.

Rever reunião

Recomendamos que a sua aptidão operacional seja revista regularmente. A equipa de operações de TI/CCoE central e cloud é necessária na revisão. As equipas de operações de estratégia e carga de trabalho da cloud são incentivadas a participar, mas estão operacionais. Exemplo de cadência, a equipa principal pode reunir-se mensalmente para alinhar em planos e responsabilizar várias equipas de operações. Trimestralmente, a estratégia da cloud e todas as equipas de cargas de trabalho podem aderir para compreender o estado e as métricas.

Adapte os detalhes do processo e da reunião de acordo com as suas necessidades específicas. Recomendamos as seguintes considerações como ponto de partida:

Operações centralizadas: É pouco provável que as equipas de carga de trabalho participem ativamente no processo, mas devem ser incluídas em quaisquer relatórios para visibilidade.
Operações descentralizadas: A equipa de operações na cloud deve partilhar as melhores práticas utilizadas para melhorar as operações das plataformas tecnológicas com as equipas de carga de trabalho. As equipas de cargas de trabalho devem partilhar alterações às respetivas cargas de trabalho para identificar melhorias que possam ser aplicadas às plataformas tecnológicas e à linha de base de operações.

Recursos recomendados

Azure Automanage. O Azure Automanage monitoriza automaticamente a aptidão operacional na linha de base de operações e automatiza a aplicação de várias estratégias de remediação em todo o portefólio.
Assistente do Azure. O Assistente do Azure fornece recomendações personalizadas com base na sua utilização e configurações para ajudar a otimizar os seus recursos. Por predefinição, esta ferramenta fornece recomendações numa subscrição para melhorar a linha de base de operações. Também pode ser utilizado de forma mais granular para identificar melhoramentos em plataformas tecnológicas ou cargas de trabalho individuais.
Microsoft Azure Well-Architected Framework: documentação de orientação para melhorar as operações de carga de trabalho ou orientar operações descentralizadas.