Gestão e monitorizaçãoManagement and monitoring

Gestão e monitorização de plataformas de planosPlan platform management and monitoring

Esta secção explora como manter operacionalmente um imóvel empresarial Azure com gestão e monitorização centralizadas a nível de plataforma.This section explores how to operationally maintain an Azure enterprise estate with centralized management and monitoring at a platform level. Mais especificamente, apresenta recomendações-chave para as equipas centrais manterem a visibilidade operacional dentro de uma plataforma Azure em larga escala.More specifically, it presents key recommendations for central teams to maintain operational visibility within a large-scale Azure platform.

Diagrama que mostra gestão e monitorização.

Figura 1: Gestão e monitorização da plataforma.Figure 1: Platform management and monitoring.

Considerações de conceção:Design considerations:

  • Utilize um espaço de trabalho Azure Monitor Log Analytics como limite administrativo.Use an Azure Monitor Log Analytics workspace as an administrative boundary.

  • Monitorização da plataforma centrada em aplicações, abrangendo caminhos de telemetria quente e frio para métricas e troncos, respectivamente:Application-centric platform monitoring, encompassing both hot and cold telemetry paths for metrics and logs, respectively:

    • Métricas do sistema operativo; por exemplo, contadores de desempenho e métricas personalizadasOperating system metrics; for example, performance counters and custom metrics
    • Registos do sistema operativo; por exemplo, Serviços de Informação na Internet, Rastreio de Eventos para Janelas e syslogsOperating system logs; for example, Internet Information Services, Event Tracing for Windows, and syslogs
    • Eventos de saúde de recursosResource health events
  • Registo de auditoria de segurança e obtenção de uma lente de segurança horizontal em toda a propriedade da sua organização Azure:Security audit logging and achieving a horizontal security lens across your organization's entire Azure estate:

    • Integração potencial com sistemas de informação de segurança e gestão de eventos no local (SIEM), tais como ServiceNow, ArcSight ou a plataforma de segurança OnapsisPotential integration with on-premises security information and event management (SIEM) systems such as ServiceNow, ArcSight, or the Onapsis security platform
    • Registos de atividade do AzureAzure activity logs
    • Relatórios de auditoria do Azure Ative Directory (Azure AD)Azure Active Directory (Azure AD) audit reports
    • Serviços de diagnóstico, registos e métricas azure; Eventos de auditoria do Azure Key Vault; registos de fluxo do grupo de segurança da rede (NSG); e registos de eventosAzure diagnostic services, logs, and metrics; Azure Key Vault audit events; network security group (NSG) flow logs; and event logs
    • Azure Monitor, Azure Network Watcher, Azure Security Center e Azure SentinelAzure Monitor, Azure Network Watcher, Azure Security Center, and Azure Sentinel
  • Limites de retenção de dados azure e requisitos de arquivamento:Azure data retention thresholds and archiving requirements:

    • O período de retenção predefinido para registos do Monitor Azure é de 30 dias, com um máximo de dois anos.The default retention period for Azure Monitor Logs is 30 days, with a maximum of two years.
    • O período de retenção por defeito para os relatórios AD da Azure (premium) é de 30 dias.The default retention period for Azure AD reports (premium) is 30 days.
    • O período de retenção predefinido para o serviço de diagnóstico Azure é de 90 dias.The default retention period for the Azure diagnostic service is 90 days.
  • Requisitos operacionais:Operational requirements:

    • Dashboards operacionais com ferramentas nativas, tais como Registos monitores Azure ou ferramentas de terceirosOperational dashboards with native tools such as Azure Monitor Logs or third-party tooling
    • Controlo de atividades privilegiadas com funções centralizadasControlling privileged activities with centralized roles
    • Identidades geridas para recursos da Azure para acesso aos serviços da AzureManaged identities for Azure resources for access to Azure services
    • Bloqueios de recursos para proteger a edição e a eliminação de recursosResource locks to protect editing and deleting resources

Recomendações de design:Design recommendations:

  • Utilize um espaço de trabalho de registo único para gerir as plataformas centralmente, exceto quando o controlo de acesso baseado em funções (RBAC), os requisitos de soberania de dados e as políticas de retenção de dados mandatam espaços de trabalho separados.Use a single monitor logs workspace to manage platforms centrally except where role-based access control (RBAC), data sovereignty requirements and data retention policies mandate separate workspaces. A exploração madeireira centralizada é fundamental para a visibilidade exigida pelas equipas de gestão de operações.Centralized logging is critical to the visibility required by operations management teams. A centralização de registos impulsiona relatórios sobre gestão de mudanças, saúde do serviço, configuração e a maioria dos outros aspetos das operações de TI.Logging centralization drives reports about change management, service health, configuration, and most other aspects of IT operations. Convergir para um modelo centralizado de espaço de trabalho reduz o esforço administrativo e as possibilidades de lacunas na observabilidade.Converging on a centralized workspace model reduces administrative effort and the chances for gaps in observability.

    No contexto da arquitetura à escala empresarial, os registos centralizados estão relacionados principalmente com as operações da plataforma.In the context of the enterprise-scale architecture, centralized logging is primarily concerned with platform operations. Esta ênfase não impede a utilização do mesmo espaço de trabalho para a exploração de aplicações baseadas em VM.This emphasis doesn't prevent the use of the same workspace for VM-based application logging. Com uma área de trabalho configurada no modo de controlo de acesso centrado em recursos, o RBAC granular é forçado a garantir que as equipas das aplicações apenas terão acesso aos registos dos respetivos recursos.With a workspace configured in resource-centric access control mode, granular RBAC is enforced to ensure application teams will only have access to the logs from their resources. Neste modelo, as equipas das aplicações tiram partido da utilização de uma infraestrutura de plataforma existente ao reduzirem a sua sobrecarga de gestão.In this model, application teams benefit from the use of existing platform infrastructure by reducing their management overhead. Para quaisquer recursos não computativos, como aplicações web ou bases de dados DB do Azure Cosmos, as equipas de aplicação podem usar os seus próprios espaços de trabalho log Analytics e configurar diagnósticos e métricas para serem encaminhados para cá.For any non-compute resources such as web apps or Azure Cosmos DB databases, application teams can use their own Log Analytics workspaces and configure diagnostics and metrics to be routed here.

  • Registos de exportação para Azure Storage se os requisitos de retenção de registos excederem dois anos.Export logs to Azure Storage if log retention requirements exceed two years. Utilize um armazenamento imutável com uma política de escrita, leitura-muitos para tornar os dados não apagáveis e não modificáveis para um intervalo especificado pelo utilizador.Use immutable storage with a write-once, read-many policy to make data non-erasable and non-modifiable for a user-specified interval.
  • Utilize a Política Azure para o controlo de acessos e relatórios de conformidade.Use Azure Policy for access control and compliance reporting. A Azure Policy fornece a capacidade de impor configurações em toda a organização para garantir uma adesão consistente da política e uma deteção rápida de violações.Azure Policy provides the ability to enforce organization-wide settings to ensure consistent policy adherence and fast violation detection. Para obter mais informações, consulte os efeitos da Política de Azure.For more information, see Understand Azure Policy effects.
  • Monitorize a deriva de configuração da máquina virtual (VM) no hóspede utilizando a Política Azure.Monitor in-guest virtual machine (VM) configuration drift using Azure Policy. Ativar as capacidades de auditoria de configuração dos hóspedes através de políticas ajuda as cargas de trabalho da equipa de aplicação a consumir imediatamente as capacidades de funcionalidade com pouco esforço.Enabling guest configuration audit capabilities through policy helps application team workloads to immediately consume feature capabilities with little effort.
  • Utilize a Gestão de Atualização na Azure Automation como um mecanismo de remendos a longo prazo tanto para o Windows como para os VMs Do Linux.Use Update Management in Azure Automation as a long-term patching mechanism for both Windows and Linux VMs. A aplicação das configurações de Gestão de Atualização através da Azure Policy garante que todos os VMs estão incluídos no regime de gestão de patchs e fornece às equipas de aplicação a capacidade de gerir a implementação de patch para os seus VMs.Enforcing Update Management configurations via Azure Policy ensures that all VMs are included in the patch management regimen and provides application teams with the ability to manage patch deployment for their VMs. Também fornece capacidades de visibilidade e aplicação da visibilidade para a equipa central de TI em todos os VMs.It also provides visibility and enforcement capabilities to the central IT team across all VMs.
  • Utilize o Monitor de Rede para monitorizar proactivamente os fluxos de tráfego através dos registos de fluxo NSG do Observador de Rede v2.Use Network Watcher to proactively monitor traffic flows via Network Watcher NSG flow logs v2. Traffic Analytics analisa registos de fluxo NSG para recolher informações profundas sobre o tráfego IP dentro de uma rede virtual e fornece informações críticas para uma gestão e monitorização eficazes.Traffic Analytics analyzes NSG flow logs to gather deep insights about IP traffic within a virtual network and provides critical information for effective management and monitoring. Traffic Analytics fornece informações como a maioria dos anfitriões e protocolos de aplicação comunicantes, a maioria dos pares de anfitriões conversos, tráfego permitido ou bloqueado, tráfego de entrada e saída, portas de internet abertas, a maioria das regras de bloqueio, distribuição de tráfego por um datacenter Azure, rede virtual, sub-redes ou redes fraudulentas.Traffic Analytics provide information such as most communicating hosts and application protocols, most conversing host pairs, allowed or blocked traffic, inbound and outbound traffic, open internet ports, most blocking rules, traffic distribution per an Azure datacenter, virtual network, subnets, or rogue networks.
  • Utilize bloqueios de recursos para evitar a eliminação acidental de serviços partilhados críticos.Use resource locks to prevent accidental deletion of critical shared services.
  • Use políticas de negação para complementar as atribuições do Azure AD RBAC.Use deny policies to supplement Azure AD RBAC assignments. As políticas de negação são usadas para impedir a implantação e configuração de recursos que não correspondam às normas definidas, impedindo que o pedido seja enviado ao fornecedor de recursos.Deny policies are used to prevent deploying and configuring resources that don't match defined standards by preventing the request from being sent to the resource provider. A combinação de políticas de negação e atribuições de RBAC garante que os guarda-costas adequados estão em vigor para impor quem pode implantar e configurar recursos e que recursos podem implantar e configurar.The combination of deny policies and RBAC assignments ensures the appropriate guardrails are in place to enforce who can deploy and configure resources and what resources they can deploy and configure.
  • Incluir eventos de saúde de serviço e recursos como parte da solução global de monitorização da plataforma.Include service and resource health events as part of the overall platform monitoring solution. O serviço de rastreio e saúde dos recursos na perspetiva da plataforma é uma componente importante da gestão de recursos no Azure.Tracking service and resource health from the platform perspective is an important component of resource management in Azure.
  • Não envie entradas de registo bruto de volta para os sistemas de monitorização no local.Don't send raw log entries back to on-premises monitoring systems. Em vez disso, adote um princípio de que os dados nascidos em Azure permanecem em Azure.Instead, adopt a principle that data born in Azure stays in Azure. Se for necessária integração siem no local, em seguida, envie alertas críticos em vez de registos.If on-premises SIEM integration is required, then send critical alerts instead of logs.

Plano de gestão e monitorização de aplicaçõesPlan for application management and monitoring

Para expandir na secção anterior, esta secção irá considerar um modelo federado e explicar como as equipas de aplicação podem manter operacionalmente estas cargas de trabalho.To expand on the previous section, this section will consider a federated model and explain how application teams can operationally maintain these workloads.

Considerações de conceção:Design considerations:

  • A monitorização de aplicações pode utilizar espaços de trabalho dedicados do Log Analytics.Application monitoring can use dedicated Log Analytics workspaces.
  • Para aplicações que são implementadas em máquinas virtuais, os registos devem ser armazenados centralmente no espaço de trabalho dedicado do Log Analytics a partir de uma perspetiva de plataforma.For applications that are deployed to virtual machines, logs should be stored centrally to the dedicated Log Analytics workspace from a platform perspective. As equipas de aplicação podem aceder aos registos sujeitos ao RBAC que têm nas suas aplicações ou máquinas virtuais.Application teams can access the logs subject to the RBAC they have on their applications or virtual machines.
  • Desempenho da aplicação e monitorização de saúde tanto para infraestruturas como um serviço (IaaS) e plataforma como um serviço (PaaS) recursos.Application performance and health monitoring for both infrastructure as a service (IaaS) and platform as a service (PaaS) resources.
  • Agregação de dados em todos os componentes da aplicação.Data aggregation across all application components.
  • Modelação e operacionalização em saúde:Health modeling and operationalization:
    • Como medir a saúde da carga de trabalho e dos seus subsistemasHow to measure the health of the workload and its subsystems
    • Um modelo de semáforo para representar a saúdeA traffic-light model to represent health
    • Como responder a falhas em todos os componentes da aplicaçãoHow to respond to failures across application components

Recomendações de design:Design recommendations:

  • Utilize um espaço de trabalho centralizado do Azure Monitor Log Analytics para recolher registos e métricas dos recursos de aplicação iaaS e PaaS e controlar o acesso ao registo com o RBAC.Use a centralized Azure Monitor Log Analytics workspace to collect logs and metrics from IaaS and PaaS application resources and control log access with RBAC.
  • Utilize métricas do Monitor Azure para análises sensíveis ao tempo.Use Azure Monitor metrics for time-sensitive analysis. As métricas no Azure Monitor são armazenadas numa base de dados de séries temporais otimizada para analisar dados com carimbo temporal.Metrics in Azure Monitor are stored in a time-series database optimized to analyze time-stamped data. Estas métricas são adequadas para alertas e para detetar problemas rapidamente.These metrics are well suited for alerts and detecting issues quickly. Também podem dizer-te como o teu sistema está a funcionar.They can also tell you how your system is performing. Normalmente precisam de ser combinados com troncos para identificar a causa principal dos problemas.They typically need to be combined with logs to identify the root cause of issues.
  • Utilize registos do Monitor Azure para obter informações e relatórios.Use Azure Monitor Logs for insights and reporting. Os registos contêm diferentes tipos de dados que são organizados em registos com diferentes conjuntos de propriedades.Logs contain different types of data that's organized into records with different sets of properties. São úteis para analisar dados complexos de várias fontes, tais como dados de desempenho, eventos e vestígios.They're useful for analyzing complex data from a range of sources, such as performance data, events, and traces.
  • Quando necessário, utilize contas de armazenamento partilhadas dentro da zona de aterragem para armazenamento de registo de extensão de diagnóstico Azure.When necessary, use shared storage accounts within the landing zone for Azure diagnostic extension log storage.
  • Utilize alertas do Azure Monitor para a geração de alertas operacionais.Use Azure Monitor alerts for the generation of operational alerts. Os alertas do Azure Monitor unificam alertas para métricas e registos e utilizam funcionalidades como ação e grupos inteligentes para fins avançados de gestão e reparação.Azure Monitor alerts unify alerts for metrics and logs and use features such as action and smart groups for advanced management and remediation purposes.