Establecimiento de procesos de administración de operaciones

Una vez que la empresa comienza a trabajar con cargas de trabajo en Azure, el siguiente paso es establecer un proceso de administración y adecuación operativa. Este proceso enumera, implementa y revisa y optimiza de forma iterativa el estado operativo de estas cargas de trabajo.

Un proceso de revisión de la adecuación operativa garantiza que todo el conjunto de cargas de trabajo cumpla los compromisos empresariales de rendimiento, confiabilidad y costo. Este proceso alinea los esfuerzos de los equipos de TI central, centro de excelencia de la nube y cargas de trabajo para ofrecer excelencia operativa a gran escala.

Establecimiento de un proceso básico para la revisión de la adecuación operativa

Lleve a cabo un proceso de revisión de la adecuación operativa para entender los problemas derivados de ejecutar cargas de trabajo en un entorno de producción y cómo solucionar y resolver los problemas. En este artículo se describe un proceso general de revisión de la adecuación operativa que puede usar su empresa para conseguir este objetivo.

Adecuación operativa en Microsoft

Desde el principio, muchos equipos de Microsoft han participado en el desarrollo de la plataforma Azure. Es difícil garantizar la calidad y la coherencia de un proyecto de tal tamaño y complejidad. Necesita un proceso sólido para enumerar e implementar los requisitos fundamentales no funcionales de forma periódica.

Los procesos que Microsoft sigue constituyen la base de los procesos que se describen en este artículo.

Descripción de los roles y modelos operativos

La administración de operaciones es una materia amplia que implica varios roles en toda la empresa. En función del modelo operativo de las organizaciones, esos roles pueden funcionar en un entorno de matrices con una serie de entregas entre los equipos operativos centralizados y descentralizados.

  • TI central / Centro de excelencia de la nube (CCoE): esta función tecnológica centralizada es responsable de la configuración, las operaciones, la gobernanza y la seguridad de todos los recursos tecnológicos de la cartera de tecnología.
  • Operaciones en la nube: una función dentro de la organización de tecnología centralizada, esta función de operaciones administra el mantenimiento y las operaciones de la cartera tecnológica. Es su responsabilidad asegurarse de que el proceso se ejecute sin problemas, de que cada rol adyacente del proceso tenga las herramientas que necesita y de que cada uno de los roles posteriores se haga responsable de las expectativas de este proceso.
  • Estrategia de nube: proporciona conocimientos de la empresa para identificar y priorizar los compromisos para mantener los requisitos operativos de varias cargas de trabajo. Este rol también compara el costo de la solución con la repercusión para el negocio y conduce la decisión final sobre la corrección.
  • Equipo de carga de trabajo: responsable del desarrollo y las operaciones de cargas de trabajo discretas que se asignan a aplicaciones, servicios e infraestructura auxiliares específicos, ya sean locales o en la nube. El rol requiere un conocimiento profundo de la arquitectura de la carga de trabajo.

El modelo operativo de cada organización determina la responsabilidad y las actividades cotidianas de los roles anteriores:

  • Operaciones centralizadas: el equipo de TI central mantiene la responsabilidad total de las operaciones. Los propietarios de cargas de trabajo pueden acceder a la configuración, pero no tienen acceso para cambiar los entornos de producción. Solo los equipos de TI central y operaciones en la nube pueden proporcionar cambios operativos para mejorar la adecuación operativa.
  • Operaciones descentralizadas: los equipos de carga de trabajo son totalmente responsables de las operaciones, por lo general a través de una canalización de CI/CD madura y la automatización de DevOps. En este modelo, no hay respaldo central para la configuración, las operaciones, la gobernanza o la seguridad. Este enfoque con respecto a las operaciones está fuera del ámbito de Cloud Adoption Framework. En este modelo operativo se debería consultar el Marco de buena arquitectura de Azure para obtener una guía operativa.
  • Operaciones empresariales: el equipo del centro de excelencia de la nube es responsable de las operaciones. Los equipos de operaciones en la nube y cargas de trabajo comparten la responsabilidad de aspectos específicos de la adecuación operativa.

Objetivo de la revisión

La adecuación operativa se evalúa en todo el conjunto de servicios mediante algunas métricas: confiabilidad, rendimiento y costo. Juntas, estas propiedades permiten una evaluación rápida del estado y la adecuación de todos los recursos del conjunto. Estas métricas se evalúan con respecto a las tres elevaciones de la administración de operaciones.

Elevaciones de operaciones

  • Base de referencia de operaciones (o base de referencia mejorada): evalúa la adecuación operativa en todos los recursos implementados independientemente de su función. Esta amplia perspectiva de las operaciones permite realizar cambios radicales y con gran impacto, pero está limitada por la falta de visibilidad sobre la arquitectura de cargas de trabajo individuales. Todos los recursos implementados en la nube deben estar cubiertos por una base de referencia de operaciones con soporte técnico habitual por parte del equipo de operaciones en la nube. Algunos entornos pueden requerir un mayor grado de soporte técnico operativo para satisfacer las necesidades de la base de referencia mejorada.
  • Operaciones de plataforma: evalúa la adecuación operativa de las plataformas tecnológicas centralizadas. Esta perspectiva de las operaciones es más refinada, ya que tiene en cuenta la arquitectura de la plataforma y cómo los cambios en la solución afectarán a la adecuación operativa. Los cambios en las plataformas tecnológicas centralizadas pueden tener una gran repercusión descendente en las cargas de trabajo admitidas. Todas las plataformas críticas deben recibir soporte técnico dedicado de un equipo de TI central.
  • Operaciones de carga de trabajo: evalúa la adecuación operativa de una carga de trabajo individual. Esta perspectiva de las operaciones es más refinada y debe tenerse en cuenta cuando las mejoras de adecuación operativa requieren cambios en la arquitectura de una carga de trabajo. Las operaciones de carga de trabajo deben cumplir los principios del Marco de buena arquitectura de Azure. Todas las cargas de trabajo críticas con un ciclo de DevOps activo deben recibir soporte técnico dedicado de un equipo de cargas de trabajo.

El objetivo de la revisión de la adecuación operativa es evaluar periódicamente la adecuación operativa en todos los niveles. Posteriormente, las mejoras identificadas se pueden aplicar en el nivel adecuado para informar de los cambios necesarios para administrar la cartera completa.

Proceso de revisión de la adecuación operativa

La clave para mantener el rendimiento y la continuidad del conjunto de servicios de una empresa es implementar un proceso de revisión de la adecuación operativa.

Introducción al proceso de revisión de la adecuación operativa

En un nivel alto, el proceso tiene dos fases. En la fase de requisitos previos, se establecen los requisitos y se asignan a los servicios correspondientes. Esta fase se produce con poca frecuencia; quizás cada año o cuando se introducen nuevas operaciones. El resultado de la fase de requisitos previos se usa en la fase de flujo. La fase de flujo se produce con más frecuencia; por ejemplo, una vez al mes.

Fase de requisitos previos

En los pasos descritos en esta fase se capturan los requisitos para llevar a cabo una revisión periódica del conjunto de servicios y de todas las cargas de trabajo críticas.

  1. Identificar las operaciones empresariales críticas. Identifique las operaciones empresariales críticas de la empresa en función de los compromisos empresariales acordados. Las operaciones empresariales son independientes de cualquier funcionalidad de servicio complementaria. En otras palabras, las operaciones empresariales representan las actividades reales que el negocio debe realizar y están respaldadas por un conjunto de servicios de TI.

    El término crítico (o crítico para el empresa) refleja un impacto grave en la empresa si se impide la operación. Por ejemplo, un minorista en línea podría tener una operación empresarial, como "permitir que un cliente agregue un artículo a un carro de la compra" o "procesar un pago con tarjeta de crédito". Si se produce un error en cualquiera de estas operaciones, un cliente no puede completar la transacción y la empresa no puede finalizar las ventas.

  2. Asignar operaciones a servicios. Asigne las operaciones empresariales críticas a los servicios de TI (operaciones de base de referencia, plataforma o carga de trabajo) que las admiten. Cualquier plataforma tecnológica o carga de trabajo necesaria para respaldar a una función empresarial crítica también se debe identificar para asignar operaciones y servicios a los equipos responsables.

  3. Analizar las dependencias de los servicios. La mayoría de las operaciones empresariales requieren orquestación en varias cargas de trabajo auxiliares y plataformas tecnológicas. Es importante comprender las dependencias entre cada conjunto de recursos auxiliares y el flujo de transacciones críticas a través de estos servicios.

    Considere también las dependencias entre los servicios locales y los servicios de Azure. En el ejemplo de carro de la compra, el servicio de administración de existencias de inventario podría estar hospedado en el entorno local e ingerir los datos introducidos por los empleados desde un almacén físico. Sin embargo, podría almacenar los datos fuera del entorno local en un servicio de Azure, como Azure Storage, o en una base de datos, como Azure Cosmos DB.

Una salida de estas actividades es un conjunto de métricas del cuadro de mandos para la administración de operaciones. El cuadro de mandos mide criterios como la confiabilidad, el rendimiento y el costo. Las métricas del cuadro de mandos expresan los criterios operativos que se espera que el servicio cumpla.

El cuadro de mandos debe expresarse en términos sencillos para facilitar la comunicación significativa entre los propietarios de la empresa y los equipos de operaciones en la nube y cargas de trabajo. Por ejemplo, una métrica del cuadro de mandos para la confiabilidad podría codificarse por colores en función de la obtención del Acuerdo de Nivel de Servicio acordado. El verde indica que se cumple el Acuerdo de Nivel de Servicio definido, el amarillo, que no se cumplen los criterios definidos pero se está en proceso de implementar un plan de corrección, y el rojo que no se cumplen los criterios definidos y no hay ningún plan o acción al respecto.

Es importante destacar que estas métricas deben reflejar directamente los compromisos empresariales.

Fase de revisión de los servicios

La fase de revisión de los servicios es el núcleo del proceso de revisión de la adecuación operativa. Implica estos pasos:

  1. Medir las métricas de los servicios. Use las métricas del cuadro de mandos para supervisar el rendimiento en cada nivel de administración de operaciones para asegurarse de que los servicios cumplen los compromisos empresariales. Los servicios de inventario y visibilidad de la base de referencia de operaciones son fundamentales. Si no puede supervisar un conjunto de recursos en relación con los compromisos empresariales, las métricas del cuadro de mando correspondientes se deben marcar en rojo. En este caso, el primer paso para solucionarlo es implementar la supervisión de los servicios adecuada. Por ejemplo, si la empresa espera que un servicio funcione con una disponibilidad del 99,99 por ciento, pero no dispone de datos de telemetría de producción para medir la disponibilidad, dé por hecho que no satisface el requisito.

  2. Planear las acciones correctivas. Para cada compromiso empresarial en el que las métricas están por debajo de un umbral aceptable, determine el equipo de operaciones adecuado para efectuar la corrección necesaria. Ese equipo será el responsable de calcular el costo de corregir el servicio para llevar de nuevo las operaciones a un nivel aceptable. Si el costo de la corrección del problema es mayor que el presupuesto asignado a ese servicio, el equipo de TI central o del CCoE deben evaluar con el equipo de estrategias en la nube las inversiones adicionales.

  3. Implementar el plan correctivo. Una vez que el equipo de operaciones en la nube o de la carga de trabajo obtenga la aceptación de un plan de corrección, este ya puede implementarse. Informe del estado de la implementación cada vez que revise las métricas del cuadro de mandos de revisión.

Este es un proceso iterativo. El equipo de TI central o del CCoE es responsable de administrar el proceso e informar sobre el progreso al equipo de estrategia en la nube. Este equipo debe reunirse periódicamente para revisar los proyectos de corrección existentes, poner en marcha la revisión de aspectos básicos de nuevas cargas de trabajo y realizar un seguimiento del cuadro de mandos general de la empresa. El equipo debe tener la autoridad necesaria para hacer responsables a los equipos de corrección (equipo de operaciones en la nube o de cargas de trabajo) si se retrasan o no cumplen las métricas.

Reuniones de revisión

Es recomendable que la adecuación operativa se revise periódicamente. Es necesario que los equipos de TI central, CCoE y operaciones en la nube asistan a la revisión. Se recomienda a los equipos de estrategia de la nube y operaciones de carga de trabajo que asistan, pero es opcional. Cadencia de ejemplo, el equipo principal podría reunirse mensualmente para alinear los planes y asignar responsables de los distintos equipos de operaciones. Trimestralmente, los equipos de estrategia de la nube y todos los equipos de cargas de trabajo podrían reunirse para conocer el estado y las métricas.

Adapte los detalles del proceso y las reuniones a sus necesidades específicas. Como punto de partida, se recomiendan los siguientes aspectos:

  • Operaciones centralizadas: es poco probable que los equipos de carga de trabajo participen activamente en el proceso, pero deben incluirse en los informes para aportar mayor visibilidad.
  • Operaciones descentralizadas: el equipo de operaciones en la nube debe compartir los procedimientos recomendados que se usan para mejorar las operaciones de las plataformas tecnológicas con los equipos de cargas de trabajo. Los equipos de cargas de trabajo deben compartir los cambios en sus respectivas cargas de trabajo para identificar las mejoras que se podrían aplicar a las plataformas tecnológicas y a la base de referencia de operaciones.
  • Azure Automanage. Azure Automanage supervisa automáticamente la adecuación operativa en la base de referencia de operaciones y automatiza la aplicación de diversas estrategias de corrección en todo el conjunto de servicios.
  • Azure Advisor. Azure Advisor ofrece recomendaciones personalizadas basadas en el uso y la configuración para ayudar a optimizar los recursos. De forma predeterminada, esta herramienta proporciona recomendaciones en una suscripción para mejorar la base de referencia de operaciones. También se puede usar de forma más específica para identificar mejoras en las plataformas tecnológicas o las cargas de trabajo individuales.
  • Marco de buena arquitectura de Azure: una guía para mejorar las operaciones de carga de trabajo o para guiar las operaciones descentralizadas.