Análisis de macrodatos con seguridad de nivel empresarial mediante Azure Synapse

Azure Analysis Services
Azure Data Lake Storage
Azure Synapse Analytics

Ideas de solución

Este artículo es una idea de solución. Si te gustaría que ampliemos este artículo con más información, como posibles casos de uso, servicios alternativos, consideraciones de implementación o una guía de precios, comunícalo a través de los Comentarios de GitHub.

La solución descrita en este artículo muestra cómo usar Azure Synapse Analytics para crear una plataforma de datos moderna para la ingesta, el procesamiento, el almacenamiento, el suministro y la visualización de datos de varios orígenes.

Architecture

Diagram showing the data flow in this solution. For a detailed explanation, see the following article text.

Descargue un archivo Visio de esta arquitectura.

Flujo de datos

Los datos fluyen por la solución de la siguiente manera:

  1. Las actividades de copia de las canalizaciones de Synapse ingieren datos estructurados sin procesar de almacenes de datos relacionales externos, datos semiestructurados, como registros, archivos planos y XML, y otros sistemas de origen. A continuación, estos datos ingeridos se almacenan en una ubicación de Azure Data Lake Storage Gen2. Con un entorno de ejecución de integración autohospedado, también puede administrar y ejecutar actividades de copia entre un almacén de datos del entorno local y la nube.

  2. Azure Data Lake Storage Gen2 proporciona almacenamiento seguro.

    • Se recomienda usar un firewall para limitar el acceso de la cuenta de almacenamiento a los servicios de Azure de confianza para limitar la vulnerabilidad frente a ataques externos.

    • Los puntos de conexión privadosde sus cuentas de Azure Storage permiten a los clientes de la red virtual (VNet) acceder de forma segura a los datos a través de una instancia de Private Link. El punto de conexión privado usa una dirección IP del espacio de direcciones de la red virtual para el servicio de la cuenta de almacenamiento. El tráfico de red entre los clientes de la red virtual y la cuenta de almacenamiento atraviesa la red virtual y un vínculo privado de la red troncal de Microsoft, lo que elimina la exposición a la red pública de Internet.

  3. Los datos se cifran en reposo una vez que se ingieren en el lago de datos. El uso de sus propias claves administradas por el cliente puede proteger aún más las claves de cifrado y agregar más flexibilidad al administrar los controles de acceso.

  4. Los datos se ingieren mediante canalizaciones de Synapse y se procesan en fases mediante el grupo de Synapse Spark y sus funcionalidades de Data Lake. Los datos se almacenan en la cuenta de Azure Storage mediante directorios de Azure Data Lake Storage Gen 2 específicos de la fase. Estas fases son:

    1. Las actividades de copia de las canalizaciones de Synapse inicialmente ingieren datos de los sistemas de origen. Estos datos ingeridos se almacenan en formato sin procesar mediante el directorio Bronze del lago de datos.

    2. A continuación, el grupo de Synapse Spark ejecuta reglas de calidad de datos para limpiar los datos sin procesar. Estos datos enriquecidos se almacenan en el directorio Silver del lago de datos.

    3. Después del proceso de limpieza, el grupo de Spark aplica todas las operaciones de normalización, transformaciones de datos y reglas de negocio necesarias en los datos del directorio Silver. Estos datos transformados se almacenan en el directorio Gold del lago de datos.

  5. El conector de Synapse Apache Spark a Synapse SQL inserta los datos normalizados en el grupo de Synapse SQL para que los consuman las aplicaciones de nivel inferior y los servicios de informes, como Power BI. Este conector está diseñado para transferir de forma óptima los datos entre los grupos de Apache Spark sin servidor y los grupos de SQL en el área de trabajo Azure Synapse Analytics.

  6. El servicio Power BI usa el modo DirectQuery para capturar datos de forma segura del grupo de SQL Synapse. Una puerta de enlace de datos instalada en una máquina virtual en la red virtual privada actúa como plataforma de conexión entre el servicio Power BI y el grupo de Synapse SQL, mediante el punto de conexión privado de la misma red virtual para conectarse de forma segura.

  7. Las aplicaciones externas pueden acceder a datos desde los grupos sin servidor de Synapse o los grupos de SQL dedicados mediante el acceso a los puntos de conexión privados adecuados conectados a la red virtual.

Esta solución de ejemplo usa varios servicios y características de Azure:

  • Azure Synapse Analyticses el servicio principal que se usa en esta solución de ejemplo para proporcionar ingesta, procesamiento y análisis de datos.

  • Azure Data Lake Storage (Gen2) se basa en los servicios de Azure Storage y proporciona funcionalidades de lago de datos que otros servicios de esta solución de ejemplo usan al almacenar y procesar datos.

  • Canalizaciones de Synapsecopia datos de orígenes iniciales en las ubicaciones de almacenamiento de lago de datos.

  • Apache Spark en Azure Synapse Analytics limpia, normaliza y realiza otras tareas de procesamiento en los datos ingeridos de ubicaciones de origen.

  • El grupo de SQL dedicado (anteriormente SQL DW) proporciona funcionalidades de almacenamiento de datos una vez procesados y normalizados, y está listo para que lo usen los usuarios finales y las aplicaciones.

  • El grupo de SQL sin servidor permite a los usuarios consultar y analizar rápidamente los datos procesados y normalizados.

  • La red virtual administrada de Azure Synapse crea un entorno de red virtual administrado aislado para el área de trabajo de Azure Synapse, que le libera de la necesidad de administrar la configuración de red para los recursos del área de trabajo.

  • Los puntos de conexión privados administrados de Azure Synapse establecen vínculos privados a recursos de Azure y enrutan el tráfico entre las áreas de trabajo de Azure Synapse y otros recursos de Azure usando solo la red troncal de Microsoft.

  • Azure Virtual Network (VNet) proporciona funcionalidades de red privadas para recursos de Azure que no forman parte del área de trabajo de Azure Synapse. Permite administrar el acceso, la seguridad y el enrutamiento entre recursos.

  • El punto de conexión privado de Azure proporciona una dirección IP privada de la red virtual de la solución a los servicios administrados de Azure, de forma que se conecta un servicio a la red virtual de manera eficaz. Esto permite redes seguras entre el área de trabajo de Azure Synapse y otros servicios de Azure, como Azure Storage, Azure Cosmos DB, Azure SQL Database o su propio servicio de Azure Private Link.

  • Power BIpermite a los usuarios realizar análisis avanzados y compartir información mediante los datos procesados de la solución.

Componentes

Detalles del escenario

Azure Synapse Analytics reúne la integración de datos, el almacenamiento de datos empresariales y el análisis de macrodatos para ayudarle a crear una plataforma de datos moderna capaz de controlar los desafíos de datos más comunes a los que se enfrentan las grandes organizaciones. Azure Virtual Network le permite crear su propia red privada en la nube pública y la red administrada de Azure, y el punto de conexión privado de Azure le permite integrar de forma segura los servicios en la nube administrados en estas redes privadas.

Posibles casos de uso

La solución descrita en este artículo muestra cómo combinar estas tecnologías para crear una plataforma de datos moderna capaz de ingerir, procesar, almacenar, suministrar y visualizar datos de diferentes orígenes, tanto estructurados como semiestructurados, a la vez que se cumplen los altos estándares de seguridad que espera su organización. Esto incluye la compatibilidad con requisitos comunes, tales como:

  • Protección de orígenes de datos. Los orígenes de datos dentro de la red corporativa local o la red virtual se protegen detrás de un firewall. Se puede acceder a estos recursos de forma segura mediante la instalación de un entorno de ejecución de integración autohospedado en un recurso hospedado localmente o en las redes virtuales.

  • Autenticación y autorización mediante identidades administradas. La comunicación entre los servicios de Azure se puede proteger mediante identidades administradas, que proporcionan una identidad para que las aplicaciones las usen al conectarse a recursos que admiten la autenticación Microsoft Entra. En este ejemplo, Azure Synapse usa la identidad administrada para integrar las canalizaciones.

  • Puntos de conexión privados que establecen un vínculo privado a los recursos de Azure. Azure Synapse proporciona funcionalidad de punto de conexión privado totalmente administrado para los servicios en el área de trabajo de Synapse (como Azure Storage o Azure Cosmos DB). Otros recursos de Azure, como las aplicaciones de Azure, Microsoft Power BI y el servicio Azure Synapse se protegen mediante puntos de conexión privados integrados en la red virtual de la solución de ejemplo. El tráfico de red entre la red privada y los grupos de Synapse usa Private Link para mover el tráfico a través de la red troncal de Microsoft, lo que elimina la exposición a la red pública de Internet.

  • Cifrado de datos en tránsito. Los datos se cifran en tránsito, ya que todas las transferencias de datos se realizan a través del canal seguro HTTPS y TLS a través de TCP para evitar ataques de tipo "Man in the middle" durante la comunicación con los servicios de Azure, lo que garantiza un movimiento de datos privado y seguro de un extremo a otro.

  • Cifrado de datos en reposo. El cifrado de datos transparente de Azure Synapse Analytics ayuda a protegerse frente a la actividad malintencionada al realizar el cifrado y descifrado en tiempo real de los datos almacenados en el área de trabajo de Synapse. Azure Storage también cifra todos los datos de las cuentas de almacenamiento en reposo. De forma predeterminada, los datos se cifran con claves administradas por Microsoft, pero puede administrar sus propias claves si necesita mayor control sobre el cifrado.

Implementación de este escenario

Debe tener una cuenta de Azure. Si no tiene una suscripción a Azure, cree una cuenta gratuita antes de empezar.

Las plantillas de Azure Resource Manager, que deberá implementar los componentes descritos en esta arquitectura, están disponibles en el repositorio de GitHub. Estas plantillas implementarán todos los servicios que se muestran en el diagrama de arquitectura, excepto: la puerta de enlace de datos de Power BI, el entorno de ejecución de integración autohospedado y Azure Key Vault para las claves administradas por el cliente.

El usuario debe crear la estructura de carpetas de Data Lake y las canalizaciones de integración de Azure Synapse Analytics que son necesarias para conectarse a los orígenes de datos.

Para implementar la plantilla de ARM directamente, haga clic en este botón:

Deploy to Azure

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Autor principal:

Pasos siguientes

Si desea obtener información sobre cómo desarrollar aún más este enfoque, complete los tutoriales siguientes para aprender los conceptos básicos de Azure Synapse Analytics:

Consulte estos artículos al planear e implementar soluciones mediante Azure Synapse Analytics: