Almacenamiento y análisis de datos

Blob Storage
Cosmos DB
Data Factory
SQL Database
Table Storage

En este escenario de ejemplo se muestra una canalización de datos que integra grandes cantidades de datos de varios orígenes en una plataforma unificada de análisis de Azure. Este escenario concreto se basa en una solución de venta y marketing, pero los modelos de diseño son importantes para muchas industrias que requieren análisis avanzado de grandes conjuntos de datos, como la asistencia sanitaria, el comercio electrónico y la venta al por menor.

En este ejemplo se muestra una empresa de marketing y venta que crea los programas de incentivos. Estos programas recompensan a los clientes, los proveedores, los vendedores y los empleados. Los datos son fundamentales para estos programas y la empresa quiere mejorar los conocimientos adquiridos mediante el análisis de datos con Azure.

La empresa necesita un enfoque moderno para analizar los datos, para que las decisiones se tomen con los datos adecuados en el momento oportuno. Los objetivos de la empresa incluyen:

  • La combinación de distintos tipos de orígenes de datos en una plataforma en la nube.
  • La transformación de los datos de origen a una estructura y taxonomía comunes, de manera que estos sean coherentes y se comparen con facilidad.
  • La carga de datos mediante un enfoque altamente paralelizado que admita miles de programas de incentivos, sin el elevado costo de implementación y mantenimiento de infraestructura local.
  • La reducción considerable del tiempo necesario para recopilar y transformar datos, para poder centrarse en el análisis de los datos.

Casos de uso pertinentes

Este enfoque también se puede utilizar para:

  • Establecer un almacén de datos como origen de datos único.
  • Integrar orígenes de datos relacionales con otros conjuntos de datos desestructurados.
  • Usar el modelado semántico y potentes herramientas de visualización para simplificar el análisis de los datos.

Architecture

Arquitectura de un escenario de almacenamiento y análisis de datos en Azure

Los datos fluyen por la solución de la siguiente manera:

  1. Para cada origen de datos, las actualizaciones se exportan periódicamente a un área de almacenamiento provisional en Azure Blob Storage.
  2. Data Factory carga los datos de manera incremental de Blob Storage en tablas de almacenamiento provisional en Azure Synapse Analytics. Durante este proceso, los datos se limpian y se transforman. Polybase puede paralelizar el proceso para grandes conjuntos de datos.
  3. Después de cargar un nuevo lote de datos en el almacén, se actualiza un modelo tabular de Analysis Services creado anteriormente. Este modelo semántico simplifica el análisis de datos y relaciones empresariales.
  4. Los analistas de negocios usan Microsoft Power BI para analizar los datos del almacén mediante el modelo semántico de Analysis Services.

Componentes

La empresa tiene orígenes de datos en muchas plataformas diferentes:

  • SQL Server local
  • Oracle local
  • Azure SQL Database
  • Almacenamiento de tablas de Azure
  • Cosmos DB

De estos orígenes de datos diferentes, los datos se cargan con varios componentes de Azure:

  • Blob Storage se usa para almacenar los datos de origen antes de cargarlos en Azure Synapse.
  • Data Factory organiza la transformación de los datos almacenados provisionalmente en una estructura común en Azure Synapse. Data Factory usa Polybase al cargar los datos en Azure Synapse para conseguir el máximo rendimiento.
  • Azure Synapse es un sistema distribuido para almacenar y analizar grandes conjuntos de datos. Su uso del procesamiento paralelo masivo (MPP) lo hace idóneo para ejecutar análisis de alto rendimiento. Azure Synapse puede usar PolyBase para cargar datos rápidamente de Blob Storage.
  • Analysis Services proporciona un modelo semántico para los datos. También puede aumentar el rendimiento del sistema al analizar los datos.
  • Power BI es un conjunto de herramientas de análisis de negocios que sirve para analizar datos y compartir conocimientos. Power BI puede consultar un modelo semántico almacenado en Analysis Services, o bien consultar Azure Synapse directamente.
  • Azure Active Directory (Azure AD) autentica a los usuarios que se conectan al servidor de Analysis Services mediante Power BI. Data Factory también puede usar Azure AD para autenticarse en Azure Synapse mediante una entidad de servicio o una identidad administrada para los recursos de Azure.

Alternativas

Consideraciones

Las tecnologías de esta arquitectura se eligieron porque cumplen requisitos de la empresa respecto a escalabilidad y disponibilidad, la tiempo que ayudan a controlar los costos.

Precios

Revise un precio de ejemplo para un escenario de almacenamiento de datos con la calculadora de precios de Azure. Ajuste los valores para ver cómo afectan los requisitos a los costos.

  • Azure Synapse permite escalar los niveles de proceso y almacenamiento por separado. Los recursos de proceso se cobran por hora; además, estos recursos se pueden escalar o pausar a petición. Los recursos de almacenamiento se facturan por terabyte, por lo que los costos aumentan con la ingesta de datos.
  • Los costos de Data Factory se basan en el número de operaciones de lectura/escritura, las operaciones de supervisión y las actividades de orquestación realizadas en una carga de trabajo. Estos aumentan con cada flujo de datos adicional y la cantidad de datos que procese cada uno.
  • Analysis Services está disponible en los planes de tarifa estándar, básico y desarrollador. Las instancias se pagan en función de las unidades de procesamiento de consultas (QPU) y la memoria disponible. Para mantener los costos más bajos, minimice el número de consultas que ejecuta, la cantidad de datos que procesan y la frecuencia de ejecución.
  • Power BI tiene opciones de producto diferentes para distintos requisitos. Power BI Embedded proporciona una opción basada en Azure para insertar la funcionalidad de Power BI en las aplicaciones. En el precio de ejemplo anterior se incluye una instancia de Power BI Embedded.

Pasos siguientes