Almacenamiento de datos para pequeñas y medianas empresas

Azure Data Lake

Azure SQL Database

Azure Synapse Analytics

Dynamics 365

Microsoft Power Platform

En esta carga de trabajo de ejemplo se muestran varias maneras en que las pequeñas empresas pueden modernizar los almacenes de datos heredados y explorar herramientas y funcionalidades de macrodatos, sin necesidad de exceder los presupuestos y conjuntos de aptitudes actuales. Estas soluciones de almacenamiento de datos de Azure de un extremo a otro se integran fácilmente con herramientas como Azure Machine Learning, Microsoft Power Platform, Microsoft Dynamics y otras tecnologías de Microsoft.

Architecture

Descargue un archivo Visio de esta arquitectura.

Los almacenamientos de datos de pyme heredados pueden contener varios tipos de datos:

Datos no estructurados, como documentos y gráficos
Datos semiestructurados, como registros y archivos CSV, JSON y XML
Datos relacionales estructurados, incluidas las bases de datos que usan procedimientos almacenados para las actividades de extracción, transformación y carga de datos o extracción,carga y transformación de datos (ETL/ELT).

Flujo de datos

En el siguiente flujo de datos se muestra la ingesta del tipo de datos elegido:

Las canalizaciones de Azure Synapse Analytics ingieren los almacenamientos de datos heredados en Azure.
- Las canalizaciones orquestan el flujo de bases de datos heredadas migradas o parcialmente refactorizadas y paquetes SSIS en Azure SQL Database. Este enfoque de migrar mediante lift-and-shift es más rápido de implementar y ofrece una transición sin problemas de una solución de SQL local a una posible plataforma como servicio (PaaS) de Azure. Puede modernizar las bases de datos de forma incremental después de la migración mediante lift-and-shift.
- Las canalizaciones también pueden pasar datos no estructurados, semiestructurados y estructurados a Azure Data Lake Storage para el almacenamiento y el análisis centralizados con otros orígenes. El uso de este enfoque al fusionar los datos proporciona una ventaja empresarial mayor que simplemente volver a colocar los datos en la plataforma.
Los orígenes de datos de Microsoft Dynamics se pueden usar para crear paneles de BI centralizados en conjuntos de datos aumentados mediante las herramientas de análisis sin servidor de Synapse. Puede devolver los datos fusionados y procesados a Dynamics y Power BI para su posterior análisis.
Los datos en tiempo real de los orígenes de streaming también pueden entrar en el sistema a través de Azure Event Hubs. Para los clientes con requisitos de panel en tiempo real, Azure Stream Analytics puede analizar estos datos inmediatamente.
Los datos también pueden especificar la instancia de Data Lake centralizada para su posterior análisis, almacenamiento y realización de informes.
Las herramientas de análisis sin servidor están disponibles en el área de trabajo de Azure Synapse Analytics. Estas herramientas usan capacidades de proceso del grupo de SQL sin servidor o Apache Spark para procesar los datos en Data Lake Storage Gen2. Los grupos sin servidor están disponibles a petición y no requieren ningún recurso aprovisionado.

Los grupos sin servidor son ideales para:
- Exploraciones de ciencia de datos ad hoc en formato T-SQL.
- Creación temprana de prototipos para entidades de almacenamiento de datos.
- Definición de vistas que los consumidores pueden usar, por ejemplo en Power BI, para escenarios que pueden tolerar el retardo de rendimiento.

Azure Synapse está estrechamente integrado con los consumidores potenciales de los conjuntos de datos fusionados, como Azure Machine Learning. Otros consumidores pueden ser Power Apps, Azure Logic Apps, aplicaciones de Azure Functions y aplicaciones web de Azure App Service.

Componentes

Azure Synapse Analytics es un servicio de análisis que combina integración de datos, almacenamiento de datos empresariales y análisis de macrodatos. En esta solución:
- Un área de trabajo de Azure Synapse promueve la colaboración entre ingenieros de datos, científicos de datos, analistas de datos y profesionales de inteligencia empresarial (BI).
- Las canalizaciones de Azure Synapse orquestan e ingieren datos en SQL Database y Data Lake Storage Gen2.
- Los grupos de SQL sin servidor de Azure Synapse analizan datos no estructurados y semiestructurados en Data Lake Storage Gen2 a petición.
- Los grupos de Apache Spark sin servidor de Azure Synapse hacen exploraciones de Code First en Data Lake Storage Gen2 con lenguajes de Spark, como Spark SQL, pySpark y Scala.
Azure SQL Database es un servicio de base de datos relacional inteligente y escalable creado para la nube. En esta solución, SQL Database contiene el almacenamiento de datos empresarial y realiza actividades ETL/ELT que usan procedimientos almacenados.
Azure Event Hubs es una plataforma de streaming de datos en tiempo real y un servicio de ingesta de eventos. Event Hubs puede ingerir datos desde cualquier lugar e integrarse perfectamente con los servicios de datos de Azure.
Azure Stream Analytics es un servicio de análisis sin servidor en tiempo real para datos de streaming. Stream Analytics ofrece escalabilidad rápida y elástica, confiabilidad y recuperación de nivel empresarial y funcionalidades integradas de aprendizaje automático.
Azure Machine Learning es un conjunto de herramientas para el desarrollo del modelo de ciencia de datos y la administración del ciclo de vida. Machine Learning es un ejemplo de servicios de Azure y Microsoft que puede consumir datos procesados y fusionados de Data Lake Storage Gen2.

Alternativas

Azure IoT Hub podría reemplazar o complementar Event Hubs. La solución que elija depende del origen de los datos de streaming y de si necesita clonación y comunicación bidireccional con los dispositivos de informes.
Puede usar Azure Data Factory para la integración de datos en lugar de canalizaciones de Azure Synapse. La elección depende de varios factores:
- Las canalizaciones de Azure Synapse mantienen el diseño de la solución más sencillo y permiten la colaboración dentro de una única área de trabajo de Azure Synapse.
- Las canalizaciones de Azure Synapse no admiten el rehospedaje de paquetes SSIS, que está disponible en Azure Data Factory.
- Synapse Monitor Hub supervisa las canalizaciones de Azure Synapse, mientras que Azure Monitor puede supervisar Data Factory.
Para obtener más información y una comparación de características entre las canalizaciones de Azure Synapse y Data Factory, vea Integración de datos en Azure Synapse Analytics frente a Azure Data Factory.
Puede usar grupos de SQL dedicados de Synapse Analytics para almacenar datos empresariales, en lugar de usar SQL Database. Revise los casos de uso y las consideraciones de este artículo y los recursos relacionados para tomar una decisión.

Detalles del escenario

Las pequeñas y medianas empresas (pyme) se enfrentan a una elección al modernizar sus almacenes de datos locales para la nube. Pueden adoptar herramientas de macrodatos para la extensibilidad futura o mantener soluciones tradicionales basadas en SQL para una rentabilidad, una facilidad de mantenimiento y una transición sin problemas.

Sin embargo, un enfoque híbrido combina una migración sencilla del patrimonio de datos existente con la oportunidad de agregar herramientas y procesos de macrodatos para algunos casos de uso. Los orígenes de datos basados en SQL pueden seguir ejecutándose en la nube y modernizándose según corresponda.

En esta carga de trabajo de ejemplo se muestran varias maneras en que las pyme pueden modernizar los almacenes de datos heredados y explorar herramientas y funcionalidades de macrodatos, sin necesidad de exceder los presupuestos y conjuntos de aptitudes actuales. Estas soluciones de almacenamiento de datos de Azure de un extremo a otro se integran fácilmente con servicios de Azure y Microsoft y herramientas como Azure Machine Learning, Microsoft Power Platform y Microsoft Dynamics.

Posibles casos de uso

Varios escenarios pueden beneficiarse de esta carga de trabajo:

Migración de un almacenamiento de datos relacional local tradicional que es inferior a 1 TB y usa ampliamente paquetes de SQL Server Integration Services (SSIS) para organizar los procedimientos almacenados.
Malla de los datos existentes de Dataverse de Dynamics o Power Platform con orígenes de Azure Data Lake por lotes y en tiempo real.
Uso de técnicas innovadoras para interactuar con datos centralizados de Data Lake Storage Gen2. Entre las técnicas se incluyen el análisis sin servidor, la minería de conocimiento, la fusión de datos entre dominios y la exploración de datos del usuario final.
Configuración de empresas de comercio electrónico para que adopten un almacenamiento de datos para optimizar sus operaciones.

Esta solución no se recomienda para:

Las implementaciones Greenfield de almacenamiento de datos que, según las previsiones, tendrán más de 1 TB en el plazo de un año.
Las migraciones de almacenamientos de datos locales que tienen más de 1 TB o que se prevé que alcancen ese tamaño en un año.

Consideraciones

Estas consideraciones implementan los pilares del marco de buena arquitectura de Azure, que es un conjunto de principios guía que se pueden usar para mejorar la calidad de una carga de trabajo. Para más información, consulte Marco de buena arquitectura de Microsoft Azure.

Las consideraciones siguientes se aplican a este escenario.

Disponibilidad

SQL Database es un servicio PaaS que puede cumplir los requisitos de alta disponibilidad (HA) y recuperación ante desastres (DR). Asegúrese de elegir la SKU que cumpla sus requisitos. Para obtener instrucciones, consulte Alta disponibilidad para Azure SQL Database.

Operaciones

SQL Database usa SQL Server Management Studio (SSMS) para desarrollar y mantener artefactos heredados como procedimientos almacenados.

Optimización de costos

La optimización de costos trata de buscar formas de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para más información, vea Información general del pilar de optimización de costos.

Vea un precio de ejemplo para un escenario de almacenamiento de datos de pyme en la calculadora de precios de Azure. Ajuste los valores para ver cómo afectan los requisitos a los costos.

SQL Database basa los costos en los niveles de proceso y servicio seleccionados y en el número de núcleos virtuales y unidades de transacción de base de datos (DTU). En el ejemplo se muestra una base de datos única con proceso aprovisionado y ocho núcleos virtuales, en función de la suposición de que necesita ejecutar procedimientos almacenados en SQL Database.
Los precios de Data Lake Storage Gen2 dependen de la cantidad de datos que almacene y de la frecuencia con la que los use. Los precios de ejemplo incluyen 1 TB de datos almacenados, con más suposiciones transaccionales. 1 TB hace referencia al tamaño del lago de datos, no al tamaño original de la base de datos heredada.
Las canalizaciones de Azure Synapse basan los costos en el número de actividades de canalización de datos, las horas del entorno de ejecución de integración, el tamaño del clúster de flujo de datos y los cargos de ejecución y operación. Los costos de canalización aumentan con las cantidades de datos procesados y orígenes de datos adicionales. En el ejemplo supone que hay un origen de datos por lotes cada hora durante 15 minutos en un entorno de ejecución de integración hospedado en Azure.
El grupo de Spark de Azure Synapse basa los precios en el tamaño del nodo, el número de instancias y el tiempo de actividad. En el ejemplo se supone que hay un pequeño nodo de ejecución con un uso de 5 horas a la semana a 40 horas al mes.
El grupo de SQL sin servidor de Azure Synapse basa los precios en TB de bases de datos procesadas. En el ejemplo se supone que se procesan 50 TB al mes. Esta cifra hace referencia al tamaño del lago de datos, no al tamaño original de la base de datos heredada.
Event Hubs factura en función del nivel, las unidades de procesamiento aprovisionadas y el tráfico de entrada recibido. En el ejemplo se supone que hay una unidad de procesamiento en el nivel estándar en más de un millón de eventos durante un mes.
Stream Analytics basa los costos en el número de unidades de streaming aprovisionadas. En el ejemplo se supone que se usa una unidad de streaming a lo largo del mes.

Colaboradores

Microsoft está actualizando y manteniendo este artículo. Originalmente lo escribieron los siguientes colaboradores.

Autor principal:

Galina Polyakova | Arquitecto sénior de soluciones en la nube

Pasos siguientes

Para obtener contenido de entrenamiento y laboratorios, consulte las rutas de acceso para ingenieros de datos Learning.
Tutorial: Introducción a Azure Synapse Analytics
Creación de una base de datos única: Azure SQL Database
Cree una cuenta de almacenamiento para Azure Data Lake Storage Gen2
Guía de inicio rápido de Azure Event Hubs: creación de un centro de eventos mediante Azure Portal
Inicio rápido: Creación de un trabajo de Stream Analytics mediante Azure Portal
Inicio rápido: Introducción a Azure Machine Learning

Más información sobre

Almacenamiento de datos para pequeñas y medianas empresas

Architecture

Flujo de datos

Componentes

Alternativas

Detalles del escenario

Posibles casos de uso

Consideraciones

Disponibilidad

Operaciones

Optimización de costos

Colaboradores

Pasos siguientes

Comentarios

Comentarios

Recursos adicionales

Almacenamiento de datos para pequeñas y medianas empresas

Architecture

Flujo de datos

Componentes

Alternativas

Detalles del escenario

Posibles casos de uso

Consideraciones

Disponibilidad

Operaciones

Optimización de costos

Colaboradores

Pasos siguientes

Recursos relacionados

Comentarios

Comentarios

Recursos adicionales