Descripción del almacenamiento de datos para un almacén de datos moderno

Completado

Aunque tiene la oportunidad de ingerir datos en el origen directamente en un almacenamiento de datos, es más habitual almacenar los datos de origen en un área de ensayo, lo que también se conoce como zona de aterrizaje. Normalmente, se trata de un área de almacenamiento neutra que se encuentra entre los sistemas de origen y el almacenamiento de datos. La razón principal para agregar un área de ensayo a la arquitectura de un almacenamiento de datos moderno es por alguno de los siguientes motivos:

Para reducir la contención en los sistemas de origen

Normalmente, los sistemas de origen desempeñan un papel importante en la realización de operaciones empresariales que aportan ingresos a una organización, o bien ofrecen una función que es esencial para la empresa. Como resultado, la ingesta de datos de estos sistemas debe minimizar el uso de recursos en el sistema de origen para que no se interrumpa. Como resultado, algunas estrategias de diseño de almacenamiento de datos implicarán la captación de datos en un origen y el "volcado" de los datos en un área de ensayo.

Este enfoque no implica ninguna transformación ni limpieza. Simplemente toma los datos, por lo que reduce la contención en el sistema de origen. Esto también puede implicar la salida del sistema de origen de los datos en archivos de texto, que después recopila el proceso de extracción, transformación y carga (ETL).

Permite tratar la ingesta de sistemas de origen en diferentes programaciones.

Los entornos de ensayo proporcionan un excelente lugar para almacenar datos de distintos sistemas de origen independientemente de la programación en la que se ingieren los datos. Por ejemplo, puede captar datos de algunos sistemas de origen a última hora de la tarde, ya que es el momento en que se encuentran en el nivel más bajo y, después, es posible que no pueda obtener datos de otro sistema hasta las primeras horas de la mañana, ya que tienen un proceso de copia de seguridad ejecutándose en ellos que debe finalizar antes de poder ingerir los datos. Tener un área de almacenamiento provisional le permite administrar estas programaciones diferentes.

Para combinar datos de distintos sistemas de origen

Un entorno de ensayo proporciona la oportunidad de reunir una única vista de los datos de distintos sistemas de origen. Dado que el área de ensayo es independiente de los sistemas de origen y el almacenamiento de datos, tiene la libertad de realizar cualquier trabajo que necesite sin afectar a estos sistemas.

Puede incluso crear tablas adicionales que ayuden al proceso de combinar datos de distintos sistemas de origen, denominados tablas de asignación. En este escenario, imagine que tiene una tabla de cliente en un sistema de origen con una columna denominada FirstName. En un segundo sistema de origen, que quizás ejecute un sistema AS400, tiene la tabla de cliente con una columna denominada FIRNAM que también representa el nombre del cliente.

Puede crear una tabla independiente que contiene metadatos que asigna los datos de una columna de un sistema de origen, con otra columna de otro sistema de origen que representa la misma entidad empresarial. En este caso, FirstName.

Para volver a ejecutar las cargas de almacenamiento de datos con errores desde un área de ensayo

No todas las cargas de almacenamiento de datos se completarán correctamente, por lo que el almacenamiento de datos debe ser capaz de controlar escenarios en los que es posible que sea necesario volver a ejecutar el proceso ETL durante el horario comercial principal, y debe llevarse a cabo sin volver a interrumpir los sistemas de origen. Al mantener los datos de almacenamiento provisional, puede volver a ejecutar el proceso ETL desde el área de ensayo, en lugar del sistema de origen.

En una arquitectura de almacenamiento de datos moderno, los datos de origen pueden variar. La variedad y el volumen de los datos que se generan y analizan hoy en día va en aumento. Las empresas cuentan con diversos orígenes de datos, desde sitios web hasta sistemas de punto de venta (POS) y, más recientemente, desde redes sociales a dispositivos IoT (Internet de las cosas). Cada origen proporciona un aspecto esencial de los datos que hay que extraer, analizar y, potencialmente, manejar.

En función de esto, Azure Data Lake Storage Gen2 es la solución de almacenamiento ideal para hospedar datos provisionales, ya que contiene un conjunto de funcionalidades dedicado al análisis de macrodatos, conocido como lago de datos. El término "data lake" define un repositorio de datos que se almacenan en su formato natural, normalmente como blobs o archivos. Azure Data Lake Storage es una solución de data lake completa, escalable y rentable para el análisis de macrodatos integrada en Azure.

Azure Data Lake Storage combina un sistema de archivos con una plataforma de almacenamiento para ayudar a identificar rápidamente conclusiones en los datos. Azure Data Lake Storage Gen2 se basa en las capacidades de Azure Blob Storage para su optimización específica para cargas de trabajo de análisis. Esta integración facilita el rendimiento analítico, las capacidades de administración del ciclo de vida de los datos y los niveles de Blob Storage y las capacidades de alta disponibilidad, seguridad y durabilidad de Azure Storage.