Diseño de patrones de ingesta para un almacenamiento de datos moderno

7 minutos

La ingesta de datos se puede realizar de varias maneras diferentes. El componente principal de Azure Synapse Analytics para la ingesta de datos consiste en usar la actividad de copia de datos dentro de las canalizaciones de Azure Synapse. Este tipo de actividad se mantiene normalmente dentro de una actividad de ejecución de canalización con otras características, como una operación de búsqueda o una actividad de división de datos.

Como alternativa, puede crear una conexión dentro de un flujo de datos que señale a una base de datos de origen que usase el punto de partida para la ingesta de datos y use los datos dentro de actividades de transformación adicionales.

Lo siguiente muestra un comando de ejemplo de ambas situaciones.

Ingesta de datos

Seleccione el centro de integración.
Expanda Canalizaciones y seleccione 1 canalización maestra (1). Señale las actividades (2) que se pueden agregar a la canalización y muestre el lienzo de la canalización (3) a la derecha.

Nuestra área de trabajo de Synapse contiene 16 canalizaciones que nos permiten organizar los pasos de movimiento y transformación de los datos desde varios orígenes.

La lista de actividades contiene un gran número de actividades que puede arrastrar y colocar en el lienzo de canalizaciones a la derecha.

Aquí vemos que tenemos tres canalizaciones de ejecución (secundarias):
Seleccione la actividad Execute Customize All Pipeline(1) (Ejecutar Personalizar todo Canalización). Seleccione la pestaña Configuración (2). Muestre que la canalización invocada es Customize All (3) (Personalizar todo), luego seleccione Abrir (4).

Como puede ver, hay cinco canalizaciones secundarias. Esta primera actividad de ejecución de la canalización limpia e ingiere nuevos datos de la campaña del fabricante para el informe Campaign Analytics.
Seleccione la actividad Campaign Analytics(1) y luego la pestaña Configuración(2), observe que la canalización invocada está establecida en Customize All (3) (Personalizar todo ) y, después, seleccione Abrir (4).
Observe cómo la limpieza y la ingesta se producen en la canalización haciendo clic en cada actividad.
Seleccione el centro de desarrollo.
Expanda Flujos de datos y, después, seleccione el flujo de datos ingest_data_from_sap_hana_to_azure_synapse.

Como se ha indicado anteriormente, los flujos de datos son potentes flujos de trabajo de transformación de datos que usan la capacidad de Apache Spark pero se crean mediante una GUI sin código. El trabajo que se realiza en la interfaz de usuario se transforma en el código ejecutado por un clúster de Spark administrado, de forma automática, sin tener que escribir ningún código ni administrar el clúster.

El flujo de datos realiza las funciones siguientes:
- Extrae datos del origen de datos de SAP HANA (Seleccione el paso DatafromSAPHANA).
- Recupera solo las filas de una actividad Upsert, donde el valor de ShipDate es mayor que 2014-01-01 (Seleccione el paso Last5YearsData).
- Realiza transformaciones de tipo de datos en las columnas de origen mediante una actividad Derived Column (Seleccione la actividad DerivedColumn superior).
- En la ruta de acceso superior del flujo de datos, se seleccionan todas las columnas y, después, se cargan los datos en la tabla de grupos de Synapse AggregatedSales_SAPHANANew (Seleccione la actividad Selectallcolumns y la actividad LoadtoAzureSynapse).
- En la ruta de acceso inferior del flujo de datos, seleccionamos un subconjunto de las columnas (Seleccione la actividad SelectRequiredColumns).
- Después, se agrupan por cuatro de las columnas (Seleccione la actividad TotalSalesByYearMonthDay) y se crean los agregados Sum y Average en la columna SalesAmount (Seleccione la opción Agregados).
- Por último, los datos agregados se cargan en la tabla de grupos de Synapse AggregatedSales_SAPHANA (Seleccione la actividad LoadtoSynapse).

Continuar

Diseño de patrones de ingesta para un almacenamiento de datos moderno

Ingesta de datos

Comentarios