Introducción a Azure Data Factory y Azure Databricks

Puede usar Azure Data Factory para ingerir datos sin procesar recopilados de distintos orígenes y trabajar con Azure Databricks para reestructurar los datos para satisfacer sus requisitos.

¿Qué es Azure Data Factory?

Azure Data Factory es un servicio de ingesta y transformación de datos que permite cargar datos sin procesar de más de 70 orígenes locales o en la nube distintos. Los datos ingeridos se pueden limpiar, transformar, reestructurar y volver a cargar a un almacén de datos. Después de cargar los datos en el almacén de datos, están listos para su uso con varios fines analíticos.

Data Factory admite canalizaciones de flujo de trabajo de datos. Estas canalizaciones son un grupo lógico de tareas y actividades que permiten escenarios de procesamiento de datos de un extremo a otro.

Integración de Data Factory y Databricks

Al integrar Databricks con Data Factory, puede aprovechar las ventajas de las funciones de análisis y transformación de datos de Databricks. Use un cuaderno de Databricks en la canalización de flujo de trabajo de datos para estructurar y transformar los datos sin procesar que se cargan en Data Factory desde diferentes orígenes. Después de transformar los datos con Databricks, puede cargarlos en cualquier almacenamiento de datos.

La ingesta y la transformación de datos mediante las funcionalidades colectivas de Data Factory y Databricks implican los pasos siguientes:

  1. Creación de una cuenta de Azure Storage Usará esta cuenta de almacenamiento para almacenar los datos ingeridos y transformados.
  2. Creación de una instancia de Data Factory Después de configurar la cuenta de almacenamiento, cree la instancia de Data Factory mediante Azure Portal.
  3. Creación de una canalización de flujo de trabajo de datos Para crear la canalización, copie los datos del origen mediante una actividad de copia de Data Factory. Una actividad de copia permite copiar datos de diferentes orígenes locales y en la nube.
  4. Adición de un cuaderno de Databricks a la canalización Este cuaderno contiene el código para transformar y limpiar los datos sin procesar según sea necesario.
  5. Análisis de los datos Una vez que se han limpiado los datos, use cuadernos de Databricks para entrenarlos más o analizarlos para generar los resultados necesarios.

Ha aprendido cómo la integración de Data Factory con Databricks ayuda a cargar y transformar los datos. Ahora se creará un flujo de trabajo de datos de ejemplo de un extremo a otro.