Inicio rápido: Creación de una factoría de datos con la interfaz de usuario de Azure Data Factory

SE APLICA A: Azure Data Factory Azure Synapse Analytics

En esta guía de inicio rápido se describe cómo usar la interfaz de usuario de Azure Data Factory para crear y supervisar una factoría de datos. La canalización que ha creado en esta factoría de datos copia los datos de una carpeta a otra en Azure Blob Storage. Para transformar los datos mediante Azure Data Factory, consulte Flujo de datos de asignación.

Nota

Si no está familiarizado con Azure Data Factory, consulte Introduction to Azure Data Factory antes de seguir los pasos de esta guía de inicio rápido.

Requisitos previos

Suscripción de Azure

Si no tiene una suscripción a Azure, cree una cuenta gratuita antes de empezar.

Roles de Azure

Para crear instancias de Data Factory, la cuenta de usuario que use para iniciar sesión en Azure debe ser un miembro de los roles colaborador o propietario, o de administrador de la suscripción de Azure. Para ver los permisos que tiene en la suscripción, vaya a Azure Portal, seleccione su nombre de usuario en la esquina superior derecha, seleccione el icono " ... " para ver más opciones y, después, seleccione Mis permisos. Si tiene acceso a varias suscripciones, elija la correspondiente.

Para crear y administrar recursos secundarios para Data Factory incluidos los conjuntos de datos, servicios vinculados, canalizaciones, desencadenadores y entornos de ejecución de integración, se aplican los siguientes requisitos:

  • Para crear y administrar recursos secundarios en Azure Portal, debe pertenecer al rol Colaborador de Data Factory en el nivel de grupo de recursos u otro nivel superior.
  • Para crear y administrar recursos secundarios con Powershell o el SDK, el rol de Colaborador en el nivel de recurso u otro nivel superior es suficiente.

Para obtener instrucciones de ejemplo sobre cómo agregar un usuario a un rol, consulte el artículo sobre la adición de roles.

Para más información, consulte los siguientes artículos:

Cuenta de Azure Storage

En esta guía de inicio rápido, use una cuenta de Azure Storage (en concreto Blob Storage) de uso general como almacén de datos de origen y destino. Si no dispone de una cuenta de Azure Storage de uso general, consulte el artículo Creación de una cuenta de almacenamiento, donde se indica cómo crearla.

Obtención del nombre de la cuenta de almacenamiento

En este inicio rápido, necesita el nombre de su cuenta de Azure Storage. El siguiente procedimiento especifica los pasos necesarios para obtener el nombre de una cuenta de almacenamiento:

  1. En un explorador web, vaya a Azure Portal e inicie sesión con su nombre de usuario y contraseña de Azure.
  2. En el menú de Azure Portal, seleccione Todos los servicios y, a continuación, seleccione Almacenamiento > Cuentas de almacenamiento. También puede buscar y seleccionar cuentas de almacenamiento desde cualquier página.
  3. En la página Cuentas de Storage, filtre por su cuenta de almacenamiento (si fuera necesario) y, después, seleccione su cuenta de Storage.

También puede buscar y seleccionar cuentas de almacenamiento desde cualquier página.

Creación de un contenedor de blobs

En esta sección se crea un contenedor de blobs denominado adftutorial en la instancia de Azure Blob Storage.

  1. En la página de la cuenta de almacenamiento, seleccione Información general > Contenedores.

  2. En la barra de herramientas de la página <Account name> - Contenedores, seleccione Contenedor.

  3. En el cuadro de diálogo Nuevo contenedor, escriba adftutorial para el nombre y seleccione Aceptar. La página <Account name> - Contenedores está actualizada para incluir adftutorial en la lista de contenedores.

    Lista de contenedores

Agregar una carpeta de entrada y un archivo para el contenedor de blobs

En esta sección, creará una carpeta denominada entrada en el contenedor que creó y cargará un archivo de ejemplo en dicha carpeta. Antes de empezar, abra un editor de texto, como el Bloc de notas, y cree un archivo denominado emp.txt con el siguiente contenido:

John, Doe
Jane, Doe

Guarde el archivo en la carpeta C:\ADFv2QuickStartPSH. (Si la carpeta no existe, créela). A continuación, vuelva a Azure Portal y siga estos pasos:

  1. En la página <Account name> - Contenedores en la que lo dejó, seleccione adftutorial en la lista actualizada de contenedores.

    1. Si ha cerrado la ventana o ha pasado a otra página; inicie sesión de nuevo en Azure Portal.
    2. En el menú de Azure Portal, seleccione Todos los servicios y, a continuación, seleccione Almacenamiento > Cuentas de almacenamiento. También puede buscar y seleccionar cuentas de almacenamiento desde cualquier página.
    3. Seleccione la cuenta de almacenamiento y, después, seleccione Contenedores > adftutorial.
  2. En la barra de herramientas de la página del contenedor adftutorial, seleccione Cargar.

  3. En la página Cargar blob, seleccione Archivos y, a continuación, busque y seleccione el archivo emp.txt.

  4. Expanda el título Avanzado. La página aparece ahora como a continuación:

    Selección del vínculo Avanzado

  5. En el cuadro Cargar en carpeta, escriba input.

  6. Seleccione el botón Cargar. Debería ver el archivo emp.txt y el estado de la carga en la lista.

  7. Seleccione el icono Cerrar (X) para cerrar la página Cargar blob.

Mantenga abierta la página del contenedor adftutorial. Úsela para comprobar la salida al final de esta guía de inicio rápido.

Vídeo

Ver este vídeo le ayudará a conocer la interfaz de usuario de Data Factory:

Crear una factoría de datos

  1. Inicie el explorador web Microsoft Edge o Google Chrome. Actualmente, la interfaz de usuario de Data Factory solo se admite en los exploradores web Microsoft Edge y Google Chrome.

  2. Vaya a Azure Portal.

  3. En el menú de Azure Portal, seleccione Crear un recurso.

  4. Seleccione Integración y, a continuación, seleccione Data Factory.

    Selección de Data Factory en el panel Nuevo.

  5. En la página Create Data Factory (Crear factoría de datos), en la pestaña Aspectos básicos, seleccione su suscripción de Azure en la que desea crear la factoría de datos.

  6. Para Grupo de recursos, realice uno de los siguientes pasos:

    a. Seleccione un grupo de recursos existente de la lista desplegable.

    b. Seleccione Crear nuevo y escriba el nombre de un nuevo grupo de recursos.

    Para más información sobre los grupos de recursos, consulte Uso de grupos de recursos para administrar los recursos de Azure.

  7. En Región, seleccione la ubicación de la factoría de datos.

    En la lista solo se muestran las ubicaciones que admite Data Factory y dónde se almacenarán los metadatos de Azure Data Factory. Los almacenes de datos asociados (como Azure Storage y Azure SQL Database) y los procesos (como Azure HDInsight) que usa Data Factory se pueden ejecutar en otras regiones.

  8. En Nombre, escriba ADFTutorialDataFactory. El nombre de la instancia de Azure Data Factory debe ser único de forma global. Si ve el siguiente error, cambie el nombre de la factoría de datos (por ejemplo, <suNombre>ADFTutorialDataFactory) e intente crearlo de nuevo. Para conocer las reglas de nomenclatura de los artefactos de Data Factory, consulte el artículo Azure Data Factory: reglas de nomenclatura.

    Nuevo mensaje de error de factoría de datos por nombre duplicado.

  9. En Versión, seleccione V2.

  10. Seleccione Siguiente: Configuración de Git y, después, seleccione la casilla Configurar Git más adelante.

  11. Seleccione Revisar y crear y elija Crear una vez superada la validación. Una vez que finalice la creación, seleccione Ir al recurso para ir a la página de Data Factory.

  12. Seleccione Abrir en el icono Abrir Azure Data Factory Studio para iniciar la aplicación de interfaz de usuario (IU) de Azure Data Factory en una pestaña independiente del explorador.

    Página principal de Azure Data Factory, con el icono Abrir Azure Data Factory Studio.

    Nota

    Si ve que el explorador web se bloquea en "Autorizando", desactive la casilla Bloquear los datos de sitios y las cookies de terceros. También puede mantenerla seleccionada, crear una excepción para login.microsoftonline.com y, a continuación, intentar abrir la aplicación de nuevo.

Creación de un servicio vinculado

En este procedimiento, creará un servicio vinculado para vincular la cuenta de Azure Storage con la factoría de datos. El servicio vinculado tiene la información de conexión que usa el servicio Data Factory en el entorno de tiempo de ejecución para conectarse a él.

  1. En la página de la interfaz de usuario de Azure Data Factory, abra la pestaña Administrar del panel izquierdo.

  2. En la página Servicios vinculados, seleccione +Nuevo para crear un nuevo servicio vinculado.

    Nuevo servicio vinculado.

  3. En la página New Linked Service (Nuevo servicio vinculado), seleccione Azure Blob Storage y después Continue (Continuar).

  4. En la página Nuevo servicio vinculado (Azure Blob Storage), realice los siguientes pasos:

    a. En Name (Nombre), escriba AzureStorageLinkedService.

    b. En Nombre de la cuenta de almacenamiento, seleccione el nombre de la cuenta de Azure Storage.

    c. Seleccione Test connection (Probar conexión) para confirmar que el servicio Data Factory puede conectarse a la cuenta de almacenamiento.

    d. Seleccione Crear para guardar el servicio vinculado.

    Servicio vinculado.

Creación de conjuntos de datos

En este procedimiento, creará dos conjuntos de datos: InputDataset y OutputDataset. Estos conjuntos de datos son de tipo AzureBlob. Hacen referencia al servicio vinculado de Azure Storage que creó en la sección anterior.

El conjunto de datos de entrada representa los datos de origen en la carpeta de entrada. En la definición del conjunto de datos de entrada, se especifica el contenedor de blobs (adftutorial), la carpeta (input) y el archivo (emp.txt) que contiene los datos de origen.

El conjunto de datos de salida representa los datos que se copian en el destino. En la definición del conjunto de datos de salida, se especifica el contenedor de blobs (adftutorial), la carpeta (output) y el archivo en el que se copian los datos. Cada ejecución de una canalización tiene un identificador único asociado a ella. Puede tener acceso a este identificador mediante el uso de la variable del sistema RunId. El nombre del archivo de salida se evalúa dinámicamente según el identificador de ejecución de la canalización.

En la configuración del servicio vinculado se especifica la cuenta de Azure Storage que contiene los datos de origen. En la configuración del conjunto de datos de origen se especifica dónde residen exactamente los datos de origen (contenedor de blobs, carpeta y archivo). En la configuración del conjunto de datos receptor se especifica dónde se copian los datos (contenedor de blobs, carpeta y archivo).

  1. Seleccione la pestaña Autor en el panel izquierdo.

  2. Haga clic en el botón + (Más) y seleccione Dataset (Conjunto de datos).

    Menú para crear un conjunto de datos.

  3. En la página Nuevo conjunto de datos, seleccione Azure Blob Storage y después Continuar.

  4. En la página Seleccionar formato, elija el tipo de formato de los datos y, después, seleccione Continuar. En este caso, seleccione Binario al copiar archivos tal cual sin analizar el contenido.

    Selección del formato.

  5. En la página Establecer propiedades, siga estos pasos:

    a. En Nombre, escriba InputDataset.

    b. En Linked service (Servicio vinculado), seleccione AzureStorageLinkedService.

    c. En File path (Ruta del archivo), seleccione el botón Browse (Examinar).

    d. En la ventana Elegir un archivo o carpeta, vaya a la carpeta input del contenedor adftutorial, seleccione el archivo emp.txt y seleccione Aceptar.

    e. Seleccione Aceptar.

    Establecimiento de propiedades para InputDataset.

  6. Repita los pasos para crear el conjunto de datos de salida:

    a. Haga clic en el botón + (Más) y seleccione Dataset (Conjunto de datos).

    b. En la página Nuevo conjunto de datos, seleccione Azure Blob Storage y después Continuar.

    c. En la página Seleccionar formato, elija el tipo de formato de los datos y, después, seleccione Continuar.

    d. En la página Establecer propiedades, especifique OutputDataset para el nombre. Seleccione AzureStorageLinkedService como servicio vinculado.

    e. En Ruta de acceso del archivo, escriba adftutorial/output. Si la carpeta output no existe, la actividad de copia la crea en tiempo de ejecución.

    f. Seleccione Aceptar.

    Establecimiento de propiedades para OutputDataset.

Crear una canalización

En este procedimiento, va a crear y comprobar una canalización con una actividad de copia que utiliza los conjuntos de datos de entrada y de salida. La actividad de copia realiza una copia de los datos desde el archivo especificado en la configuración del conjunto de datos de entrada hasta el archivo especificado en la configuración del conjunto de datos de salida. Si el conjunto de datos de entrada especifica solo una carpeta (no el nombre de archivo), la actividad de copia realiza una copia de todos los archivos de la carpeta de origen al destino.

  1. Haga clic en el botón + (Más) y seleccione Pipeline (Canalización).

  2. En el panel General, en Propiedades, especifique CopyPipeline en Nombre. A continuación, contraiga el panel; para ello, haga clic en el icono Propiedades en la esquina superior derecha.

  3. En el cuadro de herramientas Activities (Actividades), expanda Move & Transform (Mover y transformar). Arrastre la actividad Copiar datos del cuadro de herramientas Actividades a la superficie del diseñador de canalizaciones. También puede buscar actividades en el cuadro de herramientas Activities (Actividades). Especifique CopyFromBlobToBlob en Name (Nombre).

    Creación de una actividad de copia de datos.

  4. Cambie a la pestaña Source (Origen) en la configuración de la actividad de copia y seleccione InputDataset para Source Dataset (Conjunto de datos de origen).

  5. Cambie a la pestaña Sink (Receptor) en la configuración de la actividad de copia y seleccione OutputDataset para Sink Dataset (Conjunto de datos receptor).

  6. Haga clic en Validar en la barra de herramientas de la canalización situada en la parte superior del lienzo para validar la configuración de la canalización. Confirme que la canalización se ha validado correctamente. Para cerrar la salida de la validación, seleccione el botón Validación en la esquina superior derecha.

    Validación de una canalización.

Depuración de la canalización

En este paso va a depurar la canalización antes de implementarla en Data Factory.

  1. En la barra de herramientas de la canalización situada en la parte superior del lienzo, haga clic en Depurar para desencadenar una serie de pruebas.

  2. Confirme que ve el estado de ejecución de la canalización en la pestaña Output (Salida) de la configuración de la canalización situada en la parte inferior.

    Salida de ejecución de la canalización

  3. Confirme que ve un archivo de salida en la carpeta output del contenedor adftutorial. Si no existe la carpeta de salida, el servicio Data Factory la crea automáticamente.

Desencadenamiento manual de la canalización

En este procedimiento se implementan las entidades (servicios vinculados, conjuntos de datos, canalizaciones) en Azure Data Factory. A continuación, desencadenará manualmente una ejecución de la canalización.

  1. Antes de desencadenar una canalización, debe publicar las entidades en Data Factory. Seleccione Publicar todo en la parte superior para realizar la publicación.

    Publicar todo.

  2. Para desencadenar la canalización de forma manual, seleccione Agregar desencadenador en la barra de herramientas de la canalización y seleccione Trigger Now (Desencadenar ahora). En la página Ejecución de la canalización, seleccione Aceptar.

Supervisar la canalización

  1. Cambie a la pestaña Monitor (Supervisar) de la izquierda. Use el botón Refresh (Actualizar) para actualizar la lista.

    Pestaña de supervisión de las ejecuciones de canalización

  2. Seleccione el vínculo CopyPipeline; verá el estado de la ejecución de la actividad de copia en esta página.

  3. Para más información sobre la operación de copia, seleccione el vínculo Detalles (imagen de gafas). Para más información sobre las propiedades, consulte Introducción a la actividad de copia.

    Detalles de la operación de copia.

  4. Confirme que ve un archivo nuevo en la carpeta output (salida).

  5. Puede volver a la vista Ejecuciones de la canalización desde la vista Ejecuciones de actividad. Para ello, seleccione el vínculo Todas las ejecuciones de la canalización.

Desencadenamiento de la canalización de forma programada

Este procedimiento es opcional en este tutorial. Puede crear un programador de desencadenador para programar la ejecución de la canalización periódicamente (cada hora, a diario, y así sucesivamente). En este procedimiento, va a crear un desencadenador que se ejecutará cada minuto hasta la fecha y hora de finalización que se especifique.

  1. Cambie a la pestaña Creador.

  2. Vaya a la canalización, seleccione Agregar desencadenador en la barra de herramientas de la canalización y, después, seleccione Nuevo/Editar.

  3. En la página Add Triggers (Agregar desencadenadores), seleccione Choose trigger (Elegir desencadenador) y, después, seleccione New (Nuevo).

  4. En la página Nuevo desencadenador, en Final, seleccione El día, especifique la hora de finalización unos minutos después de la hora actual y, luego, seleccione Aceptar.

    Hay un costo asociado a cada ejecución de la canalización. Por lo tanto, especifique la hora de finalización tan solo unos minutos después de la hora de inicio. Asegúrese de que sea el mismo día. No obstante, asegúrese de que hay tiempo suficiente para que la canalización se ejecute entre la hora de publicación y la hora de finalización. El desencadenador entra en vigor después de publicar la solución en Data Factory, no cuando se guarda el desencadenador en la interfaz de usuario.

  5. En la página Nuevo desencadenador, active la casilla Activado y, luego, seleccione Aceptar.

    Opción Nuevo desencadenador.

  6. Revise el mensaje de advertencia y, luego, seleccione Aceptar.

  7. Seleccione Publicar todo para publicar los cambios en Data Factory.

  8. Cambie a la pestaña Monitor (Supervisar) de la izquierda. Seleccione Refresh (Actualizar) para actualizar la lista. Verá que la canalización se ejecuta una vez cada minuto desde la hora de publicación hasta la hora de finalización.

    Observe los valores de la columna DESENCADENADO POR. La ejecución manual del desencadenador se realizó en el paso (Trigger Now) [Desencadenar ahora] que llevó a cabo antes.

  9. Cambie a la vista Trigger Runs (Ejecuciones de desencadenador).

  10. Confirme que se crea un archivo de salida para cada ejecución de la canalización hasta la fecha y hora de finalización especificadas en la carpeta output (salida).

Pasos siguientes

La canalización de este ejemplo copia los datos de una ubicación a otra en una instancia de Azure Blob Storage. Para más información sobre el uso de Data Factory en otros escenarios, consulte los siguientes tutoriales.