Share via


Tutorial: Análisis de informes de inventario de blobs

Al comprender cómo se almacenan, organizan y usan los blobs y los contenedores en producción, puede optimizar mejor los sacrificios entre el costo y el rendimiento.

En este tutorial se muestra cómo generar y visualizar estadísticas como el crecimiento de datos a lo largo del tiempo, los datos agregados a lo largo del tiempo, el número de archivos modificados, los tamaños de instantánea de blobs, los patrones de acceso a cada nivel y cómo se distribuyen los datos actualmente y a lo largo del tiempo (por ejemplo: datos entre niveles, tipos de archivo, en contenedores y tipos de blobs).

En este tutorial, aprenderá a:

  • Generación de un informe de inventario de blobs
  • Configuración de un área de trabajo de Synapse
  • Configuración de Synapse Studio
  • Generación de datos analíticos en Synapse Studio
  • Visualizar los resultados en Power BI

Prerrequisitos

Generación de un informe de inventario

Habilite los informes de inventario de blobs para su cuenta de almacenamiento. Consulte Habilitación de los informes de inventario de blobs de Azure Storage.

Es posible que tenga que esperar hasta 24 horas después de habilitar los informes de inventario para que se genere el primer informe.

Configuración de un área de trabajo de Synapse

  1. Creación de un área de trabajo de Azure Synapse. Consulte Creación de un área de trabajo de Azure Synapse.

    Nota

    Como parte de la creación del área de trabajo, creará una cuenta de almacenamiento que tenga un espacio de nombres jerárquico. Azure Synapse almacena tablas de Spark y registros de aplicación en esta cuenta. Azure Synapse hace referencia a esta cuenta como la cuenta de almacenamiento principal. Para evitar confusiones, en este artículo se usa el término cuenta de informes de inventario para hacer referencia a la cuenta que contiene informes de inventario.

  2. En el área de trabajo de Synapse, asigne el rol Colaborador a la identidad de usuario. Consulte Azure RBAC: rol de Propietario para el área de trabajo.

  3. Conceda permiso al área de trabajo de Synapse para acceder a los informes de inventario de la cuenta de almacenamiento; para ello, vaya a la cuenta de informes de inventario y asigne el rol Colaborador de datos de Storage Blob a la identidad administrada del sistema del área de trabajo. Consulte Asignación de roles de Azure mediante Azure Portal.

  4. Vaya a la cuenta de almacenamiento principal y asigne el rol Colaborador de Blob Storage a su identidad de usuario.

Configuración de Synapse Studio

  1. Abra el área de trabajo en Synapse Studio. Consulte Abrir Synapse Studio.

  2. En Synapse Studio, asegúrese de que la identidad tiene asignado el rol de Administrador de Synapse. Consulte Synapse RBAC: rol de Administrador de Synapse para el área de trabajo.

  3. Creación de un grupo de Apache Spark. Consulte Creación de un grupo de Apache Spark sin servidor.

Configuración y ejecución del cuaderno de ejemplo

En esta sección, generará datos estadísticos que visualizará en un informe. Para simplificar este tutorial, en esta sección se usa un archivo de configuración de ejemplo y un cuaderno de PySpark de ejemplo. El cuaderno contiene una colección de consultas que se ejecutan en Azure Synapse Studio.

Modificación y carga del archivo de configuración de ejemplo

  1. Descargue el archivo BlobInventoryStorageAccountConfiguration.json.

  2. Actualice los siguientes marcadores de posición de ese archivo:

    • Establezca storageAccountName en el nombre de la cuenta de informes de inventario.

    • Establezca destinationContainer en el nombre del contenedor que contiene los informes de inventario.

    • Establezca blobInventoryRuleName en el nombre de la regla de informes de inventario que ha generado los resultados que desea analizar.

    • Establezca accessKey en la clave de cuenta de la cuenta de informes de inventario.

  3. Cargue este archivo en el contenedor de la cuenta de almacenamiento principal que especificó al crear el área de trabajo de Synapse.

Importación del cuaderno de PySpark de ejemplo

  1. Descargue el cuaderno de ejemplo ReportAnalysis.ipynb.

    Nota

    Asegúrese de guardar este archivo con la extensión .ipynb.

  2. Abra el área de trabajo en Synapse Studio. Consulte Abrir Synapse Studio.

  3. En Synapse Studio, seleccione la pestaña Desarrollar.

  4. Seleccione el signo más (+) para agregar un elemento.

  5. Seleccione Importar, vaya al archivo de ejemplo que descargó, seleccione ese archivo y seleccione Abrir.

    Aparecerá el cuadro de diálogo Propiedades.

  6. En el cuadro de diálogo Propiedades, seleccione el vínculo Configurar sesión.

    Captura de pantalla del cuadro de diálogo Importar propiedades

    Se abre el cuadro de diálogo Configurar sesión.

  7. En la lista desplegable Asociar a del cuadro de diálogo Configurar sesión, seleccione el grupo de Spark que creó anteriormente en este artículo. Después, seleccione el botón Aplicar.

Modificación del cuaderno de Python

  1. En la primera celda del cuaderno de Python, establezca el valor de la variable storage_account en el nombre de la cuenta de almacenamiento principal.

  2. Actualice el valor de la variable container_name en el nombre del contenedor en esa cuenta que especificó al crear el área de trabajo de Synapse.

  3. Seleccione el botón Publicar.

Ejecución del cuaderno de PySpark

  1. En el cuaderno de PySpark, seleccione Ejecutar todo.

    Tardará unos minutos en iniciar la sesión de Spark y otros minutos para procesar los informes de inventario. La primera ejecución podría tardar un tiempo si hay numerosos informes de inventario que procesar. Las ejecuciones posteriores solo procesarán los nuevos informes de inventario creados desde la última ejecución.

    Nota

    Si realiza algún cambio en el cuaderno, asegúrese de publicar esos cambios mediante el botón Publicar.

  2. Para comprobar que el cuaderno se ejecutó correctamente, seleccione la pestaña Datos.

    Debería aparecer una base de datos denominada reportdata en la pestaña Área de trabajo del panel Datos. Si esta base de datos no aparece, es posible que tenga que actualizar la página web.

    Captura de pantalla del panel Datos que muestra la base de datos reportdata

    La base de datos contiene un conjunto de tablas. Cada tabla contiene información obtenida mediante la ejecución de las consultas desde el cuaderno de PySpark.

  3. Para examinar el contenido de una tabla, expanda la carpeta Tablas de la base de datos reportdata. A continuación, haga clic con el botón derecho en una tabla, seleccione Seleccionar script SQL y, después, seleccione Seleccionar las 100 filas SUPERIORES.

    Captura de pantalla de la opción de menú para crear un script SQL

  4. Puede modificar la consulta según sea necesario y seleccionar Ejecutar para ver los resultados.

    Captura de pantalla del editor de consultas y los resultados de la consulta

Visualización de los datos

  1. Descargue el archivo de informe de ejemplo ReportAnalysis.pbit.

  2. Abra Power BI Desktop. Para obtener instrucciones de instalación, consulte Obtener Power BI Desktop.

  3. En Power BI, seleccione Archivo, Abrir informe y, después, Examinar informes.

  4. En el cuadro de diálogo Abrir, cambie el tipo de archivo a archivos de plantilla de Power BI (*.pbit).

    Captura de pantalla del tipo de archivos de plantilla de Power BI que aparece en el cuadro de diálogo Abrir

  5. Vaya a la ubicación del archivo ReportAnalysis.pbit que descargó y seleccione Abrir.

    Aparece un cuadro de diálogo que le pide que proporcione el nombre del área de trabajo de Synapse y el nombre de la base de datos.

  6. En el cuadro de diálogo, establezca el campo synapse_workspace_name en el nombre del área de trabajo y establezca el campo database_name en reportdata. A continuación, seleccione el botón Cargar.

    Captura de pantalla del cuadro de diálogo de configuración del informe

    Aparece un informe que proporciona visualizaciones de los datos recuperados por el cuaderno. Las imágenes siguientes muestran los tipos de gráficos que aparecen en este informe.

    Captura de pantalla de la pestaña de información general del informe

    Captura de pantalla de la pestaña de análisis detallado del informe

    Captura de pantalla de la pestaña de desglose del informe

Pasos siguientes