Creación de un cuaderno parametrizado mediante Papermill

La parametrización en Azure Data Studio ejecuta el mismo cuaderno con un conjunto de parámetros diferente.

En este artículo se explica cómo crear y ejecutar un cuaderno parametrizado en Azure Data Studio con el kernel de Python.

Nota

Actualmente, puede usar la parametrización con Python, PySpark, PowerShell y kernels interactivos de .NET.

Requisitos previos

Instalación y configuración de Papermill en Azure Data Studio

Todos los pasos de esta sección se ejecutan en un cuaderno de Azure Data Studio.

  1. Cree un nuevo notebook. Establezca el valor Kernel en Python 3:

    Screenshot that shows the New notebook menu option and setting the Kernel value to Python 3.

  2. Si se le solicita que actualice los paquetes de Python cuando los paquetes deban actualizarse, seleccione :

    Screenshot that shows the dialog prompt to update Python packages.

  3. Instale Papermill:

    import sys
    !{sys.executable} -m pip install papermill --no-cache-dir --upgrade
    

    Compruebe que Papermill esté instalado:

    import sys
    !{sys.executable} -m pip list
    

    Screenshot that shows selecting Papermill in a list of application names.

  4. Para verificar que Papermill esté instalado correctamente, compruebe la versión de Papermill:

    import papermill
    papermill
    

    Screenshot that shows installation validation for Papermill.

Ejemplo de parametrización

Puede usar un archivo de cuaderno de ejemplo para seguir los pasos de este artículo:

  1. Vaya al archivo de cuaderno en GitHub. Seleccione Raw.
  2. Seleccione Ctrl+S o haga clic con el botón derecho y guarde el archivo con la extensión .ipynb.
  3. Abra el archivo en Azure Data Studio.

Configuración de un cuaderno parametrizado

Puede comenzar con el cuaderno de ejemplo abierto en Azure Data Studio o seguir los pasos a continuación para crear otro. Luego, pruebe a usar parámetros diferentes. Todos los pasos se ejecutan dentro de un cuaderno de Azure Data Studio.

  1. Compruebe que el valor Kernel esté establecido en Python 3:

    Screenshot that shows the Kernel value to Python 3.

  2. Cree una celda de código. Seleccione Parámetros para etiquetar la celda como una celda de parámetros.

    x = 2.0
    y = 5.0
    

    Screenshot that shows creating a new parameters cell with Parameters selected.

  3. Agregue otras celdas para probar diferentes parámetros:

    addition = x + y
    multiply = x * y
    
    print("Addition: " + str(addition))
    print("Multiplication: " + str(multiply))
    

    Una vez ejecutadas todas las celdas, el resultado tendrá un aspecto similar al de este ejemplo:

    Screenshot that shows the output of cells added to test new parameters.

  4. Guarde el cuaderno como Input.ipynb:

    Screenshot that shows saving the notebook file.

Ejecución de un cuaderno de Papermill

Puede ejecutar Papermill de dos formas:

  • Interfaz de la línea de comandos (CLI)
  • API de Python

Ejecución con parámetros mediante la CLI

Para ejecutar un cuaderno mediante la CLI, escriba el comando papermill en el terminal junto con el cuaderno de entrada, la ubicación del cuaderno de salida y las opciones.

Nota

Para obtener más información, consulte la documentación de la CLI de Papermill.

  1. Ejecute el cuaderno de entrada con parámetros nuevos:

    papermill Input.ipynb Output.ipynb -p x 10 -p y 20
    

    Este comando ejecuta el cuaderno de entrada con valores nuevos para los parámetros x e y.

  2. En una celda nueva con la etiqueta # Injected-Parameters se incluyen los valores de parámetro nuevos que se han pasado a través de la CLI. Los valores # Injected-Parameters nuevos se usan para el resultado nuevo que se muestra en la última celda:

    Screenshot that shows the output for new parameters.

Ejecución con parámetros mediante la API de Python

Nota

Para obtener más información, consulte la documentación de Python de Papermill.

  1. Cree un nuevo notebook. Establezca el valor Kernel en Python 3:

    Screenshot that shows the New notebook menu option and setting the Kernel value to Python 3.

  2. Añada una celda de código nueva. A continuación, use la API de Python de Papermill para ejecutar y generar el cuaderno parametrizado de salida:

    import papermill as pm
    
    pm.execute_notebook(
    '/Users/vasubhog/GitProjects/AzureDataStudio-Notebooks/Demo_Parameterization/Input.ipynb',
    '/Users/vasubhog/GitProjects/AzureDataStudio-Notebooks/Demo_Parameterization/Output.ipynb',
    parameters = dict(x = 10, y = 20)
    )
    

    Screenshot that shows the Python API execution.

  3. En una celda nueva con la etiqueta # Injected-Parameters se incluyen los valores de parámetro nuevos que se han pasado. Los valores # Injected-Parameters nuevos se usan para el resultado nuevo que se muestra en la última celda:

    Screenshot that shows the output for new parameters.

Pasos siguientes

Obtenga más información sobre los cuadernos y la parametrización: