Ejercicio: Creación de un cuaderno de Azure Notebooks e importación de datos

La primera operación es crear un cuaderno de Azure Notebooks. Los cuadernos de Azure Notebooks se incluyen en proyectos, cuya finalidad principal es agrupar los cuadernos relacionados. En esta unidad se crea un proyecto y luego se crea un cuaderno dentro de él.

  1. Vaya a https://notebooks.azure.com en el explorador.

  2. Inicie sesión con la cuenta de Microsoft.

  3. Haga clic en My Projects (Mis proyectos) en el menú de la parte superior de la página.

  4. Haga clic en el botón + New Project (+ Nuevo proyecto) en la parte superior de la página "My Projects".

  5. Cree un proyecto con el nombre "Cuadernos de ML" o algo similar. Si quiere, puede desactivar la casilla "Public" (Público), pero al hacer público el proyecto permite que los cuadernos que contiene se compartan con otros usuarios a través de vínculos, medios sociales o correo electrónico. Si no está seguro de lo que elegir, más adelante podrá convertir un proyecto en público o privado.

    Creación de un proyecto

    Creación de un proyecto

  6. Haga clic en + New (+ Nuevo) y seleccione Notebook (Cuaderno) en el menú para agregar un cuaderno al proyecto.

    Incorporación de un cuaderno al proyecto

    Incorporación de un cuaderno al proyecto

  7. Asigne al cuaderno un nombre como "On-Time Flight Arrivals.ipynb" y seleccione Python 3.6 como el lenguaje. Esto creará un cuaderno con un kernel de Python 3.6 para ejecutar código de Python. Uno de los puntos fuertes de los cuadernos de Azure es que se pueden usar otros lenguajes mediante la selección de otros kernels.

    Creación de un cuaderno

    Creación de un cuaderno

    Si tiene curiosidad, la extensión de nombre de archivo .ipynb proviene de "IPython notebook" (cuaderno de IPython). Los cuadernos de Jupyter originalmente se conocían como cuadernos de IPython (Python interactivo) y solo admitían Python como lenguaje de programación. El nombre Jupyter es una combinación de Julia, Python y R, los lenguajes de programación principales compatibles con Jupyter.

  8. Haga clic en el cuaderno para abrirlo y editarlo.

    Apertura del cuaderno

    Apertura del cuaderno

Puede crear otros proyectos y cuadernos a medida que trabaja con Azure Notebooks. Puede crear cuadernos desde cero o cargar cuadernos existentes.

Los cuadernos de Jupyter son altamente interactivos, y como pueden incluir código ejecutable, proporcionan la plataforma perfecta para manipular los datos y generar modelos predictivos a partir de ellos.

  1. En la primera celda del cuaderno, escriba el comando siguiente:

    !curl https://topcs.blob.core.windows.net/public/FlightData.csv -o flightdata.csv
    

    Sugerencia

    curl es un comando de Bash. Puede ejecutar comandos de Bash en un cuaderno de Jupyter si les agrega como prefijo un signo de exclamación. Este comando descarga un archivo CSV de Azure Blob Storage y lo guarda con el nombre flightdata.csv.

  2. Haga clic en el botón Run (Ejecutar) para ejecutar el comando curl.

    Importación de un conjunto de datos

    Importación de un conjunto de datos

  3. En la segunda celda del cuaderno, escriba el siguiente código de Python para cargar flightdata.csv, crear un elemento DataFrame de Pandas a partir de él y mostrar las cinco primeras filas.

    import pandas as pd
    
    df = pd.read_csv('flightdata.csv')
    df.head()
    
  4. Haga clic en el botón Run (Ejecutar) para ejecutar el código. Confirme que la salida es similar a la siguiente.

    Carga del conjunto de datos

    Carga del conjunto de datos

    El elemento DataFrame que ha creado contiene información sobre la puntualidad de las llegadas de una gran aerolínea de Estados Unidos. Tiene más de 11.000 filas y 26 columnas. (En la salida se indican "5 filas", porque la función head del elemento DataFrame solo devuelve las cinco primeras filas). Cada fila representa un vuelo y contiene información como el origen, el destino, la hora de salida programada y si el vuelo ha llegado a tiempo o con retraso. Más adelante en este módulo se analizarán los datos con más detalle.

  5. Use el comando File -> Save and Checkpoint (Archivo>Guardar y punto de control) para guardar el cuaderno.

Use la barra de desplazamiento horizontal para desplazarse hacia la izquierda y derecha, y ver todas las columnas del conjunto de datos. ¿Cuántas columnas contiene el conjunto de datos? A partir de los nombres de columna, ¿puede adivinar qué representa cada una?