Oefening: gegevens uploaden en spreidingsplot maken

Voltooid

Jupyter-notebooks bestaan uit cellen. Aan elke cel wordt een van volgende drie typen toegewezen:

  • Markdown voor het invoeren van tekst in de markdown-indeling
  • Code voor het invoeren van code die interactief wordt uitgevoerd
  • Raw NBConvert voor het inline invoeren van gegevens

De code die wordt ingevoerd in de cellen, wordt uitgevoerd door een kernel. Deze kernel biedt een geïsoleerde omgeving waarin het notebook kan worden uitgevoerd. De populaire IPython-kernel biedt ondersteuning voor code die is geschreven in Python, maar er zijn tal van andere kernels beschikbaar die andere talen ondersteunen. Azure-notebooks bieden standaard ondersteuning voor Python, R en F#. Ze bieden ook ondersteuning voor de installatie van diverse andere pakketten en bibliotheken die vaak voor onderzoeksdoeleinden worden gebruikt.

De notebookeditor bevat momenteel een lege cel. In deze oefening voegt u inhoud aan de cel toe en voegt u andere cellen toe om Python-pakketten zoals NumPy te importeren, een paar NASA-gegevensbestanden met klimaatgegevens te laden en een spreidingsplot van de gegevens te maken.

  1. Stel de eerste cel in op Markdown en geef in de cel zelf de tekst 'Azure Notebook klimaatveranderingsanalyse' op:

    Defining a markdown cell.

    Een markdowncel definiëren

  2. Klik op de knop + op de werkbalk om een nieuwe cel toe te voegen. Zorg ervoor dat de cel van het type Code is en geef vervolgens de volgende Python-code in de cel op:

    import matplotlib.pyplot as plt
    import numpy as np
    from sklearn.linear_model import LinearRegression
    import seaborn as sns; sns.set()
    

    Adding a code cell.

    Een codecel toevoegen

  3. Klik nu op de knop Uitvoeren om de codecel uit te voeren en de pakketten te importeren die zijn opgegeven in de import-instructies. Eventuele waarschuwingen kunnen worden genegeerd, aangezien de omgeving voor het eerst wordt voorbereid.

    U kunt de waarschuwingen verwijderen door de codecel te selecteren en deze opnieuw uit te voeren.

    Running a code cell.

    Een codecel uitvoeren

  4. Klik in het menu bovenaan de pagina op Bestand en selecteer in de vervolgkeuzelijst de optie Uploaden. Upload vervolgens de bestanden met de naam 5-year-mean-1951-1980.csv en 5-year-mean-1882-2014.csv.

    Uploading data to the notebook.

    Gegevens uploaden naar het notebook

  5. Selecteer /project als uw Doelmap om ervoor te zorgen dat uw bestanden behouden blijven. Klik op Uploaden starten om de bestanden te uploaden en klik op OK zodra ze zijn geüpload.

    Selecting destination folder for data.

    Een doelmap voor de gegevens selecteren

  6. Plaats de muisaanwijzer in de lege cel onderaan het notebook. Voer de tekst 'Gegevens importeren' in en wijzig het celtype in Markdown.

  7. Voeg nu een cel van het type Code toe en plak de volgende code in de cel.

    yearsBase, meanBase = np.loadtxt('5-year-mean-1951-1980.csv', delimiter=',', usecols=(0, 1), unpack=True)
    years, mean = np.loadtxt('5-year-mean-1882-2014.csv', delimiter=',', usecols=(0, 1), unpack=True)
    
  8. Klik op de knop Uitvoeren om de cel uit te voeren en gebruik de NumPy-functie loadtxt om de gegevens te laden die u hebt geüpload. De gegevens staan nu in het geheugen en kunnen worden gebruikt door de toepassing.

    Loading the data.

    De gegevens laden

  9. Plaats de muisaanwijzer in de lege cel onderaan het notebook. Wijzig het type cel in Markdown en voer de tekst 'Een spreidingsplot maken' in.

  10. Voeg een cel van het type Code toe en plak de volgende code in de cel. De code maakt gebruik van Matplotlib om een spreidingsplot te maken.

    plt.scatter(yearsBase, meanBase)
    plt.title('scatter plot of mean temp difference vs year')
    plt.xlabel('years', fontsize=12)
    plt.ylabel('mean temp difference', fontsize=12)
    plt.show()
    
  11. Klik op Uitvoeren om de cel uit te voeren en een spreidingsplot te maken.

    Scatter plot produced by Matplotlib.

    Spreidingsplot gemaakt met Matplotlib

De gegevensset die u hebt geladen gebruikt een gemiddelde over een periode van dertig jaar, tussen 1951 en 1980, om een referentietemperatuur voor die periode te berekenen. Vervolgens wordt de gemiddelde temperatuur over een periode van vijf jaar gebruikt om het verschil tussen het gemiddelde over 5 jaar en het gemiddelde over 30 jaar voor elk jaar te berekenen. De spreidingsplot toont de jaarlijkse temperatuurverschillen.