Övning – Importera Python-bibliotek och data om raketuppskjutningar

Slutförd

Du har ett mål: Är det troligt att en uppskjutning blir av under specifika väderförhållanden? Du har en datauppsättning som innehåller väderdata från:

  • Flera lyckade uppskjutningar
  • En push-uppskjutningsdag
  • Dagarna före och efter varje uppskjutning

Nu kan du börja koda!

Maskininlärning i kod

Du kan använda olika verktyg och tjänster för att lösa maskininlärningsproblem. I dessa utbildningsvägar med rymdtema används Visual Studio Code, Python, scikit-learn och Azure.

Titta på den här Microsoft-videon och se hur du hämtar och konfigurerar en miljö som liknar den du behöver.

När du konfigurerar din lokala programmeringsmiljö rekommenderar vi att du skapar en Anaconda-miljö, så att du vet att du har exakt det som du behöver för projektet. Du kan använda önskad metod eller uppsättning verktyg. De flesta av dessa moduler kräver inte uttryckligen Visual Studio Code eller Azure.

Konfigurera den lokala miljön

Innan du fortsätter måste du vara säker på att du har:

  • Visual Studio Code, Anacondaoch Python installerade. (Vi skapar vår Anaconda-miljö i stegen nedan).
  • En lokal mapp som du har skapat för att lagra all kod och alla data.
  • Filen Excel våra data har laddats ned och sparats i din lokala mapp.
  • En tom Jupyter Notebook-fil som sparats i mappen. (I den lokala mappen skapar du en dummyfil med namnet yourfilename.ipynb).

Så här konfigurerar du din lokala miljö:

  1. Öppna Anaconda-prompten.

    Skärmbild som visar Anaconda-prompten.

  2. I Anaconda-prompten skapar du en ny Anaconda-miljö med Pandas, NumPy, scikit-learn, PyDotPlus och Jupyter:

    conda create -n myenv python=3.8 pandas numpy jupyter seaborn scikit-learn pydotplus
    
  3. Aktivera den nya miljön från Anaconda-prompten:

    conda activate myenv
    
  4. Installera AzureML-SDK från Anaconda-prompten:

    pip install --upgrade azureml-sdk
    

    I vissa fall kan installationen ta flera minuter att slutföra. Låt det lösa tills det är det.

  5. I Anaconda-prompten installerar du en Excel läsare (observera att xlrd kanske inte fungerar med den Excel-datafil som du laddade ned):

    pip install openpyxl
    
  6. I Visual Studio Code öppnar du den lokala mapp som du skapade för att lagra all kod och alla data. Välj både Python-versionen för Den övre högra Jupyter-kerneln och Python-tolken längst ned till vänster och ange att båda ska använda din Anaconda-miljö:

    Skärmbild som visar Visual Studio Code med Anaconda-miljön.

Importera bibliotek

Nu när Visual Studio code-miljön har skapats kan du importera biblioteken. Vi ska använda dem för att importera och förbereda våra väderdata och för att skapa och testa maskininlärningsmodellen.

Kopiera koden nedan till en cell och kör den för att importera biblioteken.

# Pandas library is used for handling tabular data
import pandas as pd

# NumPy is used for handling numerical series operations (addition, multiplication, and ...)

import numpy as np
# Sklearn library contains all the machine learning packages we need to digest and extract patterns from the data
from sklearn import linear_model, model_selection, metrics
from sklearn.model_selection import train_test_split

# Machine learning libraries used to build a decision tree
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree

# Sklearn's preprocessing library is used for processing and cleaning the data 
from sklearn import preprocessing

# for visualizing the tree
import pydotplus
from IPython.display import Image 

Läsa in data i en variabel

Nu när alla bibliotek har importerats kan vi använda Pandas-biblioteket för att importera våra data. Använd kommandot pd.read_excel för att läsa data och spara dem i en variabel. Använd sedan funktionen för .head() att skriva ut de första fem raderna i data för att säkerställa att vi har läst allt korrekt.

launch_data = pd.read_excel('RocketLaunchDataCompleted.xlsx')
launch_data.head()

Börja utforska data

Slutligen kan vi använda .columns funktionsanropet för att visa alla kolumner i våra data. Om du gör det visas de attribut som data har. Du ser några vanliga attribut som namn på tidigare raketer som var schemalagda att skjutas upp, de datum som de hade schemalagts, huruvida de faktiskt startades och mycket mer. Titta på de här kolumnerna och försök att gissa vilka som har störst inverkan på att avgöra om en raket ska skjutas upp.

launch_data.columns