Övning – Importera Python-bibliotek och data om raketuppskjutningar

Slutförd

Nu har du ett mål: Kommer en uppskjutning sannolikt att ske med tanke på specifika väderförhållanden? Du har en datauppsättning som innehåller väderdata från:

  • Flera lyckade lanseringar
  • En push-startdag
  • Dagarna fram till och efter varje lansering

Nu kan du börja koda!

Maskininlärning i kod

Du kan använda olika verktyg och tjänster för att lösa maskininlärningsproblem. I dessa utbildningsvägar med rymdtema används Visual Studio Code, Python, scikit-learn och Azure.

Titta på den här Microsoft-videon och se hur du hämtar och konfigurerar en miljö som liknar den du behöver.

När du konfigurerar din lokala programmeringsmiljö rekommenderar vi att du skapar en Anaconda-miljö, så att du vet att du har exakt det som du behöver för projektet. Du kan använda önskad metod eller uppsättning verktyg. De flesta av dessa moduler kräver inte uttryckligen Visual Studio Code eller Azure.

Konfigurera den lokala miljön

Innan du fortsätter måste du vara säker på att du har:

  • Visual Studio Code, Anaconda och Python installerade. (Vi skapar vår Anaconda-miljö i stegen nedan).
  • En lokal mapp som du skapade för att lagra all kod och alla data.
  • Excel-filen med våra data som laddats ned och sparats i din lokala mapp.
  • En tom Jupyter Notebook-fil som sparats i mappen. (I din lokala mapp skapar du en dummyfil med namnet yourfilename.ipynb).

Så här konfigurerar du din lokala miljö:

  1. Öppna Anaconda-prompten.

    Screenshot that shows the Anaconda prompt.

  2. I Anaconda-prompten skapar du en ny Anaconda-miljö med Pandas, NumPy, scikit-learn, PyDotPlus och Jupyter:

    conda create -n myenv python=3.8 pandas numpy jupyter seaborn scikit-learn pydotplus
    
  3. Aktivera den nya miljön från Anaconda-prompten:

    conda activate myenv
    
  4. Installera AzureML-SDK från Anaconda-prompten:

    pip install --upgrade azureml-sdk
    

    I vissa fall kan installationen ta flera minuter att slutföra. Låt det lösas tills det gör det.

  5. I Anaconda-prompten installerar du en Excel-läsare (observera att xlrd kanske inte fungerar med Excel-datafilen som du laddade ned):

    pip install openpyxl
    
  6. I Visual Studio Code öppnar du den lokala mappen som du skapade för att lagra all kod och alla data. Välj både den övre högra Jupyter Kernel Python-versionen och python-tolken längst ned till vänster och ställ in båda så att de använder din Anaconda-miljö:

    Screenshot that shows Visual Studio Code with the Anaconda environment.

Importera bibliotek

När den lokala Visual Studio Code-miljön har skapats kan du nu importera biblioteken. Vi ska använda dem för att importera och förbereda våra väderdata och för att skapa och testa maskininlärningsmodellen.

Kopiera koden nedan till en cell och kör den för att importera biblioteken.

# Pandas library is used for handling tabular data
import pandas as pd

# NumPy is used for handling numerical series operations (addition, multiplication, and ...)

import numpy as np
# Sklearn library contains all the machine learning packages we need to digest and extract patterns from the data
from sklearn import linear_model, model_selection, metrics
from sklearn.model_selection import train_test_split

# Machine learning libraries used to build a decision tree
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree

# Sklearn's preprocessing library is used for processing and cleaning the data 
from sklearn import preprocessing

# for visualizing the tree
import pydotplus
from IPython.display import Image 

Läsa in data i en variabel

Nu när alla bibliotek har importerats kan vi använda Pandas-biblioteket för att importera våra data. Använd kommandot pd.read_excel för att läsa data och spara dem i en variabel. .head() Använd sedan funktionen för att skriva ut de första fem raderna av data för att säkerställa att vi har läst allt korrekt.

launch_data = pd.read_excel('RocketLaunchDataCompleted.xlsx')
launch_data.head()

Börja utforska data

Slutligen kan vi använda funktionsanropet .columns för att visa alla kolumner i våra data. Om du gör det visas de attribut som data har. Du ser några vanliga attribut som namn på tidigare raketer som var schemalagda att skjutas upp, datum som de schemalagts, om de faktiskt startades och mycket mer. Titta på dessa kolumner och försök gissa vilka som kommer att ha störst effekt när det gäller att avgöra om en raket kommer att skjutas upp.

launch_data.columns