Übung: Festlegen der in ein Machine Learning-Modell einzuschließenden Spalten

Abgeschlossen

Um mit dem Training des Machine Learning-Modells zu beginnen, teilen wir dem Computer zunächst mit, welche Teile der Daten er verwenden soll, um Vorhersagen zu treffen. Wir wissen, dass die Spalte, die das Modell vorhersagen soll, die Spalte „Gestartet“ ist. Diese Spalte wird extrahiert und in einer Variablen als Liste mit Y und N gespeichert.

Weitere Datenbereinigung

Als Nächstes entfernen wir einige der Spalten, die für diese Vorhersage nicht benötigt werden. Spalten wie „Name“ liefern uns zusätzlichen Kontext zu den Daten. Der Name eines Raketenstarts ist jedoch kein Indikator dafür, ob das Wetter dazu führt, dass der Start verschoben wird. In diesem Modul konzentrieren wir uns auf die Spalten für Windgeschwindigkeit, Bedingungen und Niederschlag.

Hinweis

In der Regel wird von der Verwendung von Variablennamen wie x und y abgeraten. Hierbei handelt es sich jedoch um Normen, die in der Data Science verwendet werden, um Eingabe- und Ausgabedaten darzustellen. Ihre Verwendung ist darauf zurückzuführen, dass unseren Prozessen mathematische Algorithmen zugrunde liegen. Sie können sich bestimmt an Formeln wie beispielsweise y=mx+b erinnern.

Führen Sie in der Jupyter Notebook-Datei (IPYNB-Date), die Sie im vorherigen Modul erstellt haben, die folgenden Befehle aus. Wenn zu viel Zeit verstrichen ist, seit Sie die Schritte in diesem Modul durchgeführt haben, werden möglicherweise Fehler angezeigt. Importieren Sie in diesem Fall die Bibliotheken und Daten aus dem vorherigen Modul erneut, und führen Sie dann die Befehle aus:

# First, we save the output we are interested in. In this case, "launch" yes and no's go into the output variable.
y = launch_data['Launched?']

# Removing the columns we are not interested in
launch_data.drop(['Name','Date','Time (East Coast)','Location','Launched?','Hist Ave Sea Level Pressure','Sea Level Pressure','Day Length','Notes','Hist Ave Visibility', 'Hist Ave Max Wind Speed'],axis=1, inplace=True)

# Saving the rest of the data as input data
X = launch_data

Sie verfügen jetzt über zwei Variablen. Die Ausgabe befindet sich in y, die Eingabe in X. Eine Übersicht über die Eingabedaten erhalten Sie, indem Sie sich die Spalten der neu erstellten Variablen X ansehen:

# List of variables that our machine learning algorithm is going to look at:
X.columns

Die Eingabedaten X stellen das Wetter für einen bestimmten Tag dar. In diesem Fall sind das Datum oder die Uhrzeit nicht relevant. Das Wetterprofil – und nicht das Datum oder die Uhrzeit – des betreffenden Tages soll der Indikator dafür sein, ob ein Start stattfinden soll.