练习 - 确定要包含在机器学习模型中的列

已完成

为了开始训练机器学习模型,我们首先来训练计算机根据数据的哪些部分进行预测。 我们知道,我们希望模型预测的列是“发射”列。 我们将提取此列,并将其存储在变量中,作为 YN 的列表。

进一步清理数据

接下来,我们将删除进行此预测时不需要的一些列。 “名称”等列会为我们提供有关数据的更多上下文。 但发射的名称并不能指示天气是否会导致发射推迟。 在本模块中,我们将重点关注风速、条件和降水列。

备注

通常建议不要使用 xy 等变量名。 但它们是数据科学中用于表示输入和输出数据的规范。 这种用法基于数学算法的基础教学。 例如,回想一下 y=mx+b 等公式。

在上一个模块中创建的 Jupyter Notebook(.ipynb 文件)中,运行以下命令。 如果距离完成本模块中的步骤的时间太长,可能会出现错误。 在这种情况下,请重新导入上一模块中的库和数据,并运行以下命令:

# First, we save the output we are interested in. In this case, "launch" yes and no's go into the output variable.
y = launch_data['Launched?']

# Removing the columns we are not interested in
launch_data.drop(['Name','Date','Time (East Coast)','Location','Launched?','Hist Ave Sea Level Pressure','Sea Level Pressure','Day Length','Notes','Hist Ave Visibility', 'Hist Ave Max Wind Speed'],axis=1, inplace=True)

# Saving the rest of the data as input data
X = launch_data

你现在有两个变量。 输出在 y 中,输入在 X 中。 可以查看刚创建的 X 变量中的列,大致了解输入数据:

# List of variables that our machine learning algorithm is going to look at:
X.columns

X 输入数据表示特定日期的天气。 在本例中,我们不考虑日期或时间。 我们希望当天的天气数据图表可以指示是否应该发射,而不是日期或时间。