练习 - 确定要包含在机器学习模型中的列

4 分钟

为了开始训练机器学习模型，我们首先来训练计算机根据数据的哪些部分进行预测。我们知道，我们希望模型预测的列是“发射”列。我们将提取此列，并将其存储在变量中，作为 Y 和 N 的列表。

进一步清理数据

接下来，我们将删除进行此预测时不需要的一些列。 “名称”等列会为我们提供有关数据的更多上下文。但发射的名称并不能指示天气是否会导致发射推迟。在本模块中，我们将重点关注风速、条件和降水列。

备注

通常建议不要使用 x 和 y 等变量名。但它们是数据科学中用于表示输入和输出数据的规范。这种用法基于数学算法的基础教学。例如，回想一下 y=mx+b 等公式。

在上一个模块中创建的 Jupyter Notebook（.ipynb 文件）中，运行以下命令。如果距离完成本模块中的步骤的时间太长，可能会出现错误。在这种情况下，请重新导入上一模块中的库和数据，并运行以下命令：

# First, we save the output we are interested in. In this case, "launch" yes and no's go into the output variable.
y = launch_data['Launched?']

# Removing the columns we are not interested in
launch_data.drop(['Name','Date','Time (East Coast)','Location','Launched?','Hist Ave Sea Level Pressure','Sea Level Pressure','Day Length','Notes','Hist Ave Visibility', 'Hist Ave Max Wind Speed'],axis=1, inplace=True)

# Saving the rest of the data as input data
X = launch_data

你现在有两个变量。输出在 y 中，输入在 X 中。可以查看刚创建的 X 变量中的列，大致了解输入数据：

# List of variables that our machine learning algorithm is going to look at:
X.columns

X 输入数据表示特定日期的天气。在本例中，我们不考虑日期或时间。我们希望当天的天气数据图表可以指示是否应该发射，而不是日期或时间。

继续

练习 - 确定要包含在机器学习模型中的列

进一步清理数据

反馈