你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是 Azure 开放数据集?如何使用它们?

Azure 开放数据集是精选公共数据集,可用于将方案专属特征添加到机器学习解决方案,以提高模型的准确度。 开放数据集位于云中的 Microsoft Azure 上并已集成到 Azure 机器学习中,随时可供 Azure Databricks 和机器学习工作室(经典版)使用。 也可以通过 API 访问数据集,并在 Power BI 和 Azure 数据工厂等其他产品中使用它们。

数据集包括不受任何限制的天气、人口普查、节假日、公共安全和位置数据,有助于定型机器学习模型和扩充预测解决方案。 还可以共享 Azure 开放数据集中的公共数据集。

Azure 开放数据集组件

准备的精选数据集

Azure 开放数据集中的精选开放公共数据集更适合用于机器学习工作流。

若要查看所有可用的数据集,请参阅 Azure 开放数据集目录

数据科学家通常将大部分时间花在清理和准备数据上,以执行高级分析。 为了节省你的时间,开放数据集复制到 Azure 云中,并经过预处理。 系统将按固定的间隔从源提取数据,例如,通过与美国海洋与大气管理局 (NOAA) 建立 FTP 连接来提取数据。 接下来,将数据分析成结构化格式,然后使用各种特征(例如最靠近的气象站的邮政编码或位置)相应地扩充这些数据。

数据集通过 Azure 中的云计算共同托管,简化了访问和操作。

下面展示了可用数据集示例。

天气数据

数据集 笔记本 说明
NOAA 集成地面数据 (ISD) Azure Notebook
Azure Databricks
来自 NOAA 的全球每小时天气数据,最佳空间覆盖北美、欧洲、澳大利亚和亚洲部分地区。 每天更新一次。
NOAA 全球预测系统 (GFS) Azure Notebook
Azure Databricks
来自 NOAA 的 15 天美国每小时天气预测数据。 每天更新一次。

日历数据

数据集 笔记本 说明
公共节假日 Azure Notebook
Azure Databricks
全球公共节假日数据,覆盖 41 个国家/地区从 1970 年到 2099 年的节假日数据。 包括国家/地区,以及大多数人是否有带薪休假。

访问数据集

借助 Azure 帐户,可以使用代码或通过 Azure 服务界面访问开放数据集。 数据与 Azure 云计算资源共置在一起,以供用于机器学习解决方案。

开放数据集通过 Azure 机器学习 UI 和 SDK 提供。 开放数据集还提供 Azure Notebooks 和 Azure Databricks 笔记本,可用于将数据连接到 Azure 机器学习和 Azure Databricks。 也可以通过 Python SDK 访问数据集。

不过,无需使用 Azure 帐户,即可访问开放数据集;可以在含或不含 Spark 的任意 Python 环境中访问它们。

请求获取或参与数据集

如果找不到所需的数据,请向我们发送电子邮件,以请求获取数据集参与数据集

后续步骤