什麼是 Azure 開放數據集,以及如何使用它們?
Azure 開放數據集 是策劃的公用數據集,可用來將案例特定功能新增至機器學習解決方案,以取得更精確的模型。 開放數據集位於 Microsoft Azure 上的雲端中,並已整合到 Azure 機器學習,並可供 Azure Databricks 和 機器學習 Studio 使用(傳統版)。 您也可以透過 API 存取資料集,並將其用於其他產品,例如 Power BI 和 Azure Data Factory。
數據集包括天氣、人口普查、假日、公共安全和位置的公用領域數據,可協助您定型機器學習模型並擴充預測解決方案。 您也可以在 Azure 開放資料集上共用公用數據集。
精心策劃、備妥的數據集
Azure 開放數據集中策劃的開放式公用數據集已針對機器學習工作流程中的耗用量進行優化。
若要查看所有可用的數據集,請移至 Azure 開放資料集目錄。
數據科學家通常會花大部分時間清理和準備數據以進行進階分析。 開啟資料集會複製到 Azure 雲端,並預先處理以節省您的時間。 定期從來源提取數據,例如由與國家海洋和大氣 管理員 控制(NOAA)的 FTP 連線提取。 接下來,數據會剖析成結構化格式,然後適當地使用郵遞區號或最近的氣象站位置等功能進行擴充。
數據集會與 Azure 中的雲端計算共同裝載,讓存取和操作變得更容易。
以下是可用的數據集範例。
天氣資料
資料集 | Notebooks | 描述 |
---|---|---|
NOAA 整合表面資料 (ISD) | Azure Notebooks Azure Databricks |
來自NOAA的全球每小時天氣數據,具有 北美洲、歐洲、澳大利亞和亞洲部分地區的最佳空間覆蓋。 每日更新。 |
NOAA 全球預測系統 (GFS) | Azure Notebooks Azure Databricks |
來自NOAA的15天美國每小時天氣預報數據。 每日更新。 |
日曆資料
資料集 | Notebooks | 描述 |
---|---|---|
公共假日 | Azure Notebooks Azure Databricks |
從1970年到2099年,全球公共假日數據涵蓋41個國家或地區。 包括國家/地區,以及大多數人是否有帶薪休假。 |
存取數據集
透過 Azure 帳戶,您可以使用程式代碼或透過 Azure 服務介面來存取開放資料集。 數據會與 Azure 雲端計算資源共置,以用於您的機器學習解決方案。
開放數據集可透過 Azure 機器學習 UI 和 SDK 取得。 開放數據集也提供 Azure Notebook 和 Azure Databricks Notebook,您可以用來將數據連線至 Azure 機器學習 和 Azure Databricks。 數據集也可以透過 Python SDK 存取。
不過,您不需要 Azure 帳戶即可存取開放數據集;您可以使用或不使用 Spark,從任何 Python 環境存取它們。
要求或貢獻數據集
如果找不到您想要的數據,請傳送電子郵件給我們 以要求數據集 或 貢獻數據集。