Azure 開放資料集

使用公開可用的資料集,改善機器學習模型的精確度。 使用準備好在機器學習專案中使用的策劃資料集,節省資料探索和準備的時間。

Transportation

資料集 Description
TartanAir: AirSim 模擬資料集 AirSim 產生的自發車輛資料,以解決同時當地語系化和對應 (閉合) 。
NYC 計程車 & 禮車委員會-黃色計程車行程記錄 黃色計程車行程記錄包括挑選和捨棄日期/時間、挑選和捨棄位置、行程距離、明細車資、費率類型、付款類型,以及驅動程式回報的乘客計數。
NYC 計程車 & 禮車委員會-綠計程車行程記錄 綠色計程車行程記錄包括挑選和捨棄日期/時間、挑選和捨棄地點、行程距離、明細車資、費率類型、付款類型,以及驅動程式回報的乘客計數。
NYC 計程車 & 禮車委員會-For-Hire 車輛 (FHV) 行程記錄 For-Hire 車輛旅程記錄包含分派基本授權號碼和挑選日期、時間和計程車區域的位置識別碼。

健全狀況和 genomics

資料集 Description
COVID-19-19 Data Lake 新型冠狀病毒 (COVID-19) Data Lake 集合集結了各種來源的新型冠狀病毒 (COVID-19) 相關資料集,涵蓋檢測及病患結果追蹤資料、社交距離政策、醫院量能、人潮流動情況等。
COVID-19-19 Open Research 資料集 新型冠狀病毒 (COVID-19) 及冠狀病毒相關的學術性文章全文與中繼資料資料集,已經過優化而使機器能夠讀取,並開放給全球研究社群使用。
Genomics Data Lake Genomics Data Lake 提供各種公用資料集,可讓您免費存取,並整合到您的 Genomics 分析工作流程和應用程式中。 本資料集包含基因體序列、變異資訊,以及 BAM、FASTA、VCF、CSV 檔案格式的主體/樣本中繼資料。

人力和經濟效益

資料集 Description
US Labor Force Statistics (美國勞動力統計資料) 美國勞動力統計資料提供依年齡、性別、種族與族裔群體分列的勞動力統計資料、勞動力參與率及適齡的勞動人口。 美國境內。
US National Employment Hours and Earnings (美國全國的工時與工資) 目前就業統計 (CES) 計劃會產生詳細的美國非農就業產業預估值、工作時數和工作者的薪資收入。
US State Employment Hours and Earnings (美國各州的工時與工資) 目前就業統計 (CES) 計劃會產生詳細的美國非農就業產業預估值、工作時數和工作者的薪資收入。
US Local Area Unemployment Statistics (美國各地區域的失業統計資料) 美國地區別失業統計資料 (LAUS) 資料集提供美國普查區域和行政區、州/省、郡縣、都會區和許多城市的月度和年度就業、失業和勞動力資料。
US Consumer Price Index (美國消費者物價指數) 消費者物價指數 (CPI) 用於衡量一段時間內都市消費者為一個購物籃中消費性商品和服務所支付價格的平均變化情況。
US Producer Price Index - Industry (美國生產者物價指數 - 產業) 生產者物價指數 (PPI) 用於衡量一段時間內國內生產者就其生產所獲售價的平均變化情況。
US Producer Price Index - Commodities (美國生產物價指數 - 商品) 生產者物價指數 (PPI) 用於衡量一段時間內國內生產者就其商品所獲售價的平均變化情況。

人口和安全性

資料集 Description
美國人口數 (依郡排列) 美國各郡縣十年一度 (2000 年和 2010 年) 普查的美國人口數 (依性別和種族)。 此資料集的資料來源為美國人口普查局。
美國人口數 (依郵遞區號排列) 美國各郵遞區號 2010 年十年一度普查的美國人口數 (依性別和種族)。 此資料集的資料來源為美國人口普查局。
波士頓安全資料 閱讀向波士頓市通報的 311 通話相關資料。 此資料集以 Parquet 格式儲存,並每日更新。
芝加哥安全資料 閱讀向芝加哥市通報的 311 通話相關資料。 此資料集以 Parquet 格式儲存,並每日更新。
紐約州紐約市安全資料 此資料集包含 2010 年至今所有的紐約市 311 服務要求。 ™最根本會以 Parquet 格式儲存並每天更新。
三藩市安全資料 舊金山的消防部門服務通話和 311 案件。 此資料集包含從 2015 年累積至今的歷史記錄。
西雅圖安全資料 西雅圖消防部門 911 調度中心。 此資料集會每日更新,並包含 2010 年累積至今的歷史記錄

補充和一般資料集

資料集 Description
糖尿病 糖尿病資料集有 442 份具有 10 項特徵的範例,因此很適合作為機器學習演算法入門。
OJ 銷售模擬資料 此資料集衍生自 Dominick 的 OJ 資料集,並包含額外的模擬資料,其目標是提供資料集,讓您可以輕鬆地在 Azure Machine Learning 上訓練數以千計的模型。
手寫數位的 MNIST 資料庫 手寫數字的 MNIST 資料庫有 60,000 個範例的訓練集,以及 10,000 個範例的測試集。 數字已大小正規化且在固定大小的影像置中。
Microsoft News 建議資料集 Microsoft News 資料集 (主意) 是新聞建議研究的大規模資料集。 它可作為新聞建議的基準資料集,並可協助研究新聞建議和推薦系統。
公共假日 來自 PyPI 假日套件和 Wikipedia 的全球國定假日資料,涵蓋 1970 年至 2099 年的 38 個國家或地區。
俄文開啟語音轉換文字 俄文 Open STT 是適用于俄文語言的大型開放語音轉換文字資料集