在机器学习工作室(经典)中使用示例数据集

适用于:适用于. 机器学习工作室(经典)不适用于.Azure 机器学习

重要

对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。

ML 工作室(经典)文档即将停用,将来可能不会更新。

在机器学习工作室(经典)中创建新工作区时,默认包含大量的示例数据集和试验。 其中许多示例数据集由 Azure AI 库中的示例模型使用。 其他示例数据集作为通常在机器学习中使用的各种类型数据的示例包含在内。

一些数据集可在 Azure Blob 存储中使用。 对于这些数据集,下表提供了直接链接。 可以在试验中通过使用导入数据模块来使用这些数据集。

余下的这些示例数据集可在“保存的数据集”下的工作区中使用。 可以在机器学习工作室(经典)中试验画布左侧的模块调色板中找到此项。 通过将其中的任何数据集拖放到实验画布中,即可在自己的实验中使用它们。

数据集

数据集名称 数据集说明
成年人口收入二元分类数据集 1994 年人口普查数据库的子集(其中在职人士年龄大于 16,调整后的收入指数大于 100)。

用途:使用人口统计信息对人员分类,预测某人的年收入是否超过 5 万。

相关研究:Kohavi, R.、Becker, B.(1996 年)。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。 加州大学欧文分校的信息与计算机科学学院
机场代码数据集 美国机场代码。

此数据集中的一行包含每一个美国机场,其中提供机场 ID 号和名称,以及所在位置的城市和州。
汽车价格数据(原始) 有关汽车品牌和型号的信息,包括价格、汽缸数和 MPG 等特性以及保险风险评分。

风险评分最初与自动定价关联。 然后,针对精算师所熟知符号化过程中的实际风险进行调整。 值为 +3 表明汽车存在风险,值为 -3 表明汽车可能安全。

用途:按特性、使用回归或多元分类预测风险评分。

相关研究:Schlimmer, J.C. (1987)。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。 加州大学欧文分校的信息与计算机科学学院
自行车租赁 UCI 数据集 UCI 自行车租赁数据集基于 Capital Bikeshare 公司的实际数据,该公司维护着美国华盛顿特区的自行车租赁网络。

该数据集中的一行对应于 2011 年和 2012 年中每一天的每个小时,总共 17,379 行。 每小时自行车租车数范围从 1 到 977。
Bill Gates RGB 图像 转换为 CSV 数据的公开可用的映像文件。

使用 K 平均值聚类的颜色量化模型详细信息页中提供了用于转换该图像的代码。
献血数据 来自台湾新竹市输血服务中心献血数据库的数据子集。

捐献者数据包括自上次捐献的时隔月数和频率,或捐献总数、自上次捐献的时隔时间和献血量。

用途:目标是通过分类预测 2007 年 3 月是否会有献血者,其中 1 表示目标期间有献血者,0 表示没有献血者。

相关研究:Yeh, I.C.(2008 年)。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。 加州大学欧文分校的信息与计算机科学学院

Yeh, I-Cheng, Yang, King-Jang, 和 Ting, Tao-Ming, “Knowledge discovery on RFM model using Bernoulli sequence”, 专家系统及其应用, 2008 年, https://dx.doi.org/10.1016/j.eswa.2008.07.018
乳腺癌数据 肿瘤学研究所提供的三个癌症相关数据集之一,经常出现在机器学习文献中。 将诊断信息与来自约 300 个组织样本的实验室分析的特征相结合。

用途:基于 9 种属性(其中有一些是线性的,一些是无条件的)对癌症类型分类。

相关研究:Wohlberg, W.H.、Street, W.N. 和 Mangasarian, O.L. (1995)。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。 加州大学欧文分校的信息与计算机科学学院
乳腺癌特征 数据集包含 X 射线图像的 102K 个可疑区域(候选)的信息,每个由 117 个特征描述。 这些特征是专有的,数据集创建者(即 Siemens Healthcare)不会透露其含义。
乳腺癌信息 数据集包含 X 射线图像的每个可疑区域的附加信息。 每个示例提供关于乳腺癌特征数据集中的相应行数的信息(例如,标签、患者 ID、相对于整个图像的贴片坐标)。 每位病人有许多示例。 对于患有癌症的患者,一些示例是积极的,一些示例是消极的。 对于未患癌症的患者,所有示例都是消极的。 数据集有 102K 个示例。 数据集有偏差,0.6% 的点为正,其余为负。 数据集由 Siemens Healthcare 提供。
共享的 CRM 亲和力标签 来自 KDD Cup 2009 客户关系预测挑战赛的标签 (orange_small_train_appetency.labels)。
共享的 CRM 流失情况标签 来自 KDD Cup 2009 客户关系预测挑战赛的标签 (orange_small_train_churn.labels)。
共享的 CRM 数据集 此数据来自 KDD Cup 2009 客户关系预测挑战赛 (orange_small_train.data.zip)。

数据集包含法国电信公司 Orange 的 50K 个客户。 每个客户都有 230 个匿名特征,其中 190 个是数字的,其余 40 个是分类的。 特征非常稀疏。
共享的 CRM 追加销售标签 来自 KDD Cup 2009 客户关系预测挑战赛的标签 (orange_large_train_upselling.labels)。
能效回归数据 模拟能量分布的集合,基于 12 种不同的建筑形状。 建筑通过 8 个特征区分。 这包括玻璃窗面积、玻璃窗面积分布和方向。

用途:使用回归或分类来预测基于两个实值响应之一的能效等级。 对于多类分类,将响应变量舍入为最接近的整数。

相关研究:Xifara, A. & Tsanas, A.(2012 年)。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。 加州大学欧文分校的信息与计算机科学学院
航班延误数据 从美国的 TranStats 数据收集中获得的客运航班正常率数据。交通部(准时)。

数据集涵盖 2013 年 4 月到 10 月的时间段。 在上传到机器学习工作室(经典)之前,数据集的处理如下所示:
  • 数据集经筛选,仅包含美国本土 70 个最繁忙的机场
  • 取消的航班标记为延误超过 15 分钟
  • 转机航班已筛选掉
  • 已选择以下各列:Year、Month、DayofMonth、DayOfWeek、Carrier、OriginAirportID、DestAirportID、CRSDepTime、DepDelay、DepDel15、CRSArrTime、ArrDelay、ArrDel15、Canceled
航班正常率(原始) 美国 2011 年 10 月航班到达和出发的记录。

用途:预测航班延误。

相关研究:https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time来自美国运输部
森林火灾数据 包含天气数据,如温度和湿度指数和风速。 该数据取自葡萄牙东北部地区,并包含森林火灾记录。

用途:这项回归任务非常难,其目的是预测森林火灾的焚毁面积。

相关研究:Cortez, P. 和 Morais, A.(2008 年)。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。 加州大学欧文分校的信息与计算机科学学院

[Cortez 和 Morais,2007 年] P. Cortez 和 A. Morais。 使用气象数据预测森林火灾的数据挖掘方法。 J. Neves、M. F. Santos 和 J. Machado 编辑,“人工智能新趋势”,2007 年第 13 届 EPIA 会议记录 - 有关人工智能的葡萄牙会议,2007 年 12 月,葡萄牙吉马良斯,第 512-523 页。 APPIA, ISBN-13 978-989-95618-0-9。 如需获取,请访问 http://www.dsi.uminho.pt/~pcortez/fires.pdf
德国信用卡 UCI 数据集 使用 german.data 文件的 UCI Statlog(德国信用卡)数据集 (Statlog+German+Credit+Data)。

数据集将用户(由一组属性描述)分为两类:低信用风险或高信用风险。 每个示例表示一位用户。 有 20 个特征,包括数值和分类,以及二进制标签(信用风险值)。 高信用风险条目具有标签 = 2,低信用风险条目具有标签 = 1。 将低风险示例错误分类为高的成本是 1,反之将高风险示例错误分类为低的成本是 5。
IMDB 电影标题 数据集包含 Twitter 推文中给电影评分的有关信息:IMDB 电影 ID、电影名称、风格和制作年份。 数据集中有 17K 个电影。 报告“S. Dooms、T. De Pessemier 和 L. Martens. MovieTweetings:从 Twitter 收集的电影评分数据集。 有关适用于推荐器系统 (CrowdRec at RecSys 2013) 的众包和人工计算研讨会。”中引用了该数据集。
鸢尾花双类数据 这可能是模式识别文献中最有名的数据库。 数据集相对较小,三种鸢尾花品种的每个花瓣测量均包含 50 个示例。

用途:通过测量值预测鸢尾花类型。

相关研究:Fisher, R.A. (1988)。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。 加州大学欧文分校的信息与计算机科学学院
电影推文 该数据集是电影迷你推文数据集的扩展版本。 数据集中具有 170K 个电影评分,从 Twitter 上结构良好的推文中提取。 每个实例表示一篇推文,是一个元组:用户 ID、IMDB 电影 ID、评分、时间戳、收藏此推文的数目和转发此推文的数目。 数据集由 A. Said、S. Dooms、B. Loni 和 D. Tikk 提供,用于 Recommender Systems Challenge 2014。
各种汽车的 MPG 数据 此数据集是美国卡内基梅隆大学的 StatLib 库提供的数据集略有修改的版本。 1983 年美国统计协会博览会使用过该数据集。

该数据列出各种汽车的油耗(以每加仑英里数为计量单位)。 还包括汽缸数、发动机排量、马力、总重量和加速性能等信息。

用途:基于 3 个多值离散属性和 5 个连续属性预测燃料经济性。

相关研究:StatLib,美国卡内基梅隆大学(1993 年)。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。 加州大学欧文分校的信息与计算机科学学院
皮马族印地安人糖尿病二元分类数据集 美国国家糖尿病、消化和肾脏疾病研究所数据库数据的一个子集。 数据集经筛选,重点研究皮马族印第安人后代的女性患者。 数据包括葡萄糖和胰岛素水平等医疗数据,以及生活方式因素。

用途:预测观察对象是否患有糖尿病(二元分类)。

相关研究:Sigillito, V.(1990 年)。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml"。 加州大学欧文分校的信息与计算机科学学院
餐馆客户数据 一组关于客户的元数据,其中包括人口统计信息和偏好。

用途:将此数据集与其他两个餐馆数据集结合使用,以便训练和测试推荐器系统。

相关研究:Bache, K. 和 Lichman, M.(2013 年)。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。 加州大学欧文分校的信息与计算机科学学院。
餐馆特色数据 一组关于餐馆及其特色的元数据,如食物种类、就餐样式和位置。

用途:将此数据集与其他两个餐馆数据集结合使用,以便训练和测试推荐器系统。

相关研究:Bache, K. 和 Lichman, M.(2013 年)。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。 加州大学欧文分校的信息与计算机科学学院。
餐馆评分 包含用户对餐馆的评分,分数范围从 0 到 2。

用途:将此数据集与其他两个餐馆数据集结合使用,以便训练和测试推荐器系统。

相关研究:Bache, K. 和 Lichman, M.(2013 年)。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。 加州大学欧文分校的信息与计算机科学学院。
钢退火多类数据集 该数据集包含钢退火实验的一系列记录。 它包含生成钢种的物理属性(宽度、厚度、类型(卷材、板材等))。

用途:预测两个数值类属性的任何一个:硬度或强度。 还可以分析这些属性之间的相关性。

钢种遵循由 SAE 和其他组织定义的一组标准。 正在寻找特定“种类”(类变量),并想要了解所需值。

相关研究:Sterling, D. 和 Buntine, W.(NA)。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。 加州大学欧文分校的信息与计算机科学学院

可访问此处获取有关钢等级的帮助指南:https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf
望远镜数据 高能量伽玛粒子爆发以及背景噪声的记录,两者都使用蒙特卡洛方法模拟。

该模拟的目的是提高路基 Cherenkov 大气伽玛望远镜的准确性。 这通过使用统计方法来区分所需信号(Cherenkov 辐射淋浴)和背景噪声(由上层大气中的宇宙射线引发的强子淋浴)实现。

已预处理数据,创建细长的群集,其中长轴朝向相机中心。 该椭圆的特征(通常称为 Hillas 参数)是可以用于辨别的图像参数。

用途:预测淋浴图像表示信号,还是表示背景噪声。

注意:简单的分类精度对于该数据没有意义,因为与将信号事件分类为背景相比,更糟糕的是将背景事件分类为信号。 为了比较不同的分类器,应当使用 ROC 图。 接受背景事件作为信号的概率必须低于以下阈值之一:0.01、0.02、0.05、0.1 或 0.2。

另请注意,背景事件的数目(h 表示强子淋浴)被低估。 在实际测量中,h 或噪声类代表大部分事件。

相关研究:Bock, R.K. (1995)。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。 加州大学欧文分校的信息学院
天气数据集 美国国家海洋和大气局每小时发布的陆基天气观测(从 201304 到 201310 的合并数据)。

该天气数据包括从机场气象站获取的观测结果,涵盖的时间段为 2013 年 4 月到 10 月。 在上传到机器学习工作室(经典)之前,数据集的处理如下所示:
  • 气象站 ID 已映射到相应的机场 ID
  • 与 70 个最繁忙的机场无关的气象站已筛选掉
  • Date 列已拆分为单独的 Year、Month 和 Day 列
  • 已选择以下各列:AirportID、Year、Month、Day、Time、TimeZone、SkyCondition、Visibility、WeatherType、DryBulbFarenheit、DryBulbCelsius、WetBulbFarenheit、WetBulbCelsius、DewPointFarenheit、DewPointCelsius、RelativeHumidity、WindSpeed、WindDirection、ValueForWindCharacter、StationPressure、PressureTendency、PressureChange、SeaLevelPressure、RecordType、HourlyPrecip、Altimeter
维基百科 SP 500 数据集 数据来自维基百科 (https://www.wikipedia.org/),基于每个标准普尔 500 强公司的文章,存储为 XML 数据。

在上传到机器学习工作室(经典)之前,数据集的处理如下所示:
  • 提取每个特定公司的文本内容
  • 去除维基百科的格式设置
  • 去除非字母数字字符
  • 将所有文本都转换为小写
  • 添加了已知的公司类别

请注意,可能找不到某些公司的文章,因此记录数小于 500。
direct_marketing.csv 数据集包含客户数据和有关其响应直接邮寄活动的迹象。 每一行表示一位客户。 数据集包含 9 个关于用户统计信息和过往行为的特征,以及 3 个标签列(访问、转化和支出)。 访问是一个二进制列,指示客户是在市场营销活动后访问的。 转化指示客户购买了物品。 支出为购物金额。 数据集由 Kevin Hillstrom 提供,用于 MineThatData E-Mail Analytics And Data Mining Challenge。
lyrl2004_tokens_test.csv RCV1-V2 路透社新闻数据集中测试示例的特征。 该数据集中具有 781K 个新闻文章及其 ID(数据集的第一列)。 每篇文章已经过标记化、设置了停用词和去除枝枝叶叶。 数据集由 David 提供。 D. Lewis。
lyrl2004_tokens_train.csv RCV1-V2 路透社新闻数据集中训练示例的特征。 该数据集中具有 23K 个新闻文章及其 ID(数据集的第一列)。 每篇文章已经过标记化、设置了停用词和去除枝枝叶叶。 数据集由 David 提供。 D. Lewis。
network_intrusion_detection.csv
来自 KDD Cup 1999 知识发现和数据挖掘工具竞赛 (kddcup99.html) 的数据集。

该数据集已下载并存储在 Azure Blob 存储 (network_intrusion_detection.csv) 中,包含训练和测试数据集。 训练数据集大约有 12.6 万行和 43 列,包括标签。 3 列是标签信息的组成部分,40 列由数字和字符串/分类特征组成,可用于训练模型。 测试数据具有大约 22.5K 个测试示例,具有与训练数据相同的 43 列。
rcv1-v2.topics.qrels.csv RCV1-V2 路透社新闻数据集中新闻文章的主题分配。 可以分配给新闻文章多个主题。 每行的格式为“<主题名称><文档 ID> 1”。 数据集包含 2.6M 个主题分配。 数据集由 David 提供。 D. Lewis。
student_performance.txt 此数据来自 KDD Cup 2010 学生成绩评估挑战赛(学生成绩评估)。 使用的数据为 Algebra_2008_2009 训练集,Stamper, J.、Niculescu-Mizil, A.、Ritter, S.、Gordon, G.J. 和 Koedinger, K.R. (2010)。 代数 I 2008-2009。 来自 KDD Cup 2010 教育数据挖掘挑战赛的挑战数据集。 可在 downloads.jsp 中找到该数据。

该数据集已下载并存储在 Azure Blob 存储 (student_performance.txt) 中,包含学生辅导系统中的日志文件。 提供的特征包含问题 ID 及其简要描述、学生 ID、时间戳以及学生在正确解决该问题之前尝试的次数。 原始数据集具有 890 万条记录,此数据集已降低取样为前 10 万行。 该数据集具有 23 个制表符分隔的各种类型的列:数值、分类和时间戳。

后续步骤