转换为 ARFF

重要

对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。

ML 工作室(经典)文档即将停用,将来可能不会更新。

将数据输入转换成 Weka 工具集使用的属性关系文件格式

类别: 数据格式转换

注意

适用于:机器学习 Studio (经典) 应用

可在 Azure 机器学习设计器中获取类似的拖放模块。

模块概述

本文介绍如何使用 机器学习 Studio (经典) 中的"转换为 ARFF"模块来转换数据集,并返回 Weka 工具集使用的属性关系文件格式。 此格式称为 ARFF。

Weka 的 ARFF 数据规范支持多个机器学习任务,包括数据预处理、分类和特征选择。 在此格式中,数据按特征及其属性进行组织,并包含在单个文本文件中。 可以在"技术说明"部分找到 Weka 文件格式 的详细信息。

一般情况下,只有在同时使用 机器学习 和 Weka,并且想要在两者之间来回移动训练数据时,才需要转换为 Weka 文件格式。

有关 Weka 工具集的信息,请参阅维基百科文章: Weka (机器学习)

警告

你无法覆盖 Azure 存储中的现有 ARFF 文件。

如何使用转换为 ARFF

  1. "转换为 ARFF" 模块添加到试验。 可以在 机器学习 Studio (经典) 的数据格式转换类别中找到此模块。

  2. 将它连接到可以输出数据集的任何模块。

  3. 运行试验,或单击" 转换为 ARFF"模块 ,然后单击"运行 所选项"

结果

  • 若要在本地文件夹中创建数据副本,请双击"转换为 ARFF"的输出,然后选择"下载 " 选项。

    如果未指定文件夹,则应用默认文件名,文件保存在本地 下载库中

注意

此模块不支持导出到 Python 或 R 代码。

示例

在示例中没有特定于此格式 Azure AI 库。 但是,这些试验演示了其他类型的格式转换:

  • 基于颜色的图像压缩:将分析的每个部分使用的数据集导出到文件中,以在其他分析平台上重现和使用。

  • 二元分类的交叉验证示例:将交叉验证的结果导出到文件,以便可以使用工具(如 Excel)比较多个模型的结果。

技术说明

本部分包含实现详情、使用技巧和常见问题解答。

ARFF 格式示例

本部分提供一个示例,说明在转换为 ARFF 时,典型数据集的外观。

通常,ARFF 数据文件由两个部分组成:定义数据源和架构的标头,以及包含实际实体及其属性的数据部分。

ARFF 标头

ARFF 文件的 标头定义属性列表 (列及其) 列中。 描述数据源的多个注释行或任何其他说明,还可以包含标头。

% Source: Iris dataset, UCI % 0 = Iris-setosa, 1= Iris-virginica @RELATION iris @ATTRIBUTE sepal_length NUMERIC @ATTRIBUTE sepal_width NUMERIC @ATTRIBUTE petal_length NUMERIC @ATTRIBUTE petal_width NUMERIC @ATTRIBUTE class {0, 1}

提示

如果要转换的数据集没有列名,则使用"编辑元数据"模块在将 转换为 ARFF 之前添加列名。

ARFF 数据

数据部分由逗号分隔值组成,非常类似于不带列标题的 CSV 文件。

@DATA 5.1,3.5,1.4,0.2,0

有关此文件格式的其他信息,请参阅 Weka Wiki 页: ARFF (开发人员版本)

当前 ARFF 版本

机器学习 Studio (经典) ARFF 3.0 格式保存 ARFF 文件。

预期输入

名称 类型 说明
数据集 数据表 输入数据集

Outputs

名称 类型 说明
结果数据集 Arff 输出数据集

另请参阅

数据格式转换
A-Z 模块列表