手动输入数据

重要

对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。

ML 工作室(经典)文档即将停用,将来可能不会更新。

启用通过键入值来输入和编辑小型数据集的功能

类别: 数据转换/操作

注意

适用于:机器学习 Studio (经典) 应用

可在 Azure 机器学习设计器中获取类似的拖放模块。

模块概述

本文介绍如何使用 机器学习 Studio (经典) 中的"手动输入数据"模块,通过键入值来创建小型数据集。 该数据集可以有多个列。

此模块可用于以下方案:

如何使用手动输入数据

  1. 将" 手动输入数据" 模块添加到试验。 可以在 机器学习 Studio (经典) 中的"数据输入和输出"类别中找到此) 。

  2. 对于“DataFormat” ,选择以下选项之一。 这些选项决定了应该如何分析你提供的数据。 每种格式的要求差别很大,因此请务必阅读相关主题。

    • ARFF。 Weka 使用的属性-关系文件格式。 有关详细信息,请参阅 转换为 ARFF

    • CSV。 逗号分隔值格式。 有关详细信息,请参阅转换为 CSV

    • SVMLight。 Vowpal Wabbit 和其他机器学习框架使用的一种格式。 有关详细信息,请参阅 转换为 SVMLight

    • TSV。 制表符分隔值格式。 有关详细信息,请参阅 转换为 TSV

    如果你选择了某种格式,但是未提供满足格式规范的数据,则会发生运行时错误。

  3. 在“数据” 文本框内单击以开始输入数据。 以下格式需要特别注意:

    • CSV:若要创建多个列,请粘贴逗号分隔的文本,或在字段之间使用逗号键入多个列。

      如果选择“HasHeader” 选项,则可以使用第一行值作为列标题。

      如果取消选择此选项,则使用列名称 Col1、Col2 等。 稍后可以使用编辑元数据来添加或更改列名。

    • TSV:若要创建多个列,请粘贴制表符分隔的文本,或者使用字段之间的选项卡键入多个列。

      如果选择“HasHeader” 选项,则可以使用第一行值作为列标题。

      如果取消选择此选项,则使用列名称 Col1、Col2 等。 稍后可以使用编辑元数据来添加或更改列名。

    • ARFF:粘贴现有的 ARFF 格式文件。 如果直接键入值,请确保在数据开头添加可选的标头和必需的属性字段。

      例如,可以将以下标题和属性行添加到一个简单列表中。 列标题将是 SampleText

      % Title: SampleText.ARFF  
      % Source: Enter Data module  
      @ATTRIBUTE SampleText STRING  
      @DATA  
      \<type first data row here>  
      
    • SVMLight:使用 SVMLight 格式键入或粘贴值。

      例如,下面的示例以 SVMight 格式表示 Blood Donation 数据集的前两行:

      # features are [Recency], [Frequency], [Monetary], [Time]  
      1 1:2 2:50 3:12500 4:98   
      1 1:0 2:13 3:3250 4:28   
      

      运行手动输入数据模块时,这些行将转换为列和索引值的数据集,如下所示:

      Col1 Col2 Col3 Col4 标签
      0.00016 0.004 0.999961 0.00784 1
      0 0.004 0.999955 0.008615 1
  4. 在每行后面按 Enter 键,以便另起一行。

    请确保在最后一行后按 ENTER 键。

    如果多次按 ENTER 键来添加多个空的尾随行,则会删除最后一个空行,但会将其他空行视为缺失值。

    如果创建包含缺失值的行,则稍后随时可以将其筛选出来。

  5. 右键单击该模块,然后选择“运行所选”以分析数据,并将其作为数据集加载到你的工作区中。

    若要查看数据集,请单击输出端口并选择“可视化”

示例

有关如何在机器学习中使用此模块的示例,请参阅以下 Azure AI 库

  • 下载数据示例:从 UCI 机器学习,然后使用"手动输入数据"创建列名。 还会提供示例 R 代码,可使用它来合并输入的行和数据集。

技术说明

本部分包含实现详情、使用技巧和常见问题解答。

  • 无论保存的格式如何,输入的数据都将隐式转换为数据集 (数据表) 用于 试验。 但是,除非显式选择"另存为数据集"选项,否则数据不会保留为保存 数据集。

    如果未在"手动 输入数据" 中将数据保存为数据集,则结束会话时,将从工作区缓存中删除该数据。 但是,可以再次运行试验,使数据可用。

  • 如果将"手动输入数据"中的数据与 一个数据集合并,则组合数据集不能有两个同名的列。 如果存在重复的列名,则向右侧数据集中的列追加一个数值后缀,使列名是唯一的。

    例如,假设你有两个包含 TestData 列的"手动输入数据"实例,并使用"添加列"模块来合并它们。 "手动输入数据"的左侧实例中的列将保留为 TestData,"手动输入数据"右侧实例中的列将重命名为 TestData (2)

另请参阅

数据输入和输出
A-Z 模块列表