Ввод данных вручную

Позволяет вводить и изменять небольшие наборы данных путем ввода значений

Категория: Преобразование или управление данными

Примечание

Применимо к: машинное обучение Studio (классическая модель)

Это содержимое относится только к Studio (классическая модель). Аналогичные модули перетаскивания были добавлены в конструктор Машинное обучение Azure. Дополнительные сведения см. в статье сравнение двух версий.

Обзор модуля

В этой статье описывается, как использовать модуль ввода данных вручную в машинное обучение Azure Studio (классическая модель) для создания небольшого набора данных путем ввода значений. Набор данных может иметь несколько столбцов.

Этот модуль может быть полезен в таких сценариях:

  • Создание небольшого набора значений для тестирования

  • Создание короткого списка меток

  • Ввод значений для использования в операции Apply Math

  • Указание замещающих значений для использования в замене дискретных значений

  • ввод списка имен столбцов для вставки в набор данных.

Как использовать ввод данных вручную

  1. Добавьте модуль введите данные вручную в эксперимент. Этот модуль можно найти в категории Ввод и вывод данных в машинное обучение Azure Studio (классическая модель).

  2. Для параметра Формат данных выберите один из следующих параметров. Эти параметры определяют, как должны анализироваться предоставленные данные. Требования к каждому формату значительно различаются, поэтому обязательно ознакомьтесь со связанными статьями.

    • ARFF. Формат файла связи атрибутов, используемый weka. Дополнительные сведения см. в разделе Convert to ARFF.

    • CSV-файл. Формат значений с разделителями-запятыми. Дополнительные сведения см. в разделе Convert to CSV.

    • SVMLight. Формат, используемый Vowpal Wabbit и другими платформами машинного обучения. Дополнительные сведения см. в разделе Convert to SVMLight.

    • TSV. Формат значений, разделенных табуляцией. Дополнительные сведения см. в разделе Convert to TSV.

    Если выбрать формат и не предоставить данные, соответствующие спецификациям формата, возникает ошибка времени выполнения.

  3. Щелкните внутри текстового поля данных , чтобы начать ввод данных. Для следующих форматов требуется особое внимание:

    • CSV: чтобы создать несколько столбцов, вставьте текст с разделителями-запятыми или введите несколько столбцов, используя запятые между полями.

      Если выбран параметр хашеадер , то в качестве заголовка столбца можно использовать первую строку значений.

      Если отменить выбор этого параметра, будут использоваться имена столбцов, col1, col2 и т. д. Вы можете добавить или изменить имена столбцов позже с помощью команды изменить метаданные.

    • TSV: чтобы создать несколько столбцов, вставьте текст, разделенный символами табуляции, или введите несколько столбцов с помощью вкладок между полями.

      Если выбран параметр хашеадер , то в качестве заголовка столбца можно использовать первую строку значений.

      Если отменить выбор этого параметра, будут использоваться имена столбцов, col1, col2 и т. д. Вы можете добавить или изменить имена столбцов позже с помощью команды изменить метаданные.

    • ARFF: вставьте существующий файл форматирования ARFF. При вводе значений напрямую не забудьте добавить обязательные поля Заголовок и обязательные атрибуты в начале данных.

      Например, в простой список можно добавить следующие строки заголовка и атрибутов. Заголовок столбца будет иметь вид SampleText .

      % Title: SampleText.ARFF  
      % Source: Enter Data module  
      @ATTRIBUTE SampleText STRING  
      @DATA  
      \<type first data row here>  
      
    • SVMLight: введите или вставьте значения, используя формат SVMLight.

      Например, следующий пример представляет первые пары строк набора данных о пожертвовании крови в формате Свмигхт:

      # features are [Recency], [Frequency], [Monetary], [Time]  
      1 1:2 2:50 3:12500 4:98   
      1 1:0 2:13 3:3250 4:28   
      

      При запуске модуля Ввод данных вручную эти строки преобразуются в набор данных столбцов и значений индекса следующим образом:

      Col1 Col2 Col3 Col4 Метки
      0,00016 0,004 0,999961 0,00784 1
      0 0,004 0,999955 0,008615 1
  4. Нажмите клавишу ВВОД после каждой строки, чтобы начать новую строку.

    Не забудьте нажать клавишу ВВОД после последней строки.

    Если нажать клавишу ВВОД несколько раз, чтобы добавить несколько пустых конечных строк, то окончательная пустая строка удаляется без усечения, но другие пустые строки обрабатываются как отсутствующие значения.

    Если вы создаете строки с отсутствующими значениями, их всегда можно отфильтровать позже.

  5. Щелкните модуль правой кнопкой мыши и выберите команду Выполнить выбранное , чтобы выполнить синтаксический анализ данных и загрузить их в рабочую область в виде набора данных.

    Чтобы просмотреть набор данных, щелкните порт вывода и выберите визуализировать.

Примеры

Примеры использования этого модуля в машинном обучении см. в Коллекция решений ии Azure:

  • Пример загрузки данных: получает данные из репозитория UCI машинное обучение, а затем использует Ввод данных вручную для создания имен столбцов. Кроме того, предоставляется пример кода R, который можно использовать для слияния введенных строк с набором данных.

Технические примечания

В этом разделе содержатся сведения о реализации, советы и ответы на часто задаваемые вопросы.

  • Независимо от сохраненного формата введенные данные неявно преобразуются в формат набора данных (таблицы данных) для использования в экспериментах. Однако данные не сохраняются в виде сохраненного набора данных, если только вы не выбрали явно параметр Сохранить как набор данных .

    Если вы не сохраняете данные в поле Ввод данных вручную в качестве набора данных, они удаляются из кэша рабочей области при завершении сеанса. Однако вы можете снова запустить эксперимент, чтобы сделать данные доступными.

  • Если объединить данные из ввода данных вручную с помощью другого набора данных, то Объединенный набор данных не сможет содержать два столбца с одинаковым именем. При наличии повторяющихся имен столбцов к столбцу из правого набора данных добавляется числовой суффикс, чтобы имена столбцов были уникальными.

    Например, предположим, что имеется два экземпляра, которые вводят данные вручную , которые содержат TestData столбца, и используют модуль Добавить столбцы для их объединения. Столбец из левого экземпляра введите данные вручную , так как он будет храниться в виде TestData, а столбец из нужного экземпляра введите данные вручную , будет переименован как TestData (2).

См. также

Входные и выходные данные
Список модулей в алфавитном порядке