Ввод данных вручную

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Позволяет вводить и изменять небольшие наборы данных путем ввода значений

Категория: Преобразование или управление данными

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается, как использовать модуль ввода данных вручную в Машинное обучение Studio (классическая модель) для создания небольшого набора данных путем ввода значений. В наборе данных может быть несколько столбцов.

Этот модуль может быть полезен в таких сценариях:

  • Создание небольшого набора значений для тестирования

  • Создание короткого списка меток

  • Ввод значений для использования в операции Apply Math

  • Указание замещающих значений для использования в замене дискретных значений

  • ввод списка имен столбцов для вставки в набор данных.

Как использовать ввод данных вручную

  1. Добавьте модуль введите данные вручную в эксперимент. этот модуль можно найти в категории ввод и вывод данных в Машинное обучение Studio (классическая модель).

  2. Для DataFormat выберите один из следующих вариантов. Это варианты анализа предоставленных данных. Требования к каждому формату значительно различаются, поэтому обязательно внимательно их изучите.

    • ARFF. Формат файла связи атрибутов, используемый weka. Дополнительные сведения см. в разделе Convert to ARFF.

    • CSV-файл. Формат значений с разделителями-запятыми. Дополнительные сведения см. в статье Преобразование в CSV-файл.

    • SVMLight. Формат, используемый Vowpal Wabbit и другими платформами машинного обучения. Дополнительные сведения см. в разделе Convert to SVMLight.

    • TSV. Формат значений, разделенных табуляцией. Дополнительные сведения см. в разделе Convert to TSV.

    Если выбрать формат и не предоставить данные, соответствующие спецификациям формата, возникает ошибка времени выполнения.

  3. Щелкните внутри текстового поля Данные, чтобы начать ввод данных. Следующие форматы требуют особого внимания:

    • CSV: чтобы создать несколько столбцов, вставьте текст с разделителями-запятыми или введите несколько столбцов, используя запятые между полями.

      Если установлен флажок HasHeader, то в качестве заголовка столбца можно использовать первую строку значений.

      Если отменить выбор этого параметра, будут использоваться имена столбцов, col1, col2 и т. д. Вы можете добавить или изменить имена столбцов позже с помощью команды изменить метаданные.

    • TSV: чтобы создать несколько столбцов, вставьте текст, разделенный символами табуляции, или введите несколько столбцов с помощью вкладок между полями.

      Если установлен флажок HasHeader, то в качестве заголовка столбца можно использовать первую строку значений.

      Если отменить выбор этого параметра, будут использоваться имена столбцов, col1, col2 и т. д. Вы можете добавить или изменить имена столбцов позже с помощью команды изменить метаданные.

    • ARFF: вставьте существующий файл формата ARFF. При вводе значений напрямую не забудьте добавить обязательные поля Заголовок и обязательные атрибуты в начале данных.

      Например, в простой список можно добавить следующие строки заголовка и атрибутов. Заголовок столбца — SampleText.

      % Title: SampleText.ARFF  
      % Source: Enter Data module  
      @ATTRIBUTE SampleText STRING  
      @DATA  
      \<type first data row here>  
      
    • SVMLight: введите или вставьте значения, используя формат SVMLight.

      Например, следующий пример представляет первые пары строк набора данных о пожертвовании крови в формате Свмигхт:

      # features are [Recency], [Frequency], [Monetary], [Time]  
      1 1:2 2:50 3:12500 4:98   
      1 1:0 2:13 3:3250 4:28   
      

      При запуске модуля Ввод данных вручную эти строки преобразуются в набор данных столбцов и значений индекса следующим образом:

      Col1 Col2 Col3 Col4 Метки
      0,00016 0,004 0,999961 0,00784 1
      0 0,004 0,999955 0,008615 1
  4. Нажмите клавишу ВВОД после каждой строки, чтобы начать новую строку.

    Не забудьте нажать клавишу ВВОД после последней строки.

    Если нажать клавишу ВВОД несколько раз, чтобы добавить несколько пустых конечных строк, то окончательная пустая строка удаляется без усечения, но другие пустые строки обрабатываются как отсутствующие значения.

    Строки с отсутствующими значениями всегда можно отфильтровать позже.

  5. Щелкните модуль правой кнопкой мыши и выберите команду Выполнить выбранное , чтобы выполнить синтаксический анализ данных и загрузить их в рабочую область в виде набора данных.

    Чтобы просмотреть набор данных, щелкните порт вывода и выберите визуализировать.

Примеры

Примеры использования этого модуля в машинном обучении см. в Коллекция решений ии Azure:

  • пример загрузки данных: получает данные из репозитория UCI Машинное обучение, а затем использует ввод данных вручную для создания имен столбцов. Кроме того, предоставляется пример кода R, который можно использовать для слияния введенных строк с набором данных.

Технические примечания

В этом разделе содержатся сведения и советы относительно реализации, а также ответы на часто задаваемые вопросы.

  • Независимо от сохраненного формата введенные данные неявно преобразуются в формат набора данных (таблицы данных) для использования в экспериментах. Однако данные не сохраняются в виде сохраненного набора данных, если только вы не выбрали явно параметр Сохранить как набор данных .

    Если вы не сохраняете данные в поле Ввод данных вручную в качестве набора данных, они удаляются из кэша рабочей области при завершении сеанса. Однако вы можете снова запустить эксперимент, чтобы сделать данные доступными.

  • Если объединить данные из ввода данных вручную с помощью другого набора данных, то Объединенный набор данных не сможет содержать два столбца с одинаковым именем. При наличии повторяющихся имен столбцов к столбцу из правого набора данных добавляется числовой суффикс, чтобы имена столбцов были уникальными.

    Например, предположим, что имеется два экземпляра, которые вводят данные вручную , которые содержат TestDataстолбца, и используют модуль Добавить столбцы для их объединения. Столбец из левого экземпляра введите данные вручную , так как он будет храниться в виде TestData, а столбец из нужного экземпляра введите данные вручную , будет переименован как TestData (2).

См. также раздел

Входные и выходные данные
Список модулей в алфавитном порядке