Компонент "Ввод данных вручную"

В этой статье описывается компонент в конструкторе Машинного обучения Azure.

Используйте компонент Ввод данных вручную, чтобы создать небольшой набор из введенных вручную данных. В наборе данных может быть несколько столбцов.

Этот компонент может быть полезным в следующих сценариях:

  • создание небольшого набора значений для тестирования;
  • создание короткого списка меток;
  • ввод списка имен столбцов для вставки в набор данных.

Создание набора данных

  1. Добавьте компонент Ввод данных вручную в конвейер. Вы можете найти компонент в категории Ввод и вывод данных в Машинном обучение Azure.

  2. Для DataFormat выберите один из следующих вариантов. Это варианты анализа предоставленных данных. Требования к каждому формату значительно различаются, поэтому обязательно внимательно их изучите.

    • ARFF: формат файла связи атрибутов, используемый Weka.
    • CSV: формат с разделителями-запятыми. Дополнительные сведения см. в статье Преобразование в CSV-файл.
    • SVMLight: формат, используемый Vowpal Wabbit и другими платформами машинного обучения.
    • TSV: формат значений, разделенных знаками табуляции.

    Если выбрать формат и предоставить данные, не соответствующие его спецификациям, то во время выполнения возникнет ошибка.

  3. Щелкните внутри текстового поля Данные, чтобы начать ввод данных. Следующие форматы требуют особого внимания:

    • CSV: чтобы создать несколько столбцов, вставьте текст с разделителями-запятыми или введите несколько столбцов, отделив поля запятыми.

      Если установлен флажок HasHeader, то в качестве заголовка столбца можно использовать первую строку значений.

      Если снять этот флажок, будут использоваться следующие имена столбцов (Col1, Col2 и т. д.). Имена столбцов можно добавить или изменить позже с помощью функции Изменение метаданных.

    • TSV: чтобы создать несколько столбцов, вставьте текст с разделителями-табуляторами или введите несколько столбцов, отделив поля знаками табуляции.

      Если установлен флажок HasHeader, то в качестве заголовка столбца можно использовать первую строку значений.

      Если снять этот флажок, будут использоваться следующие имена столбцов (Col1, Col2 и т. д.). Имена столбцов можно добавить или изменить позже с помощью функции Изменение метаданных.

    • ARFF: вставьте существующий файл формата ARFF. Если вы вводите значения напрямую, не забудьте добавить в начало данных обязательные атрибутов или необязательный заголовок.

      Например, в простой список можно добавить следующие строки заголовка и атрибутов. Заголовок столбца — SampleText. Учтите, что тип String не поддерживается.

      % Title: SampleText.ARFF  
      % Source: Enter Data component  
      @ATTRIBUTE SampleText NUMERIC  
      @DATA  
      \<type first data row here>  
      
    • SVMLight: введите или вставьте значения с помощью формата SVMLight.

      Например, в следующем примере показаны первые несколько строк набора данных о донорстве крови в формате SVMLight:

      # features are [Recency], [Frequency], [Monetary], [Time]  
      1 1:2 2:50 3:12500 4:98   
      1 1:0 2:13 3:3250 4:28   
      

      При запуске компонента Ввод данных вручную эти строки преобразуются в набор данных столбцов и значений индекса следующим образом:

      Col1 Col2 Col3 Col4 Метки
      0,00016 0,004 0,999961 0,00784 1
      0 0,004 0,999955 0,008615 1
  4. Нажимайте клавишу ВВОД после каждой строки, чтобы начать новую строку.

    Если клавишу ВВОД нажать несколько раз, чтобы добавить несколько конечных строк, то пустые строки будут удалены или обрезаны.

    Строки с отсутствующими значениями всегда можно отфильтровать позже.

  5. Подключите выходной порт к другим компонентам и запустите конвейер.

    Чтобы просмотреть набор данных, щелкните компонент правой кнопкой мыши и выберите команду Визуализировать.

Следующие шаги

Ознакомьтесь с набором доступных компонентов для Машинного обучения Azure.