Компонент "Ввод данных вручную"
В этой статье описывается компонент в конструкторе Машинного обучения Azure.
Используйте компонент Ввод данных вручную, чтобы создать небольшой набор из введенных вручную данных. В наборе данных может быть несколько столбцов.
Этот компонент может быть полезным в следующих сценариях:
- создание небольшого набора значений для тестирования;
- создание короткого списка меток;
- ввод списка имен столбцов для вставки в набор данных.
Создание набора данных
Добавьте компонент Ввод данных вручную в конвейер. Вы можете найти компонент в категории Ввод и вывод данных в Машинном обучение Azure.
Для DataFormat выберите один из следующих вариантов. Это варианты анализа предоставленных данных. Требования к каждому формату значительно различаются, поэтому обязательно внимательно их изучите.
- ARFF: формат файла связи атрибутов, используемый Weka.
- CSV: формат с разделителями-запятыми. Дополнительные сведения см. в статье Преобразование в CSV-файл.
- SVMLight: формат, используемый Vowpal Wabbit и другими платформами машинного обучения.
- TSV: формат значений, разделенных знаками табуляции.
Если выбрать формат и предоставить данные, не соответствующие его спецификациям, то во время выполнения возникнет ошибка.
Щелкните внутри текстового поля Данные, чтобы начать ввод данных. Следующие форматы требуют особого внимания:
CSV: чтобы создать несколько столбцов, вставьте текст с разделителями-запятыми или введите несколько столбцов, отделив поля запятыми.
Если установлен флажок HasHeader, то в качестве заголовка столбца можно использовать первую строку значений.
Если снять этот флажок, будут использоваться следующие имена столбцов (Col1, Col2 и т. д.). Имена столбцов можно добавить или изменить позже с помощью функции Изменение метаданных.
TSV: чтобы создать несколько столбцов, вставьте текст с разделителями-табуляторами или введите несколько столбцов, отделив поля знаками табуляции.
Если установлен флажок HasHeader, то в качестве заголовка столбца можно использовать первую строку значений.
Если снять этот флажок, будут использоваться следующие имена столбцов (Col1, Col2 и т. д.). Имена столбцов можно добавить или изменить позже с помощью функции Изменение метаданных.
ARFF: вставьте существующий файл формата ARFF. Если вы вводите значения напрямую, не забудьте добавить в начало данных обязательные атрибутов или необязательный заголовок.
Например, в простой список можно добавить следующие строки заголовка и атрибутов. Заголовок столбца —
SampleText
. Учтите, что тип String не поддерживается.% Title: SampleText.ARFF % Source: Enter Data component @ATTRIBUTE SampleText NUMERIC @DATA \<type first data row here>
SVMLight: введите или вставьте значения с помощью формата SVMLight.
Например, в следующем примере показаны первые несколько строк набора данных о донорстве крови в формате SVMLight:
# features are [Recency], [Frequency], [Monetary], [Time] 1 1:2 2:50 3:12500 4:98 1 1:0 2:13 3:3250 4:28
При запуске компонента Ввод данных вручную эти строки преобразуются в набор данных столбцов и значений индекса следующим образом:
Col1 Col2 Col3 Col4 Метки 0,00016 0,004 0,999961 0,00784 1 0 0,004 0,999955 0,008615 1
Нажимайте клавишу ВВОД после каждой строки, чтобы начать новую строку.
Если клавишу ВВОД нажать несколько раз, чтобы добавить несколько конечных строк, то пустые строки будут удалены или обрезаны.
Строки с отсутствующими значениями всегда можно отфильтровать позже.
Подключите выходной порт к другим компонентам и запустите конвейер.
Чтобы просмотреть набор данных, щелкните компонент правой кнопкой мыши и выберите команду Визуализировать.
Следующие шаги
Ознакомьтесь с набором доступных компонентов для Машинного обучения Azure.