Загрузка данных для обучения в построитель моделей

Сведения о том, как загружать наборы данных для обучения из файла или базы данных SQL Server для использования в одном из сценариев построителя моделей с помощью ML.NET. В сценариях построителя моделей в качестве данных для обучения можно использовать базы данных SQL Server, файлы изображений и форматы CSV или TSV.

Model Builder поддерживает только файлы TSV, CSV и TXT с разделением запятыми, знаками табуляции и точками с запятой, а также изображения PNG и JPG.

Сценарии построителя моделей

Построитель моделей позволяет создавать модели для следующих сценариев машинного обучения:

  • Классификация данных (двоичная и многоклассовая классификация): классификация текстовых данных по двум категориям или более.
  • Прогнозирование значений (регрессия): прогнозирование числового значения.
  • Классификация изображений (глубокое обучение): классификация изображений по двум категориям или более.
  • Рекомендация (рекомендация): создание списка предлагаемых элементов для конкретного пользователя.
  • Обнаружение объектов (глубокое обучение): обнаружение и определение объекта на изображениях. с возможностью добавления соответствующей метки.

В этой статье рассматриваются сценарии классификации и регрессии по текстовым или числовым данным, а также сценарии классификации изображений и обнаружения объектов.

Загрузка текстовых или числовых данных из файла

В построитель моделей можно загружать текстовые или числовые данные из файла. Он принимает текстовые форматы, в которых значения разделяются запятыми (CSV) или табуляциями (TSV).

  1. На этапе добавления данных в построителе моделей выберите Файл в качестве типа источника данных.

  2. Нажмите кнопку Обзор рядом с текстовым полем, а затем найдите и выберите в проводнике нужный файл данных.

  3. Выберите категорию в раскрывающемся списке Столбец для прогнозирования (метка).

    Примечание.

    (Необязательно) сценарии классификации данных: если тип данных столбца меток (значение в раскрывающемся списке "Столбец для прогнозирования (метка)" имеет значение Boolean (True/False), в конвейере обучения модели используется алгоритм двоичной классификации. В противном случае используется обучающий алгоритм многоклассовой классификации. Используйте Дополнительные параметры данных, чтобы изменить тип данных для столбца меток и сообщить Model Builder, какой тип обучающего алгоритма он должен использовать для ваших данных.

  4. Обновите данные в ссылке Дополнительные параметры данных, чтобы задать параметры столбцов или обновить форматирование данных.

На этом настройка файла источника данных для передачи в построитель моделей завершается. Нажмите кнопку Следующий шаг, чтобы перейти к следующему шагу в Model Builder.

Загрузка данных из базы данных SQL Server

Построитель моделей поддерживает загрузку данных из локальных и удаленных баз данных SQL Server.

Файл локальной базы данных

Чтобы загрузить данные из файла базы данных SQL Server в Model Builder, выполните приведенные ниже действия.

  1. На этапе добавления данных в Model Builder выберите в раскрывающемся списке источник данных SQL Server.

  2. Нажмите кнопку Выбрать источник данных.

    1. В диалоговом окне Выбор источника данных выберите Файл базы данных Microsoft SQL Server.
    2. Снимите флажок Всегда использовать этот вариант и щелкните Продолжить.
    3. В диалоговом окне Свойства подключения щелкните Обзор и выберите скачанный MDF-файл.
    4. Выберите ОК
  3. Выберите имя набора данных из раскрывающегося списка Имя таблицы.

  4. В раскрывающемся списке Столбец для прогнозирования (метка) выберите категорию данных, для которой вы намерены создать прогноз.

    Примечание.

    (Необязательно) сценарии классификации данных: если тип данных столбца меток (значение в раскрывающемся списке "Столбец для прогнозирования (метка)" имеет значение Boolean (True/False), в конвейере обучения модели используется алгоритм двоичной классификации. В противном случае используется обучающий алгоритм многоклассовой классификации. Используйте Дополнительные параметры данных, чтобы изменить тип данных для столбца меток и сообщить Model Builder, какой тип обучающего алгоритма он должен использовать для ваших данных.

  5. Обновите данные в ссылке Дополнительные параметры данных, чтобы задать параметры столбцов или обновить форматирование данных.

Удаленная база данных

Чтобы загрузить данные из подключения к базе данных SQL Server в Model Builder:

  1. На этапе добавления данных в Model Builder выберите в раскрывающемся списке источник данных SQL Server.

  2. Нажмите кнопку Выбрать источник данных.

    1. В диалоговом окне Выбор источника данных выберите Microsoft SQL Server.
  3. В диалоговом окне Свойства соединения введите свойства базы данных Microsoft SQL.

    1. Укажите имя сервера, на котором находится таблица, к которой необходимо подключиться.
    2. Настройте проверку подлинности на сервере. Если выбран вариант Проверка подлинности SQL Server, введите имя пользователя и пароль сервера.
    3. Выберите базу данных для подключения в раскрывающемся списке Выбор или ввод имени базы данных. Значение должно заполняться автоматически, если имя сервера и данные для входа указаны правильно.
    4. Выберите ОК
  4. Выберите имя набора данных из раскрывающегося списка Имя таблицы.

  5. В раскрывающемся списке Столбец для прогнозирования (метка) выберите категорию данных, для которой вы намерены создать прогноз.

    Примечание.

    (Необязательно) сценарии классификации данных: если тип данных столбца меток (значение в раскрывающемся списке "Столбец для прогнозирования (метка)" имеет значение Boolean (True/False), в конвейере обучения модели используется алгоритм двоичной классификации. В противном случае используется обучающий алгоритм многоклассовой классификации. Используйте Дополнительные параметры данных, чтобы изменить тип данных для столбца меток и сообщить Model Builder, какой тип обучающего алгоритма он должен использовать для ваших данных.

  6. Обновите данные в ссылке Дополнительные параметры данных, чтобы задать параметры столбцов или обновить форматирование данных.

На этом настройка файла источника данных для передачи в построитель моделей завершается. Щелкните ссылку Следующий шаг, чтобы перейти к следующему шагу в Model Builder.

Настройка файлов данных классификации изображений

Model Builder ожидает получить данные классификации изображений в формате файлов JPG или PNG, упорядоченных в папки с именами категорий классификации.

Чтобы загрузить изображения в построитель моделей, укажите путь к одному каталогу верхнего уровня:

  • Этот каталог верхнего уровня должен содержать по одной вложенной папке для каждой из прогнозируемых категорий.
  • Каждая вложенная папка содержит файлы изображений, относящиеся к соответствующей категории.

В представленной ниже структуре папок на верхнем уровне расположен каталог flower_photos. В нем есть пять подкаталогов, которые соответствуют категориям для прогнозирования: daisy, dandelion, roses, sunflowers и tulips. Каждый из этих подкаталогов содержит изображения соответствующей категории.

\---flower_photos
    +---daisy
    |       100080576_f52e8ee070_n.jpg
    |       102841525_bd6628ae3c.jpg
    |       105806915_a9c13e2106_n.jpg
    |
    +---dandelion
    |       10443973_aeb97513fc_m.jpg
    |       10683189_bd6e371b97.jpg
    |       10919961_0af657c4e8.jpg
    |
    +---roses
    |       102501987_3cdb8e5394_n.jpg
    |       110472418_87b6a3aa98_m.jpg
    |       118974357_0faa23cce9_n.jpg
    |
    +---sunflowers
    |       127192624_afa3d9cb84.jpg
    |       145303599_2627e23815_n.jpg
    |       147804446_ef9244c8ce_m.jpg
    |
    \---tulips
            100930342_92e8746431_n.jpg
            107693873_86021ac4ea_n.jpg
            10791227_7168491604.jpg

Настройка файлов данных изображений для обнаружения объектов

Model Builder поддерживает данные изображений для обнаружения объектов в формате JSON, созданном с помощью средства VoTT. Файл JSON находится в папке vott-json-export в целевом расположении, указанном в параметрах проекта.

Файл JSON состоит из следующих сведений, созданных с помощью средства VoTT:

  • все созданные теги;
  • расположения файла изображения;
  • сведения об ограничивающем прямоугольнике изображения;
  • тег, связанный с изображением.

Дополнительные сведения о подготовке данных для обнаружения объектов см. в статье Создание данных обнаружения объектов с помощью средства VoTT.

Следующие шаги

В этих руководствах вы найдете процедуры, позволяющие создать приложения машинного обучения с помощью построителя моделей:

Если вы обучаете модель с помощью кода, узнайте, как загружать данные с помощью API-интерфейса ML.NET.