Преобразование в значения индикатора

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Преобразует категориальные значения в столбцах в значения индикатора.

Категория: Преобразование или управление данными

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается использование модуля преобразование в значения индикатора в Машинное обучение Studio (классическая модель). Этот модуль предназначен для преобразования столбцов, содержащих значения категорий, в ряд столбцов двоичных индикаторов, которые более легко использовать в качестве функций в модели машинного обучения.

Настройка преобразования в значения индикатора

  1. добавьте модуль преобразовать в значения индикатора в Машинное обучение эксперимент и подключите его к набору данных, содержащему столбцы, которые необходимо преобразовать. Этот модуль можно найти в разделе преобразования данныхв категории Управление .

  2. Используйте средство выбора столбцов, чтобы выбрать несколько категориальных столбцов.

    Чтобы выбранные столбцы были упорядочены по категориям, используйте команду изменить метаданные перед преобразованием в значения индикаторов в эксперименте, чтобы пометить целевой столбец как Категория.

  3. Выберите параметр Overwrite categorical columns (Перезаписать категориальные столбцы), чтобы вывести только новые логические столбцы.

    По умолчанию этот параметр отключен, что позволяет видеть столбец Категория, являющийся источником, вместе со связанными столбцами индикатора.

    Совет

    При выборе варианта перезаписи исходный столбец фактически не удаляется и не изменяется. Вместо этого создаются новые столбцы, которые и представляются в выходном наборе данных, а исходный столбец остается доступным в рабочей области. Если необходимо просмотреть исходные данные, можно в любое время использовать модуль Добавление столбцов, чтобы добавить исходный столбец обратно.

  4. Запустите эксперимент.

Результаты

Например, предположим, что имеется столбец с оценками, указывающий, имеет ли сервер высокую, среднюю или низкую вероятность сбоя.

Идентификатор сервера Показатель сбоя
10301 Низкий
10302 Средний
10303 Высокий

При применении Convert к значениям индикатораодин столбец меток преобразуется в несколько столбцов, содержащих логические значения:

Идентификатор сервера Показатель сбоя — низкий Показатель сбоя — средний Показатель сбоя — высокий
10301 1 0 0
10302 0 1 0
10303 0 0 1

Вот как работает преобразование:

  • В столбце Показатель сбоя, описывающем риск, существует только три возможных значения ("Высокий", "Средний" и "Низкий") и нет отсутствующих значений. Поэтому создаются ровно три новых столбца.

  • Имена новых столбцов индикаторов задаются на основе заголовков столбцов и значений исходного столбца с использованием этого шаблона: < Исходный столбец > — < значение > данных.

  • В одном столбце индикатора должно быть 1, а в других столбцах индикаторов — значение 0. Это связано с тем, что каждый сервер может иметь только одну оценку риска.

Теперь можно использовать три столбца индикаторов в качестве функций и анализировать их корреляцию с другими свойствами, связанными с другим уровнем риска.

Примеры

Примеры использования этого модуля см. в Коллекция решений ии Azure:

  • Обнаружение рака молочной железы: пациентов размещаются в группах на основе идентификационных номеров пациента, а значения индикаторов используются для отметки группы, к которой принадлежит пациент. Позже индикаторы групп используются для оценки моделей.

  • Прямой маркетинг: вероятности сравниваются с константой с помощью функции Apply Math, а значения Да/нет, которые показывают, была ли оценка выше или ниже константы, в новые столбцы индикаторов.

  • Обнаружение вторжений в сеть: данные журнала загружаются из службы хранилища Azure. Переменная класса (описывающая, например, тип атаки: пакет программ rootkit, переполнение буфера и т. д.) преобразуется в категориальный столбец и затем распространяется на несколько значений индикатора.

Технические примечания

В этом разделе содержатся сведения о реализации, советы и ответы на часто задаваемые вопросы.

Советы по использованию

  • Преобразовать в столбцы индикаторов можно только столбцы, помеченные как категориальные. Если вы видите эту ошибку, вероятно, что один из выбранных столбцов не относится к категории:

    Ошибка 0056: столбец с именем столбца > имени < не входит в допустимую категорию.

    По умолчанию большинство строковых столбцов обрабатываются как строковые функции, поэтому их необходимо явным образом пометить как категории с помощью команды " изменить метаданные".

  • Если не выбран хотя бы один столбец категории, отображается сообщение об ошибке.

  • Ограничения на количество столбцов, которые можно преобразовать в столбцы индикаторов, отсутствуют. Однако, поскольку каждый столбец значений может выдавать несколько столбцов индикатора, может потребоваться преобразовать и проверить всего несколько столбцов за раз.

  • Если столбец содержит отсутствующие значения, для отсутствующей категории создается отдельный столбец индикатора с таким именем: < Исходный столбец > -отсутствует

  • Если столбец, преобразуемый в значения индикатора, содержит числа, он должен быть помечен как категориальный, как и любые другие столбцы признаков. После этого числа рассматриваются как дискретные значения. Например, если имеется числовой столбец со значениями расхода топлива от 25 до 30, будет создан новый столбец индикаторов для каждого дискретного значения.

    Производитель Расход по трассе — 25 Расход по трассе — 26 Расход по трассе — 27 Расход по трассе — 28 Расход по трассе — 29 Расход по трассе — 30
    Alfa тексте пьесы Ромео 0 0 0 0 0 1

    Чтобы избежать получения огромного числа столбцов индикатора, рекомендуется сначала проверить количество значений в столбце, а также записать или квантуем данные соответствующим образом.

Ожидаемые входные данные

Имя Тип Описание
Dataset Таблица данных Набор данных с категориальными столбцами

Параметры модуля

Имя Диапазон Тип По умолчанию Описание
Категориальные столбцы для преобразования Любой Выбор столбцов Выберите категориальные столбцы для преобразования в матрицы индикатора.
Перезаписать категориальные столбцы Любой Логическое значение false Если значение true, перезаписать выбранные категориальные столбцы. В противном случае — добавить получившиеся матрицы индикаторов в набор данных.

Выходные данные

Имя Тип Описание
Набор данных результатов Таблица данных Набор данных с категориальными столбцами, преобразованными в матрицы индикаторов.

См. также раздел

Оперирование
Преобразование данных
Список модулей в алфавитном порядке