Преобразование в значения индикатора

Преобразует категориальные значения в столбцах в значения индикатора.

Категория: Преобразование или управление данными

Примечание

Применимо к: машинное обучение Studio (классическая модель)

Это содержимое относится только к Studio (классическая модель). Аналогичные модули перетаскивания были добавлены в конструктор Машинное обучение Azure. Дополнительные сведения см. в статье сравнение двух версий.

Обзор модуля

В этой статье описывается использование модуля Преобразование в значения индикатора в машинное обучение Azure Studio (классическая модель). Этот модуль предназначен для преобразования столбцов, содержащих значения категорий, в ряд столбцов двоичных индикаторов, которые более легко использовать в качестве функций в модели машинного обучения.

Настройка преобразования в значения индикатора

  1. Добавьте модуль преобразовать в значения индикатора в машинное обучение Azure эксперимент и подключите его к набору данных, содержащему столбцы, которые необходимо преобразовать. Этот модуль можно найти в разделе преобразования данных в категории Управление .

  2. Используйте средство выбора столбцов, чтобы выбрать несколько категориальных столбцов.

    Чтобы выбранные столбцы были упорядочены по категориям, используйте команду изменить метаданные перед преобразованием в значения индикаторов в эксперименте, чтобы пометить целевой столбец как Категория.

  3. Если требуется выводить только новые логические столбцы, выберите параметр Перезаписать столбцы по категориям .

    По умолчанию этот параметр отключен, что позволяет видеть столбец Категория, являющийся источником, вместе со связанными столбцами индикатора.

    Совет

    При выборе варианта перезаписи исходный столбец фактически не удаляется и не изменяется. Вместо этого новые столбцы создаются и представлены в выходном наборе данных, а исходный столбец остается доступным в рабочей области. Если необходимо просмотреть исходные данные, можно в любое время использовать модуль Добавить столбцы , чтобы добавить исходный столбец обратно.

  4. Запустите эксперимент.

Результаты

Например, предположим, что имеется столбец с оценками, указывающий, имеет ли сервер высокую, среднюю или низкую вероятность сбоя.

Идентификатор сервера Оценка сбоя
10301 Низкий
10302 Средний
10303 Высокий

При применении Convert к значениям индикатораодин столбец меток преобразуется в несколько столбцов, содержащих логические значения:

Идентификатор сервера Показатель сбоя-низкий Оценка сбоя — средний Показатель сбоя — высокий
10301 1 0 0
10302 0 1 0
10303 0 0 1

Вот как работает преобразование:

  • В столбце " показатель сбоя ", описывающем риск, существует только три возможных значения ("высокий", "средний" и "низкий") и отсутствующие значения. Поэтому создаются ровно три новых столбца.

  • Имена новых столбцов индикаторов задаются на основе заголовков столбцов и значений исходного столбца с использованием этого шаблона: <source column>- <data value> .

  • В одном столбце индикатора должно быть 1, а в других столбцах индикаторов — значение 0. Это связано с тем, что каждый сервер может иметь только одну оценку риска.

Теперь можно использовать три столбца индикаторов в качестве функций и анализировать их корреляцию с другими свойствами, связанными с другим уровнем риска.

Примеры

Примеры использования этого модуля см. в Коллекция решений ии Azure:

  • Обнаружение рака молочной железы: пациентов размещаются в группах на основе идентификационных номеров пациента, а значения индикаторов используются для отметки группы, к которой принадлежит пациент. Позже индикаторы групп используются для оценки моделей.

  • Прямой маркетинг: вероятности сравниваются с константой с помощью функции Apply Math, а значения Да/нет, которые показывают, была ли оценка выше или ниже константы, в новые столбцы индикаторов.

  • Обнаружение вторжений в сеть: данные журнала загружаются из службы хранилища Azure. Переменная класса (описывающая, например, тип атаки: пакет программ rootkit, переполнение буфера и т. д.) преобразуется в категориальный столбец и затем распространяется на несколько значений индикатора.

Технические примечания

В этом разделе содержатся сведения о реализации, советы и ответы на часто задаваемые вопросы.

Советы по использованию

  • Преобразовать в столбцы индикаторов можно только столбцы, помеченные как категориальные. Если вы видите эту ошибку, вероятно, что один из выбранных столбцов не относится к категории:

    Ошибка 0056: столбец с именем <column name> не входит в допустимую категорию.

    По умолчанию большинство строковых столбцов обрабатываются как строковые функции, поэтому их необходимо явным образом пометить как категории с помощью команды " изменить метаданные".

  • Если не выбран хотя бы один столбец категории, отображается сообщение об ошибке.

  • Ограничения на количество столбцов, которые можно преобразовать в столбцы индикаторов, не существует. Однако, поскольку каждый столбец значений может выдавать несколько столбцов индикатора, может потребоваться преобразовать и проверить всего несколько столбцов за раз.

  • Если столбец содержит отсутствующие значения, для отсутствующей категории создается отдельный столбец индикатора с таким именем: <source column> -Missing

  • Если столбец, преобразуемый в значения индикатора, содержит числа, они должны быть помечены как категории по категориям, как и любые другие столбцы функций. После этого числа рассматриваются как дискретные значения. Например, если имеется числовой столбец со значениями MPG от 25 до 30, для каждого дискретного значения будет создан новый столбец индикаторов:

    Производитель Магистраль MPG-25 Магистраль MPG-26 Магистраль MPG-27 Магистраль MPG-28 Магистраль MPG-29 Несамостоятельный MPG-30
    Alfa тексте пьесы Ромео 0 0 0 0 0 1

    Чтобы избежать получения огромного числа столбцов индикатора, рекомендуется сначала проверить количество значений в столбце, а также записать или квантуем данные соответствующим образом.

Ожидаемые входные данные

Имя Type Описание
Набор данных Таблица данных Набор данных с категориальными столбцами

Параметры модуля

Имя Диапазон Тип По умолчанию Описание
Категориальные столбцы для преобразования Любой Выбор столбцов Выберите категориальные столбцы для преобразования в матрицы индикатора.
Перезаписать категориальные столбцы Любой Логическое false Если значение true, перезаписать выбранные категориальные столбцы. В противном случае — добавить получившиеся матрицы индикаторов в набор данных.

Выходные данные

Имя Type Описание
Набор данных результатов Таблица данных Набор данных с категориальными столбцами, преобразованными в матрицы индикаторов.

См. также

Управлять
Преобразование данных
Список модулей в алфавитном порядке