Выбор признаков с помощью фильтра

Статья
05/06/2019

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
См. дополнительные сведения о Машинном обучении Azure.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Определяет признаки в наборе данных с максимальной прогнозируемой мощностью

Категория: модули выбора компонентов

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается использование модуля выбора компонентов на основе фильтров в Машинное обучение Studio (классическая модель) для определения столбцов во входном наборе данных, имеющих наибольшую прогнозируемую мощность.

Как правило, Выбор компонентов относится к процессу применения статистических тестов к входным данным с учетом заданных выходных данных, чтобы определить, какие столбцы являются более прогнозируемыми для выходных данных. Модуль выбора компонентов на основе фильтров предоставляет несколько алгоритмов выбора компонентов, включая такие методы корреляции, как корреляции пирсонов или Кендалл, результаты взаимной информации и значения хи-квадрат. Машинное обучение также поддерживает количество значений компонентов в качестве индикатора информационной ценности.

При использовании модуля выбора компонентов на основе фильтров вы предоставляете набор данных, определяете столбец, содержащий метку или зависимую переменную, а затем указываете один метод для использования при измерении важности признаков.

Модуль выводит набор данных, который содержит столбцы признаков, ранжированные по их прогнозной значимости. Также он выводит имена признаков и их оценки из выбранной метрики.

Что такое выбор компонентов на основе фильтра и зачем им пользоваться?

Этот модуль для выбора компонентов называется "на основе фильтра", так как выбранная метрика используется для обнаружения ненужных атрибутов и фильтрации избыточных столбцов из модели. Вы выбираете одну статистическую меру, которая соответствует вашим данным, и модуль вычисляет оценку для каждого столбца признаков. В выходных данных столбцы ранжируются по оценке соответствующих признаков.

Выбрав нужные компоненты, вы можете увеличить точность и эффективность классификации.

Для создания прогнозной модели обычно используются только столбцы с лучшими оценками. Столбцы с низкими оценками выбора признака можно сохранить в наборе данных и игнорировать при создании модели.

Как правильно выбрать метрику выбора признаков

Выбор компонентов на основе фильтра предоставляет разнообразные метрики для оценки информационных значений в каждом столбце. В этом разделе приводится общее описание каждой метрики и ее применение. Дополнительные требования к использованию каждой метрики приведены в разделе Технические примечания и в инструкциях по настройке каждого модуля.

Корреляция Пирсона

Статистика корреляции Пирсона (коэффициент корреляции Пирсона) также известна в статистическом моделировании как значение r. Для всех двух переменных возвращается значение, указывающее стойкость корреляции.

Коэффициент корреляции Пирсона вычисляется путем деления ковариации двух переменных на произведение их стандартных отклонений. На коэффициент не влияют изменения масштаба двух переменных.
Взаимная информация

Оценка взаимной информации измеряет вклад переменной в сторону снижения неуверенности в значении другой переменной: а именно — метку. Для разных целей было разработано множество вариантов метода взаимной информации.

Метод взаимной информации особенно удобен при выборе компонентов, так как он позволяет максимально увеличить обмен информацией между совместным распределением и целевыми переменными в наборах данных с множеством измерений.
Корреляции Кендалла

Корреляция ранжирования Кендалла является одним из нескольких методов статистики, измеряющих связь между рейтингами разных порядковых переменных или разными рейтингами одной переменной. Другими словами он измеряет сходство упорядочения при ранжировании по количеству. Этот коэффициент и коэффициент корреляции Спирмана предназначены для использования с непараметрическими и ненормально распределенными данными.
Корреляции Спирмана

Коэффициент Спирмана — это непараметрическая мера статистической зависимости между двумя переменными, которая иногда обозначается греческой буквой rho. Коэффициент Спирмана выражает степень, в которой монотонно связаны две переменные. Он также называется корреляцией ранжирования Спирмана, так как его можно использовать с порядковыми переменными.
Хи с квадратом

Двустороннее тестирование хи-квадрат является статистическим методом, позволяющим измерить, насколько фактические результаты близки к ожидаемым значениям. Метод предполагает, что переменные случайны и получены из подходящей выборки независимых переменных. Полученная статистика хи-квадрат указывает, насколько отличаются результаты от ожидаемых (случайных) результатов.
Оценка Фишера

Оценка Фишера (также называемая методом Фишера или комбинированной оценкой вероятности Фишера) иногда называется информационной оценкой, поскольку представляет объем информации, который предоставляет одна переменная о некоем неизвестном параметре, от которого она зависит.

Оценка вычисляется путем измерения расхождения между ожидаемым и наблюдаемым объемом информации. Когда расхождение минимально, информация максимальна. Поскольку ожидаемый результат оценки равен нулю, информация Фишера также является отклонением оценки.
Выбор на основе количества

Выбор компонентов на основе количества — это простой и относительно эффективный способ поиска информации о предикторах. Базовая идея базового Добавление признаков на основе счетчика проста: путем вычисления количества отдельных значений в столбце можно получить представление о распределении и весовых значениях, а затем понять, какие столбцы содержат наиболее важную информацию.

Выбор компонентов на основе количества — это неконтролируемый метод выбора компонентов, что означает, что столбец меток не требуется. Этот метод также сокращает размерность данных без потери информации.

дополнительные сведения о том, как создаются функции на основе количества и для чего они полезны в машинном обучении, см. в разделе Обучение со счетчиками.

Совет

Если для пользовательского метода выбора компонентов требуется другой параметр, используйте модуль выполнить сценарий R .

Настройка выбора признаков на основе фильтра

Этот модуль предоставляет два метода для определения показателей характеристик:

Формирование оценок характеристик с помощью традиционной статистической метрики

Вы выбираете стандартную статистическую метрику, и модуль рассчитывает корреляцию между парой столбцов, столбцом меток и столбцом функции.
Использовать выбор компонентов на основе подсчета

При использовании метода на основе счетчика модуль вычисляет оценку, основанную исключительно на значениях в столбце.

Формирование оценок характеристик с помощью традиционной статистической метрики

Добавьте в эксперимент модуль выбора компонентов на основе фильтра . Его можно найти в категории Выбор компонентов в студии (классическая модель).
Подключите входной набор данных, который содержит по крайней мере два столбца, которые потенциально являются признаками.

Чтобы убедиться в том, что столбец должен быть проанализирован и сформирована Оценка функции, используйте модуль изменение метаданных для задания атрибута « Feature ».

Важно!

Убедитесь, что предоставленные в качестве входных данных столбцы являются потенциальными функциями. Например, столбец с одним значением во всех строках не имеет информационного значения.

Если известно, что имеются столбцы, которые сделают неправильные функции, их можно удалить из выбранного столбца. Можно также использовать модуль изменение метаданных , чтобы пометить их как категории категорий.

В разделе Feature scoring method (Метод оценки признаков) выберите один из готовых статистических методов для вычисления оценок.

Метод	Требования
Корреляция Пирсона	Метка может быть текстовой или числовой. Признаки должны быть числовыми.
Взаимная информация	Метки и компоненты могут быть текстовыми или числовыми. Используйте этот метод для вычисления важности признаков для двух категориальных столбцов.
Корреляции Кендалла	Метка может представлять собой текст или цифру, но функции должны быть числовыми.
Корреляции Спирмана	Метка может представлять собой текст или цифру, но функции должны быть числовыми.
Хи-квадрат	Метки и компоненты могут быть текстовыми или числовыми. Используйте этот метод для вычисления важности признаков для двух категориальных столбцов.
Оценка Фишера	Метка может представлять собой текст или цифру, но функции должны быть числовыми.
Подсчеты	См. раздел использование Count-Based выбранных компонентов .

Совет

При изменении выбранной метрики все остальные параметры будут сброшены, поэтому обязательно установите этот параметр.)

Выберите параметр использовать только столбцы компонентов , чтобы создать оценку только для тех столбцов, которые ранее были помечены как функции.

Если вы отмените выбор этого параметра, модуль создаст оценку для любого столбца, который в противном случае соответствует заданным условиям, вплоть до количества столбцов, указанного в поле число требуемых функций.
В поле целевой столбецщелкните запустить селектор столбцов , чтобы выбрать столбец меток по имени или по его индексу (индексы основаны на единицах).

Столбец меток является обязательным для всех методов, которые используют статистическую корреляцию. Модуль возвращает ошибку времени разработки, если вы не выберете столбец меток или выберете несколько столбцов меток.
Для параметра число требуемых функцийвведите число возвращаемых столбцов компонентов.
- Минимальное количество указываемых признаков — 1, но рекомендуется увеличить это значение.
- Если указанное число требуемых функций больше числа столбцов в наборе данных, возвращаются все компоненты, даже те, для которых нулевые показатели.
- Если указать меньшее количество столбцов результатов, чем столбцы функций, то функции будут ранжированы по убыванию, а возвращаются только первые функции.
Запустите эксперимент или выберите модуль " Выбор компонентов на основе фильтра " и нажмите кнопку Выполнить выбранное.

Результаты выбора компонентов

Когда обработка будет завершена, сделайте следующее:

Чтобы просмотреть полный список проанализированных столбцов компонентов и их оценки, щелкните правой кнопкой мыши модуль, выберите пункт компонентыи нажмите кнопку визуализировать.
Чтобы просмотреть набор данных, созданный на основе критериев выбора компонентов, щелкните правой кнопкой мыши модуль, выберите набор данныхи нажмите кнопку визуализировать.

Если набор данных содержит меньшее количество столбцов, чем ожидалось, проверьте параметры модуля и типы данных столбцов, предоставленных в качестве входных. Например, если параметр Number of desired features (Количество требуемых признаков) имеет значение 1, выходной набор данных будет содержать только два столбца: столбец меток и столбец признаков с самым высоким значением.

Использовать выбор компонентов на основе подсчета

Добавьте в эксперимент модуль выбора компонентов на основе фильтра . Его можно найти в списке модулей в студии (классическая модель) в группе выбора компонентов .
Подключение входной набор данных, содержащий по крайней мере два столбца, которые являются возможными функциями.
Выберите пункт На основе количества в списке статистических методов в раскрывающемся списке Метод оценки компонентов.
Для минимального числа ненулевых элементовукажите минимальное число столбцов компонентов, включаемых в выходные данные.

По умолчанию модуль выводит все столбцы, соответствующие требованиям. Модулю не удается вывести ни один столбец, который возвращает нулевую оценку.
Запустите эксперимент или выберите только модуль и нажмите кнопку Выполнить выбранное.

Результаты выбора компонентов на основе количества

Чтобы просмотреть список столбцов компонентов с их оценками, щелкните правой кнопкой мыши модуль, выберите компонентыи нажмите кнопку визуализировать .
Чтобы просмотреть набор данных, содержащий анализируемые столбцы, щелкните правой кнопкой мыши модуль, выберите набор данныхи щелкните визуализировать.

В отличие от других методов, метод выбора компонентов на основе количества не упорядочивает переменные по самым высокому показателю, но возвращает все переменные с ненулевой оценкой в исходном порядке.

Строковые функции всегда получают нулевые (0) оценки и поэтому не являются выходными.

Примеры

Вы можете увидеть примеры использования выбора компонентов в Коллекция решений ии Azure:

Классификация текста; На третьем шаге этого примера Выбор компонентов на основе фильтра используется для поиска 15 лучших возможностей. Хэширование признаков используется для преобразования текстовых документов в числовые векторы. Затем корреляция Пирсона используется в функциях Vector.
Выбор компонентов и проектирование признаков машинного обучения. в этой статье приводятся общие сведения о выборе компонентов и проектировании функций в машинном обучении.

Примеры оценок функций см. в разделе Сравнение таблиц с результатами.

Технические примечания

Этот модуль можно найти в разделе " Преобразование данных" в категории " фильтры ".

Сведения о реализации

При использовании корреляции Пирсона, корреляции Кендалл или Спеарман корреляции для числовой функции и метки категории Оценка функции вычисляется следующим образом:

Для каждого уровня в категориальном столбце вычисляется условное среднее значение числового столбца.
Столбец условных средних значений сопоставляется с числовым столбцом.

Требования

Оценка выбора компонентов не создается для столбцов, которые используются в качестве столбца метки или оценки.
При применении метода количественной оценки к столбцу с типом данных, не поддерживаемым этим методом, модуль выдает ошибку, или столбцу присваивается нулевая оценка.
Если столбец содержит логические значения (true/false), они обрабатываются как True = 1, а False = 0.
Столбец не может быть компонентом, если он был определен как метка или оценка.

Как обрабатываются отсутствующие значения

Вы не можете указать в качестве целевого тот столбец, все значения которого отсутствуют.
Если столбец содержит отсутствующие значения, они не учитываются при вычислении показателя для столбца.
Если все значения столбца, определенного как столбец компонента, отсутствуют, присваивается нулевая оценка.

Таблица сравниваемых показателей

Чтобы получить представление о сравнении оценок при использовании различных метрик, в следующей таблице представлены некоторые показатели выбора компонентов из нескольких функций набора данных «Цена за автомобиль» с использованием зависимой переменной « автомобиль-MPG».

Столбец компонентов	Оценка Пирсона	Показатель количества	Оценка Кендалл	Взаимная информация
highway-mpg (расход топлива за городом).	1	205	1	1
city-mpg	0,971337	205	0,892472	0,640386
curb-weight	0,797465	171	0,673447	0,326247
horsepower (мощность);	0,770908	203	0,728289	0,448222
price	0,704692	201	0,651805	0,321788
length	0,704662205	205	0,53193	0,281317
engine-size (объем двигателя);	0,67747	205	0,581816	0,342399
width	0,677218	205	0,525585	0,285006
bore	0,594572	201	0,467345	0,263846
wheel-base (колесная база);	0,544082	205	0,407696	0,250641
compression-ratio	0,265201	205	0,337031	0,288459
система горючего	Нет	Нет	Нет	0,308135
make	Нет	Нет	Нет	0,213872
устройства-колеса	Нет	Нет	Нет	0,213171
рост	Нет	Нет	Нет	0,1924
Нормализованные — потери	Нет	Нет	Нет	0,181734
symboling	Нет	Нет	Нет	0,159521
число цилиндров	Нет	Нет	Нет	0,154731
тип подсистемы	Нет	Нет	Нет	0,135641
аспиратион	Нет	Нет	Нет	0,068217
body-style (кузов);	Нет	Нет	Нет	0,06369
Тип топлива	Нет	Нет	Нет	0,049971
Num-of-двери	Нет	Нет	Нет	0,017459
механизм — расположение	Нет	Нет	Нет	0,010166

Для всех типов столбцов, включая строки, могут быть созданы результаты взаимной информационной информации.
Другие оценки, включенные в эту таблицу, такие как корреляция Пирсона или выбор компонентов на основе количества, занимают числовые значения. Функции со строками получают оценку 0 и поэтому не включаются в выходные данные. Сведения об исключениях см. в разделе Технические примечания .
Метод, основанный на подсчете, не обрабатывает столбец меток по-другому в столбцах функций.

Ожидаемые входные данные

Имя	Тип	Описание
Dataset	Таблица данных	Входной набор данных

Параметры модуля

Имя	Диапазон	Тип	По умолчанию	Описание
Метод оценки компонентов	Список	Метод оценки		Выберите метод, используемый для оценки
Работа только со столбцами компонентов	Любой	Логическое	Да	Укажите, следует ли использовать только столбцы компонентов в процессе оценки
Целевой столбец	Любой	Выбор столбцов	Нет	Укажите целевой столбец
Количество необходимых компонентов	>= 1	Целое число	1	Укажите количество компонентов для вывода результатов
Минимальное число нулевых элементов	>= 1	Целое число	1	Укажите количество компонентов для выходных данных (для метода CountBased)

Выходные данные

Имя	Тип	Описание
Отфильтрованный набор данных	Таблица данных	Отфильтрованный набор данных
Компоненты	Таблица данных	Имена выходных столбцов и оценка выбора компонентов

Исключения

Исключение	Описание
Ошибка 0001	Исключение возникает, если не удалось найти один или несколько столбцов указанного набора данных.
Ошибка 0003	Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты.
Ошибка 0004	Исключение возникает, если параметр меньше или равен определенному значению.
Ошибка 0017	Исключение возникает, если один или несколько указанных столбцов относятся к типу, который не поддерживается в текущем модуле.

список ошибок, относящихся к модулям студии (классическая версия), см. в разделе Машинное обучение коды ошибок.

список исключений API см. в разделе Машинное обучение REST API коды ошибок.

См. также раздел

Выбор компонентов
Линейный дискриминантный анализ Фишера
Список модулей в алфавитном порядке