Линейный дискриминантный анализ Фишера

Идентифицирует линейное сочетание переменных признаков, которые наилучшим образом группируют данные в отдельные классы

Категория: модули выбора компонентов

Примечание

Применимо к: машинное обучение Studio (классическая модель)

Это содержимое относится только к Studio (классическая модель). Аналогичные модули перетаскивания были добавлены в конструктор Машинное обучение Azure. Дополнительные сведения см. в статье сравнение двух версий.

Обзор модуля

В этой статье описывается, как использовать модуль Discriminant Analysis линейного анализа Фишера в машинное обучение Azure Studio (классическая модель), чтобы создать новый набор данных компонентов, в котором захватывается сочетание функций, которые лучше разделяются на два или более классов.

Этот метод часто используется для сокращения размерности, поскольку он проецирует набор признаков на меньшее пространство признаков, сохраняя информацию, которая разделяет классы. Это не только сокращает стоимость вычислений для задачи классификации, но также может предотвратить переобучение.

Для создания оценок необходимо указать столбец меток и набор числовых столбцов функций в качестве входных данных. Алгоритм определяет оптимальную комбинацию входных столбцов, которая линейно разделяет каждую группу данных при минимальных расхождениях внутри каждой группы. Модуль возвращает набор данных, содержащий компактные, преобразованные функции, а также преобразование, которое можно сохранить и применить к другому набору данных.

Дополнительные сведения о линейном анализе discriminantности

Линейный discriminantный анализ аналогичен анализу дисперсии (ДВУХФАКТОРНЫЙ) в том, что он работает путем сравнения средств переменных. Как и в случае с ДИСПЕРСИОННЫЙ обоснованной, она основана на следующих допущениях:

  • предикторы являются независимыми;
  • Стандартные функции плотности вероятности каждого примера распределены
  • схожие значения дисперсии среди групп.

Анализ линейного Discriminantа иногда сокращается до LDA, но это легко путают с скрытых Дирихле метода выделения. Методы совершенно различны, поэтому в этой документации мы используем полные имена везде, где это возможно.

Настройка линейного анализа Discriminant

  1. Добавьте входной набор данных и убедитесь, что входные данные соответствуют этим требованиям:

    • Данные должны быть как можно более полными. Строки с любыми отсутствующими значениями игнорируются.
    • Предполагается, что значения имеют нормальное распределение. Прежде чем использовать линейный анализ Discriminant для Фишера, проверьте данные для выбросов или протестируйте распределение.
    • Число прогностические факторы должно быть меньше, чем количество примеров.
    • Удалите все нечисловые столбцы. Алгоритм проверяет все допустимые числовые столбцы, содержащиеся во входных данных, и возвращает ошибку, если включены недопустимые столбцы. Если необходимо исключить какие-либо числовые столбцы, добавьте в модуль набора данных флажок Select Columns in DataSet (выбор столбцов ) перед анализом линейного Discriminant анализа, чтобы создать представление, содержащее только те столбцы, которые необходимо проанализировать. Позднее можно повторно присоединить столбцы с помощью инструкции Add Columns. Исходный порядок строк сохраняется.
  2. Подключите входные данные к модулю " линейный Discriminant Analysis " (Фишера).

  3. Для столбца метки класса щелкните запустить селектор столбцов и выберите один столбец меток.

  4. В поле число средств извлечения признаков введите нужное число столбцов.

    Например, если набор данных содержит восемь числовых столбцов с числовыми характеристиками, можно ввести его, 3 чтобы свернуть в новое, уменьшенное пространство функций только для трех столбцов.

    Важно понимать, что выходные столбцы не точно соответствуют входным столбцам, а представляют собой компактное преобразование значений во входных столбцах.

    Если в качестве значения для числа извлечений компонентов используется 0, а в качестве входных данных используется n столбцов, то возвращаются n средств извлечения, содержащие новые значения, представляющие n-мерный размерность компонента.

  5. Запустите эксперимент.

Результаты

Алгоритм определяет сочетание значений во входных столбцах, которые линейно разделяют каждую группу данных, одновременно сокращая расстояния внутри каждой группы и создают два выхода:

  • Преобразованные функции. Набор данных, содержащий указанное число столбцов средства извлечения, именуемых col1, Col2, Col3 и т. д. Кроме того, выходные данные включают также переменную класса или метки.

    Этот компактный набор значений можно использовать для обучения модели.

  • Преобразование "линейное discriminantе" для анализатора Фишера. Преобразование, которое можно сохранить, а затем применить к набору данных, имеющему ту же схему. Это полезно, если вы анализируете множество наборов данных одного типа и хотите применить одинаковое уменьшение функций к каждому. Набор данных, к которому он применяется, должен иметь одну и ту же схему.

Примеры

Примеры выбора компонентов в машинном обучении см. в Коллекция решений ии Azure:

Технические примечания

В этом разделе содержатся сведения о реализации, советы и ответы на часто задаваемые вопросы.

Советы по использованию

  • Этот метод работает только с непрерывными переменными, категориальные или порядковые переменные являются недопустимыми.

  • При вычислении матрицы преобразования строки с недостающими значениями игнорируются.

  • Если сохранить преобразование из эксперимента, то преобразования, вычисленные из исходного эксперимента, применяются к каждому новому набору данных и не пересчитываются. Таким образом, если требуется вычислить новый набор функций для каждого набора данных, используйте новый экземпляр линейного Discriminant анализа Фишера для каждого набора данных.

Сведения о реализации

Набор данных функций преобразуется с помощью основе собственных векторов. Основе собственных векторов для входного набора данных вычисляются на основе указанных столбцов компонентов, также называемых матрицей сравнения.

Выходные данные преобразования модуля содержат эти основе собственных векторов, которые можно применить для преобразования другого набора данных, имеющего ту же схему.

Дополнительные сведения о вычислении еиженвалуес см. в этой статье (PDF): Извлечение компонентов на основе еиженвектор для классификации. Тимбал (Tymbal), Пуронен (Puuronen) и др.

Ожидаемые входные данные

Имя Type Описание
Набор данных Таблица данных Входной набор данных

Параметры модуля

Имя Type Диапазон Необязательно По умолчанию Описание
Столбец меток класса Выбор столбцов Обязательно Нет Выберите столбец, содержащий категориальные метки класса
Количество блоков выделения признаков Целое число >= 0 Обязательно 0 Количество используемых блоков выделения признаков. Если значение равно нулю, будут использоваться все блоки выделения признаков.

Выходные данные

Имя Type Описание
Преобразованные признаки Таблица данных Функции discriminantного анализа Фишера, преобразованные в еиженвектор пространство
Преобразование линейного дискриминантного анализа Фишера Интерфейс ITransform Преобразование линейного дискриминантного анализа Фишера

Исключения

Исключение Описание
Ошибка 0001 Исключение возникает, если не удалось найти один или несколько столбцов указанного набора данных.
Ошибка 0003 Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты.
Ошибка 0017 Исключение возникает, если один или несколько указанных столбцов относятся к типу, который не поддерживается в текущем модуле.

Список ошибок, относящихся к модулям студии (классическая версия), см. в разделе машинное обучение коды ошибок.

Список исключений API см. в разделе Машинное обучение REST API коды ошибок.

См. также раздел

Выбор компонентов
Выбор компонентов на основе фильтра
Анализ главных компонентов