Анализ главных компонентов

Вычисляет набор компонентов с уменьшенной размерностью для более эффективного обучения

Категория: Преобразование данных/выборка и разбиение

Примечание

Применимо к: машинное обучение Studio (классическая модель)

Это содержимое относится только к Studio (классическая модель). Аналогичные модули перетаскивания были добавлены в конструктор Машинное обучение Azure. Дополнительные сведения см. в статье сравнение двух версий.

Обзор модуля

В этой статье описывается, как использовать модуль анализа основных компонентов в машинное обучение Azure Studio (классическая модель), чтобы уменьшить размер данных для обучения. Модуль анализирует данные и создает сокращенный набор функций, который фиксирует всю информацию, содержащуюся в наборе данных, но в меньшем числе функций.

Модуль также создает преобразование, которое можно применить к новым данным для достижения аналогичного уменьшения размерности и сжатия признаков без дополнительного обучения.

Подробнее об анализе главных компонентов

Анализ основных компонентов (PCA) — это популярный метод в машинном обучении. Это зависит от того факта, что многие типы данных в векторном пространстве являются со сжатием, и это сжатие может быть наиболее эффективно достигнуто выборкой.

Добавлены преимущества PCA: Улучшенная визуализация данных и оптимизация использования ресурсов алгоритмом обучения.

Модуль анализа основных компонентов в машинное обучение Azure Studio (классическая модель) принимает набор столбцов функций в предоставленном наборе данных и создает проекцию пространства функций, которая имеет меньшую размерность. Этот алгоритм использует методы случайного выбора для обнаружения подпространства компонента, которое фиксирует большую часть информации в полной матрице функций. Таким образом, преобразованные матрицы данных захватывают дисперсию в исходных данных, уменьшая влияние шума и сокращая риск перегонки.

Общие сведения об анализе основных компонентов (PCA) см. в этой статье Википедии. Сведения о подходах PCA, используемых в этом модуле, см. в следующих статьях:

Настройка анализа основных компонентов

  1. Добавьте в эксперимент модуль анализа основных компонентов . Его можно найти в разделе " Преобразование данных" в категории " Масштаб" и "уменьшить ".

  2. Подключите набор данных, который необходимо преобразовать, и выберите столбцы для анализа.

    Если это еще не ясно, какие столбцы являются компонентами и являются метками, рекомендуется использовать модуль изменить метаданные , чтобы пометить столбцы заранее.

  3. Число измерений для уменьшения: введите требуемое число столбцов в конечном выводе. Каждый столбец представляет измерение, записывающее некоторую часть информации во входных столбцах.

    Например, если в исходном наборе данных имеется восемь столбцов и введено 3 , то возвращается три новых столбца, которые фиксируют данные из восьми выбранных столбцов. Столбцы имеют имена Col1 , Col2 и Col3 . Эти столбцы не сопоставляются непосредственно с исходными столбцами; Вместо этого столбцы содержат приближение к пространству функции, описываемому исходными столбцами 1-8.

    Совет

    Алгоритм работает оптимально, если количество уменьшенных измерений намного меньше, чем исходные измерения.

  4. Нормализовать сжатый набор данных в нулевое значение: Выберите этот параметр, если набор данных является сжатым, то есть содержит несколько отсутствующих значений. Если этот флажок установлен, модуль нормализует значения в столбцах до среднего нуля перед любой другой обработкой.

    Для разреженных наборов данных этот параметр не следует выбирать. При обнаружении разреженного набора данных параметр переопределяется.

  5. Запустите эксперимент.

Результаты

Модуль выводит сокращенный набор столбцов, который можно использовать при создании модели. Вы можете сохранить выходные данные в качестве нового набора данных или использовать их в эксперименте.

При необходимости можно сохранить аналитический процесс как сохраненное преобразование, чтобы применить его к другому набору данных с помощью функции Применить преобразование.

Набор данных, к которому применяется преобразование, должен иметь ту же схему, что и исходный набор данных.

Примеры

Примеры использования основного анализа компонентов в машинном обучении см. в Коллекция решений ии Azure:

  • Кластеризация. Поиск схожих компаний. использует анализ основных компонентов для уменьшения количества значений из интеллектуального анализа текста до управляемого числа функций.

    Хотя в этом примере PCA применяется с помощью пользовательского скрипта R, он показывает, как обычно используется PCA.

Технические примечания

Существует два этапа вычисления нижних компонентов.

  • Первый — это создание недостаточного объемного пространства, которое фиксирует действие матрицы.
  • Второй — ограничить матрицу подпространством, а затем вычислить стандартную оптимизацию уменьшенной матрицы.

Ожидаемые входные данные

Имя Type Описание
Набор данных Таблица данных Набор данных, размерность которого нужно уменьшить

Параметры модуля

Имя Type Диапазон Необязательно Описание По умолчанию
Выбранные столбцы Выбор столбцов Обязательно Выбранные столбцы, к которым необходимо применить PCA
Количество размерностей, до которых нужно уменьшить Целое число >= 1 Обязательно Количество необходимых размерностей в уменьшенном наборе данных
Нормализовать плотный набор данных так, чтобы среднее значение было равно нулю. Логическое Обязательно Да Укажите, необходимо ли нормализовать среднее значение входных столбцов для плотных наборов данных (для параметра разрежения данных, который игнорируется)

Выходные данные

Имя Type Описание
Набор данных результатов Таблица данных Набор данных с уменьшенными размерностями
Преобразование PCA Интерфейс ITransform Если применить преобразование к набору данных в результате получится новый набор данных.

Исключения

Исключение Описание
Ошибка 0001 Исключение возникает, если не удалось найти один или несколько столбцов указанного набора данных.
Ошибка 0003 Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты.
Ошибка 0004 Исключение возникает, если параметр меньше или равен определенному значению.

Список ошибок, относящихся к модулям студии (классическая версия), см. в разделе машинное обучение коды ошибок.

Список исключений API см. в разделе Машинное обучение REST API коды ошибок.

См. также раздел

Выборка и разбиение
Выбор компонентов