Кластеризация очистки

Статья
05/06/2019

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
См. дополнительные сведения о Машинном обучении Azure.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Выполняет очистка параметров для определения оптимальных параметров для модели кластеризации.

категория: Машинное обучение/обучение

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается, как использовать модуль очистки кластеризации в Машинное обучение Studio (классическая модель) для обучения модели с помощью очистки параметров. Очистка параметров — это способ поиска лучших параметров для модели с учетом набора данных.

Модуль кластеризации очистки разработан специально для моделей кластеризации. Вы предоставляете в качестве входных данных модель кластеризации, а также набор данных. Модуль выполняет итерацию указанного набора параметров, создавая и тестируя модели с разными параметрами, пока не найдет модель с лучшим набором кластеров. Она автоматически вычислит оптимальную конфигурацию, а затем обучает модель с помощью этой конфигурации.

Он также возвращает набор метрик, описывающих модели, которые были протестированы, и набор назначений кластеров на основе лучшей модели.

Настройка кластеризации очистки

Добавьте модуль кластеризации очистки в эксперимент в студии (классическая модель). этот модуль можно найти в разделе Машинное обучениев категории " обучение ".
Добавьте модуль кластеризации K-средних и набор данных для обучения в эксперимент и подключите их как к модулю кластеризации очистки .
Настройте модуль кластеризации K-средних для использования очистки параметров следующим образом.
1. Задайте для параметра создать режим инструктора значение диапазон параметров.
2. Используйте Построитель диапазонов (или вручную введите несколько значений) для каждого параметра, чтобы задать диапазон значений для итерации.
3. Инициализация для очистки: укажите, как алгоритм K-средних должен найти исходный кластер средневзвешенных. Для случайной инициализации и последующего тестирования средневзвешенных предоставляются несколько алгоритмов.
  
  Если набор данных для обучения содержит столбец меток, даже с частичными значениями, можно использовать эти значения для средневзвешенных. Используйте параметр назначить режим метки , чтобы указать, как используются значения меток.
  
  Совет
  
  Столбец меток должен быть помечен как например, заранее. Если возникает ошибка, попробуйте использовать Edit Metadata для обозначения столбца, содержащего метки.
4. Число начальных значений для очистки: указывает, сколько различных случайных начального значения следует попробовать при выполнении очистки параметра.
5. Выберите метрику, которая будет использоваться при измерении подобия кластера. Дополнительные сведения см. в разделе кластеризация с помощью K-средних .
6. Итерации: укажите общее число итераций, которые должен выполнять алгоритм K-средних. Эти итерации используются для оптимизации выбора кластера средневзвешенных.
7. Если для инициализации очистки используется столбец меток, используйте параметр " назначить режим метки ", чтобы указать способ обработки значений в столбце "метка".
  - Заполнить отсутствующие значения: если столбец метки содержит некоторые отсутствующие значения, используйте этот параметр, чтобы аппроксимация категории на основе кластера, которому назначена точка данных.
  - Перезаписывать данные из ближайшего в центр: создает значения меток для всех точек данных, назначенных кластеру, с помощью метки точки, ближайшей к центру кластера.
  - Игнорировать столбец меток: Выберите этот параметр, если вы не хотите выполнять ни одну из указанных выше операций.
В модуле кластеризация очистки используйте параметр для метрики результатов кластеризации, чтобы указать математический метод, используемый при оценке соответствия обученной модели кластеризации:
- Упрощенный силуэт: Эта метрика захватывает жесткость точек данных в каждом кластере. Она вычислена как сочетание сходства каждой строки с ее кластером и ее сходства со следующим ближайшим кластером. Если в кластере только 1 строка, то вместо этого вычисляется пропорциональное расстояние до ближайшего ближайшего центроид, чтобы не получать 0 в качестве результата. "Упрощенный" означает тот факт, что расстояние до кластера центроид используется в качестве простой меры подобия. Как правило, более высокая оценка лучше. Среднее значение в наборе данных показывает, насколько хорошо кластеризованные данные. Если кластеры слишком много или слишком мало, некоторые кластеры будут иметь более низкие значения силуэт, чем остальные. Дополнительные сведения см. в этой статье Википедии.
- Дэвиса-баулдин. Эта метрика нацелена на определение наименьшего набора кластеров с наименее точечным. Так как метрика определяется как отношение точечных в каждом кластере к разделению кластера, более низкое значение означает, что кластеризация лучше. Лучшая модель кластеризации уменьшает эту метрику. Чтобы вычислить метрику Davies-Bouldin, среднее значение центроид расстояния вычисляется для каждого кластера. Для каждой пары кластеров сумма этих средних делена на расстояние между средневзвешенных. Максимальное значение для всех остальных кластеров выбирается для каждого кластера и оценивается по всем кластерам. Дополнительные сведения см. в этой статье Википедии.
- Данна: Эта метрика нацелена на определение наименьшего набора самых компактных кластеров. Как правило, более высокое значение для этой метрики указывает на лучшую кластеризацию. Чтобы вычислить метрику Данна, минимальное расстояние от центроид до центроид делится на максимальное расстояние от каждой точки данных до своего центра кластеров. Дополнительные сведения см. в этой статье Википедии.
- Среднее отклонение. Эта метрика вычисляется путем получения среднего расстояния от каждой точки данных к центру кластера. Значение уменьшается по мере увеличения числа средневзвешенных; Следовательно, это нецелесообразно для поиска числа средневзвешенных. Эту метрику рекомендуется использовать при выборе лучшего начального значения инициализации центроид.
Укажите режим очистки параметров: выберите параметр, определяющий сочетания значений, используемых при обучении, и способ их выбора:
- Вся сетка: выполняются и оцениваются все значения в заданном диапазоне. Этот вариант обычно больше вычислительных ресурсов.
- Случайная очистка. Используйте этот параметр, чтобы ограничить количество запусков. Модель кластеризации строится и оценивается с помощью сочетания значений, выбранных случайным образом из допустимого диапазона значений параметров.
Максимальное число запусков при случайном повороте: Установите этот параметр, если выбран параметр " случайная очистка ". Введите значение, чтобы ограничить максимальное число итераций при тестировании наборов случайных параметров, выбранных случайным образом.

Предупреждение

Параметры итераций модуля кластеризации K-средних имеют другую цель и не затрагиваются этим параметром: он ограничивает количество проходов по данным, сделанных для улучшения кластеров, уменьшая среднее расстояние от каждой точки данных до ее кластера средневзвешенных. В отличие от этого, итерации, определяемые параметром модуля кластеризации очистки , выполняются для попыток использования различных случайных центроидных инициализаций. Эта проблема минимизации называется «NP-жесткое»; Поэтому попытка выполнить несколько случайных начальных значений может дать лучшие результаты.

Если выбрана случайная очистка, используйте параметр случайное начальное значение , чтобы указать начальные значения случайных начальных значений, с которых начинается создание средневзвешенных. Одним из преимуществ использования очистки параметров для создания модели кластеризации является то, что вы можете легко проверить несколько начальных значений, чтобы снизить известную чувствительность моделей кластеризации к первоначальному начальному значению.
Щелкните набор столбцови выберите столбцы, которые следует использовать при создании кластеров. По умолчанию все столбцы компонентов используются при построении и тестировании модели кластеризации.

Можно включить столбец меток, если он есть в наборе данных. Если метка имеется, ее можно использовать для выбора средневзвешенных, использовать метку как компонент или игнорировать метку. Задайте эти параметры для обработки меток модулем кластеризации кмеанс , как описано в шаге 3 выше.
Проверять только на добавление или снять только результат: Используйте этот параметр для управления тем, какие столбцы возвращаются в результатах.

По умолчанию модуль возвращает исходные столбцы набора данных для обучения вместе с результатами. Если вы отмените выбор этого параметра. возвращаются только назначения кластера.
Добавьте модуль Assign Data to Clusters в свой эксперимент.
Подключение выходные данные с пометкой Best training в обученную модель входа для назначения данных кластерам.
Добавьте набор данных, предназначенный для оценки, и подключите его к порту набора данных модуля назначение данных в кластеры .
Добавьте модуль « Анализ модели » и подключите его для назначения данных кластерам. При необходимости можно подключить набор данных для оценки.
Запустите эксперимент.

Результаты

Модуль кластеризации очистки выводит три разных результата:

Лучшая обученная модель. Обученная модель, которую можно использовать для оценки и оценки. Щелкните правой кнопкой мыши и выберите команду Сохранить как обученную модель , чтобы захватить оптимизированную модель кластеризации и использовать ее для оценки.

Набор данных Results. Набор назначений кластеров, основанный на оптимизированной модели.

Имя столбца	Описание
Назначения	Это значение указывает кластеру, которому назначена каждая точка данных. Кластеры в обученной модели помечены индексами, основанными на 0.
Дистанцестоклустерцентер No 1 Дистанцестоклустерцентер No n	Это значение указывает, насколько близко точка данных находится в центре каждого кластера. Для каждого кластера, созданного в оптимизированной модели, создается столбец. Количество кластеров можно ограничить с помощью параметра средневзвешенных .

Имя столбца

Описание

Назначения

Это значение указывает кластеру, которому назначена каждая точка данных. Кластеры в обученной модели помечены индексами, основанными на 0.

Дистанцестоклустерцентер No 1

Дистанцестоклустерцентер No n

Это значение указывает, насколько близко точка данных находится в центре каждого кластера.

Для каждого кластера, созданного в оптимизированной модели, создается столбец.

Количество кластеров можно ограничить с помощью параметра средневзвешенных .

По умолчанию можно вернуть столбцы из набора данных для обучения вместе с результатами, чтобы упростить анализ и интерпретацию назначений кластера.

Результаты очистки. Набор данных, содержащий следующие метрики оценки для кластеров:

Имя столбца	Описание
Метрика кластера	Значение, указывающее среднее качество кластера для этого запуска. Запуски упорядочиваются по наилучшей оценке.
Число центроидов	Число кластеров, созданных в данной конкретной итерации очистки
Индекс выполнения	Идентификатор для каждой итерации

Совет

Значения, возвращаемые для метрик кластера, должны интерпретироваться по-разному в зависимости от метрики, выбранной при настройке очистки. Для метрики по умолчанию упрощенный силуэтболее высокий показатель. Для Дэвиса-баулдинболее низкий показатель лучше.

Примеры

Примеры очистки параметров с кластеризацией с помощью K-средних см. в Коллекция решений ии Azure:

Очистка кластеризации с помощью набора данных диабета

Технические примечания

В этом разделе содержатся советы и подробные сведения о реализации.

Оптимизация моделей кластеризации

Качество и точность моделей кластеризации могут сильно зависеть от выбора начальных параметров, таких как количество средневзвешенных и начальное значение, используемое для инициализации кластера. Чтобы снизить эту чувствительность к первоначальным параметрам, модуль кластеризации очистки помогает найти оптимальное сочетание параметров. Вы указываете диапазон параметров для тестирования, и модуль автоматически создает и тестирует несколько моделей и, наконец, выбирает оптимальное количество кластеров.

Чтобы создать параметр очистки, необходимо также настроить модуль кластеризации K-средних для использования очистки параметров. Можно указать, что очистка перебирает все возможные сочетания параметров или использует случайное сочетание параметров. Вы также можете выбрать одну из нескольких стандартных метрик для измерения точности средневзвешенных во время процесса создания и тестирования итеративной модели. После завершения указанного числа итераций модуль выбирает оптимальное количество кластеров на основе выбранной метрики и выводит отчеты, которые можно использовать для оценки результатов.

Советы по использованию

В некоторых случаях может уже быть известно, сколько кластеров вы планируете найти. Например, в данных могут быть метки классов, которые можно использовать при выборе средневзвешенных в GUID. В этом случае можно настроить модуль кластеризации на K-средние , чтобы использовать столбец Метка для пошагового выбора начального средневзвешенных.
Если вы знаете некоторые из ожидаемых кластеров, но не знаете, сколько кластеров является оптимальным, задайте для числа средневзвешенных число, превышающее число известных значений меток. Модуль кластеризации очистки создает кластеры для известных точек данных, а затем определяет оптимальное количество дополнительных кластеров для оставшихся точек данных.

Обработка отсутствующих значений в столбце меток

Существует несколько способов управления отсутствующими значениями в столбце меток. Например, предположим, что у вас есть задача классификации изображений и помечены только некоторые изображения.

Столбец Метка можно использовать для выбора средневзвешенных, но для указания того, что все отсутствующие метки заполнены с помощью назначений кластеров. Иными словами, существующие значения меток не изменяются, но отсутствующие метки заполняются.

Кроме того, для всех точек данных, назначенных кластеру, можно перезаписывать даже существующие метки, используя одну метку, которая лучше всего соответствует кластеру. Чтобы понять, как этот вариант полезен, представьте, что вы используете данные образа с очень подробными метками, например, разными породами собаки. С помощью этого параметра можно заменить все подробные метки одной меткой категории "собака".

Начальные значения в журнале

В файле журнала, созданном модулем « обучение модели кластеризации », отображается, что то же начальное значение используется для всех итераций алгоритма кластеризации K-средних, независимо от начального значения, указанного в свойстве « случайное начальное значение ».

На самом деле, реализация использует предоставляемое пользователем начальное значение для создания последовательности случайных чисел, которые отличаются для каждого выполнения. Таким образом, для создания всех случайных чисел, созданных случайным образом, требуется только одно начальное значение.

Цель журнала — указать, какое начальное значение используется модулем, когда пользователь не укажет начальное значение на панели « Свойства ».

Ожидаемые входные данные

Имя	Тип	Описание
Необученная модель	Интерфейс ICluster	Необученная модель кластеризации
Dataset	Таблица данных	Источник входных данных

Параметры модуля

Имя	Тип	Значения	Необязательно	Значение по умолчанию	Описание
Метрика для измерения результатов кластеризации	Метрика кластера	Упрощенное силуэт, Дэвиса-Баулдин, Данна, среднее отклонение	Обязательно	Упрощенный силуэт	Выберите метрику, используемую для оценки моделей регрессии
Укажите режим очистки параметров	Методы очистки	Вся сетка или случайная очистка	Обязательно	Случайная очистка	Очистка всей сетки в пространстве параметров или очистка с помощью ограниченного числа запусков образца
Набор столбцов	Выбор столбцов		Обязательно		Шаблон выбора столбцов
Максимальное число запусков при случайной очистке	Целое число	[1;10000]	Доступно, только если Свипингмоде имеет значение случайная очистка	5	Задать максимальное число запусков для выполнения при случайном повороте
Случайное начальное значение	Целое число		Доступно, только если Свипингмоде имеет значение случайная очистка	0	Укажите значение для заполнения генератора случайных чисел для случайной очистки
Установите флажок для добавления входных данных или снимите флажок для вывода только результатов	Логическое		Обязательно	Да	Выберите этот параметр, чтобы указать, что выходной набор данных должен содержать входной набор данных с добавленным столбцом назначений. Снимите флажок, чтобы указать, что только столбец назначений должен быть выходным.

Выходные данные

Имя	Тип	Описание
Лучшая обученная модель	Интерфейс ICluster	Обученная модель кластеризации
Набор данных результатов	Таблица данных	Входной набор данных с добавлением столбца назначений или только столбец назначений
Результаты очистки	Таблица данных	Результирующий журнал метрик для выполнения очистки кластера

Исключения

Исключение	Описание
Ошибка 0003	Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты.

список ошибок, относящихся к модулям студии (классическая версия), см. в разделе Машинное обучение коды ошибок.

список исключений API см. в разделе Машинное обучение REST API коды ошибок.

См. также раздел

Кластеризация методом K-средних
Назначение данных в кластеры
Машинное обучение/обучение
Машинное обучение, инициализация модели и кластеризация