Интерпретируемость модели

Статья
01.04.2025

В этой статье описываются методы, которые можно использовать для интерпретации модели в Машинном обучении Azure.

Почему интерпретируемость модели важна для отладки модели

При использовании моделей машинного обучения в способах, влияющих на жизнь людей, важно понимать, что влияет на поведение моделей. Интерпретируемость помогает ответить на вопросы в следующих сценариях:

Отладка модели. Почему моя модель совершила эту ошибку? Как можно улучшить свою модель?
Совместная работа с искусственным интеллектом: как понять и доверять решениям модели?
Соответствие нормативным требованиям: соответствует ли моя модель юридическим требованиям?

Компонент интерпретируемости панели мониторинга ответственного искусственного интеллекта способствует этапу диагностики рабочего процесса жизненного цикла модели путем создания понятных для человека описаний прогнозов модели машинного обучения. Он предоставляет несколько представлений на поведение модели.

Глобальные пояснения: например, какие признаки влияют на общее поведение модели предоставления кредита?
Местные объяснения: например, почему было одобрено или отклонено заявление о кредите клиента?

Можно также просмотреть пояснения модели для выбранной когорты в качестве подгруппы точек данных. Подобный подход полезен, например, при оценке справедливости прогнозов модели для отдельных лиц, относящихся к определенной демографической группе населения. На вкладке Локальное объяснение этого компонента также представляется полная визуализацию данных, которая отлично подходит для получения общего представления о данных и ознакомления с различиями между правильными и неправильными прогнозами каждой когорты.

Возможности этого компонента основаны на пакете InterpretML, который создает объяснения модели.

Используйте интерпретируемость в следующих случаях...

Определите, насколько надежными прогнозы системы ИИ являются, понимая, какие функции наиболее важны для прогнозов.
Подойдите к отладке вашей модели, сначала поняв её и определив, использует ли модель полезные признаки или всего лишь ложные корреляции.
Выявление потенциальных источников несправедливости путем понимания того, использует ли модель для предсказаний чувствительные признаки или признаки, тесно связанные с ними.
Создайте доверие пользователей к решениям модели, создав локальные объяснения, чтобы проиллюстрировать их результаты.
Проведение регулярного аудита системы ИИ для проверки моделей и отслеживания влияния решений модели на людей.

Как интерпретировать вашу модель

В машинном обучении признаки — это поля данных, используемые для прогнозирования целевой точки данных. Например, для прогнозирования кредитного риска можно использовать такие поля данных, как возраст, размер счёта и возраст счёта. В этом случае возраст, размер счета и время с момента открытия счета являются характеристиками. Важность признака определяет, как каждое поле данных влияет на прогнозы модели. Например, хотя возраст может значительно использоваться в прогнозе, размер счета и возраст счета могут не сильно влиять на прогнозируемые значения. С помощью этого процесса специалисты по обработке и анализу данных могут объяснить полученные прогнозы таким образом, чтобы заинтересованные лица могли видеть наиболее важные признаки в модели.

Используя классы и методы на панели мониторинга ответственного применения ИИ, а также с помощью пакета SDK версии 2 и интерфейса командной строки версии 2, вы можете:

объяснить прогнозы модели, создавая значения важности признаков для всей модели (глобальное объяснение) и (или) отдельных точек (локальное объяснение);
обеспечить интерпретируемость модели в реальных наборах данных в большом масштабе;
Используйте интерактивную панель управления для визуализации данных, чтобы выявить закономерности в ваших данных и их объяснениях во время обучения.

Поддерживаемые методы интерпретации модели

Панель мониторинга ответственного ИИ использует методы интерпретации, разработанные в Interpret-Community, пакете с открытым исходным кодом на Python для обучения интерпретируемых моделей и помощи в объяснении непрозрачных систем ИИ. Модели "черного ящика" — это модели, для которых у нас нет сведений об их внутренней работе.

Interpret-Community выступает в качестве хоста для следующих поддерживаемых платформой объяснений и в настоящее время поддерживает методы интерпретации, представленные в следующих разделах.

Поддерживается на панели мониторинга ответственного применения ИИ в пакете SDK Python версии 2 и CLI версии 2

Метод интерпретации	Описание	Тип
Объяснитель Подражания (Глобальный Суррогат) + дерево SHAP	Метод Mimic Explainer основан на идее обучения глобальных суррогатных моделей для имитации моделей "черного ящика". Модель глобального суррогата — это внутренняя интерпретируемая модель, которая обучена для максимально точной аппроксимации прогнозов любой модели "черного ящика". Специалисты по обработке и анализу данных могут интерпретировать суррогатную модель, чтобы делать выводы о модели "черного ящика". Панель ответственного применения ИИ использует LightGBM (LGBMExplainableModel) в сочетании с SHAP (SHapley Additive exPlanations) Tree Explainer, который является специфическим объяснителем для деревьев и ансамблей деревьев. Сочетание LightGBM и дерева SHAP предоставляет глобальные и локальные объяснения моделей машинного обучения, не зависящие от модели.	Не зависит от модели

Поддерживаемые методы интерпретации модели для текстовых моделей

Техника интерпретируемости	Описание	Тип	Задача "Текст"
Текст SHAP	SHAP (SHapley Additive exPlanations) — это популярный метод объяснения для глубоких нейронных сетей, который предоставляет аналитические сведения о вкладе каждой входной функции в заданный прогноз. Он основан на концепции значений Шапли, который является методом назначения кредита отдельным игрокам в совместной игре. Концепция SHAP применяется к входным признакам нейронной сети путем вычисления среднего вклада каждого признака в результат модели во всех возможных сочетаниях признаков. Для текста в частности, ШАП разбивается на слова иерархическим образом, рассматривая каждое слово или маркер как функцию. Это создает набор значений атрибуции, которые квалифицируют важность каждого слова или маркера для заданного прогноза. Окончательная карта атрибуции создается путем визуализации этих значений в виде тепловой карты по исходному текстовому документу. SHAP — это метод, не зависящий от модели, и его можно использовать для объяснения широкого спектра моделей глубокого обучения, включая CNN, RNN и преобразователи. Кроме того, он предоставляет несколько желательных свойств, таких как согласованность, точность и справедливость, что делает его надежным и интерпретируемым методом для понимания процесса принятия решений модели.	Независимый от модели	Классификация нескольких классов текста, классификация многометок текста

Поддерживаемые методы интерпретации модели для моделей изображений

Техника интерпретируемости	Описание	Тип	Задача визуального зрения
Видение SHAP	SHAP (SHapley Additive exPlanations) — это популярный метод объяснения для глубоких нейронных сетей, который предоставляет аналитические сведения о вкладе каждой входной функции в заданный прогноз. Он основан на концепции значений Шапли, который является методом назначения кредита отдельным игрокам в совместной игре. SHAP применяет эту концепцию к входным признакам нейронной сети, вычисляя средний вклад каждого признака в результат модели для всех возможных комбинаций признаков. Для визуального анализа в частности, SHAP иерархически разбивает изображение, обрабатывая области суперпикселей изображения как каждый признак. Это создает набор значений атрибуции, которые квалифицируют важность каждого суперпикселя или области изображения для заданного прогноза. Окончательная карта атрибуции создается путем визуализации этих значений в виде тепловой карты. SHAP — это метод, не зависящий от модели, и его можно использовать для объяснения широкого спектра моделей глубокого обучения, включая CNN, RNN и преобразователи. Кроме того, он предоставляет несколько желательных свойств, таких как согласованность, точность и справедливость, что делает его надежным и интерпретируемым методом для понимания процесса принятия решений модели.	Независимый от модели	Классификация изображений с несколькими классами, классификация изображений с несколькими метками
Управляемая обратная пропагация	Guided-backprop — это популярный метод интерпретации для глубоких нейронных сетей, который предоставляет понимание обученных репрезентаций модели. Он создает визуализацию входных функций, которые активируют определенный нейрон в модели, вычисляя градиент выходных данных относительно входного изображения. В отличие от других методов, основанных на градиентах, метод с направленным обратным распространением (guided-backprop) передает обратное распространение только через положительные градиенты и использует модифицированную функцию активации ReLU, чтобы убедиться, что отрицательные градиенты не влияют на визуализацию. Это приводит к более интерпретируемой и высокодетализированной карте важности, которая выделяет наиболее важные особенности во входном изображении для заданного прогноза. С помощью Guided-backprop можно объяснить широкий спектр моделей глубокого обучения, включая сверточные нейронные сети (CNN), рекуррентные нейронные сети (RNN) и трансформеры.	AutoML	Классификация изображений с несколькими классами, классификация изображений с несколькими метками
Руководство по gradCAM	Управляемый GradCAM — это популярный метод объяснения для глубоких нейронных сетей, который предоставляет аналитические сведения об обученных представлениях модели. Он создает визуализацию входных характеристик, которые наиболее сильно влияют на конкретный выходной класс, сочетая градиентный подход управляемой обратной пропаганды с подходом локализации GradCAM. В частности, он вычисляет градиенты класса выходных данных относительно карт признаков последнего сверточного слоя в сети, а затем взвешивает каждую карту признаков в соответствии с важностью его активации для этого класса. Это создает тепловую карту с высоким разрешением, которая выделяет наиболее дискриминирующие области входного изображения для заданного выходного класса. С помощью интерактивного GradCAM можно объяснить широкий спектр моделей глубокого обучения, включая CNN, RNN и преобразователи. Кроме того, путем включения управляемой обратной пропаганды визуализация гарантирует, что визуализация имеет смысл и интерпретируется, избегая спрогнозных активаций и отрицательных вкладов.	AutoML	Классификация изображений с несколькими классами, классификация изображений с несколькими метками
Интегрированные Градиенты	Интегрированные градиенты — это популярный метод объяснения для глубоких нейронных сетей, который предоставляет аналитические сведения о вкладе каждой функции ввода в заданный прогноз. Он вычисляет целочисленность градиента выходного класса относительно входного изображения, а также прямой путь между базовым изображением и фактическим входным изображением. Этот путь обычно выбирается для линейной интерполяции между двумя изображениями, при этом базовый план является нейтральным изображением, которое не имеет характерных признаков. Интегрируя градиент по этому пути, интегрированные градиенты предоставляют меру того, как каждая функция ввода способствует прогнозированию, что позволяет создать карту атрибуции. Эта карта выделяет самые влиятельные функции ввода и может использоваться для получения аналитических сведений о процессе принятия решений модели. Интегрированные градиенты можно использовать для объяснения широкого спектра моделей глубокого обучения, включая CNN, RNN и преобразователи. Кроме того, это теоретически обоснованный метод, который удовлетворяет набору желательных свойств, таких как чувствительность, инвариантность реализации и полнота.	автоматическое машинное обучение (AutoML)	Классификация изображений с несколькими классами, классификация изображений с несколькими метками
XRAI	XRAI — это новый метод определения визуальной значимости на основе регионов, основанный на интегральных градиентах (IG). Он перерезает изображение и итеративно проверяет важность каждого региона, объединяя небольшие регионы в более крупные сегменты на основе показателей присвоения. Эта стратегия обеспечивает высокое качество, четко ограниченные области сальности, которые превосходят существующие методы выделения сальности. XRAI можно использовать с любой моделью на основе DNN, если существует способ кластеризации входных функций в сегменты через некоторую метрику сходства.	AutoML	Классификация изображений с несколькими классами, классификация изображений с несколькими метками
D-RISE	D-RISE — это независимый от модели метод для создания визуальных объяснений для предсказаний моделей обнаружения объектов. Учитывая как аспекты локализации, так и классификации обнаружения объектов, D-RISE может создавать карты сальности, которые выделяют части изображения, которые наиболее способствуют прогнозированию детектора. В отличие от методов на основе градиента, D-RISE является более общим и не нуждается в доступе к внутренней работе детектора объектов; Для этого требуется доступ только к входным и выходным данным модели. Метод может применяться к одноэтапным детекторам (например, YOLOv3), двухэтапным детекторам (например, Faster-RCNN), и Vision Transformers (например, DETR, OWL-ViT). D-Rise предоставляет карту сальности, создавая случайные маски входного изображения и отправляя его в детектор объектов со случайными масками входного изображения. Оценивая изменение оценки детектора объектов, система агрегирует все обнаружения по каждой маске и создает окончательную карту салиентности.	Независимый от модели	Обнаружение объектов

Следующие шаги

Узнайте, как создать панель мониторинга ответственного ИИ с помощью CLI версии 2 и пакета SDK версии 2 или пользовательского интерфейса Студии Машинного обучения Azure.
Изучите поддерживаемые визуализации интерпретируемости панели мониторинга ответственного применения ИИ.
Узнайте, как создать систему показателей ответственного применения ИИ на основе аналитических сведений, наблюдаемых на панели мониторинга ответственного применения ИИ.

Поделиться через