Модель кредитного риска кредита и вероятности по умолчанию

Машинное обучение Azure

Azure Synapse Analytics

Служба приложений Azure

Azure Data Lake Storage

Power BI

В этой статье описывается архитектура, которая использует Машинное обучение Azure для прогнозирования отклонений и вероятностей по умолчанию для претендентов на кредит. Прогнозы модели основаны на финансовом поведении заявителя. Модель использует огромный набор точек данных для классификации заявителей и предоставления оценки прав для каждого заявителя.

Apache®, Spark и логотип пламени являются зарегистрированными товарными знаками или товарными знаками Apache Software Foundation в США и/или других странах. Никакое одобрение Apache Software Foundation не подразумевается с помощью этих меток.

Архитектура

Скачайте файл Visio для этой архитектуры.

Поток данных

Следующий поток данных соответствует предыдущей схеме:

служба хранилища. Данные хранятся в базе данных, такой как пул Azure Synapse Analytics, если он структурирован. Старые базы данных SQL можно интегрировать в систему. Полуструктурированные и неструктурированные данные можно загрузить в озеро данных.
Прием и предварительная обработка: конвейеры обработки Azure Synapse Analytics и обработка ETL могут подключаться к данным, хранящимся в Azure или сторонних источниках с помощью встроенных соединителей. Azure Synapse Analytics поддерживает несколько методологий анализа, использующих SQL, Spark, Azure Data Обозреватель и Power BI. Для конвейеров данных можно также использовать существующую Фабрика данных Azure оркестрацию.
Обработка: Машинное обучение Azure используется для разработки моделей машинного обучения и управления ими.
1. Начальная обработка: на этом этапе необработанные данные обрабатываются для создания курированного набора данных, который будет обучать модель машинного обучения. Типичные операции включают форматирование типов данных, опустение отсутствующих значений, проектирование признаков, выделение признаков и уменьшение размерности.
2. Обучение. На этапе обучения Машинное обучение Azure использует обработанный набор данных для обучения модели кредитных рисков и выбора оптимальной модели.
- Обучение модели. Вы можете использовать ряд моделей машинного обучения, включая классические модели машинного обучения и глубокого обучения. Для оптимизации производительности модели можно использовать настройку гиперпараметров.
- Оценка модели: Машинное обучение Azure оценивает производительность каждой обученной модели, чтобы выбрать лучшую модель для развертывания.
- Регистрация модели: вы регистрируете модель, которая лучше всего выполняется в Машинное обучение Azure. Этот шаг делает модель доступной для развертывания.
c. Ответственный ИИ: ответственный ИИ — это подход к разработке, оценке и развертыванию систем ИИ в безопасном, надежном и этическим способе. Так как эта модель вызывает утверждение или отказ в принятии решения о запросе на кредит, необходимо реализовать принципы ответственного ИИ.
- Метрики справедливости оценивают влияние несправедливого поведения и обеспечивают стратегии устранения рисков. Конфиденциальные функции и атрибуты определяются в наборе данных и в когортах (подмножествах) данных. Дополнительные сведения см. в разделе "Производительность модели" и "справедливость".
- Интерпретация — это мера того, насколько хорошо можно понять поведение модели машинного обучения. Этот компонент ответственного ИИ создает понятные для человека описания прогнозов модели. Дополнительные сведения см. в разделе "Интерпретация модели".
Развертывание машинного обучения в режиме реального времени: необходимо использовать вывод модели в режиме реального времени, когда запрос должен быть немедленно проверен для утверждения.
1. Управляемая конечная точка машинного обучения в Интернете. Для оценки в режиме реального времени необходимо выбрать соответствующий целевой объект вычислений.
2. Онлайн-запросы на кредиты используют оценку в режиме реального времени на основе входных данных из формы или заявки на кредит.
3. Решение и входные данные, используемые для оценки моделей, хранятся в постоянном хранилище и могут быть получены для последующей ссылки.
Развертывание пакетного машинного обучения: для автономной обработки кредитов модель планируется активировать с регулярными интервалами.
1. Управляемая конечная точка пакетной службы. Пакетное вывод запланировано и создается результирующий набор данных. Решения основаны на кредитоспособности заявителя.
2. Результирующий набор оценки из пакетной обработки сохраняется в базе данных или хранилище данных Azure Synapse Analytics.
Интерфейс к данным о действиях заявителей: сведения, введенные заявителем, внутренним кредитным профилем и решением модели, все этапы и хранятся в соответствующих службах данных. Эти сведения используются в механизме принятия решений для будущей оценки, поэтому они документируются.
- служба хранилища. Все сведения об обработке кредитов хранятся в постоянном хранилище.
- Пользовательский интерфейс: утверждение или отказ в принятии решения представлено заявителю.
Отчеты: аналитика в режиме реального времени о количестве обработанных приложений и утверждении или отклонении результатов постоянно представлена руководителям и руководству. Примеры отчетности включают почти в режиме реального времени отчеты о утвержденных суммах, созданном кредитном портфеле и производительности модели.

Компоненты

Хранилище BLOB-объектов Azure предоставляет масштабируемое хранилище объектов для неструктурированных данных. Он оптимизирован для хранения таких файлов, как двоичные файлы, журналы действий и файлы, которые не соответствуют определенному формату.
Azure Data Lake служба хранилища — это основа хранилища для создания экономичных озер данных в Azure. Он предоставляет хранилище BLOB-объектов с иерархической структурой папок и улучшенной производительностью, управлением и безопасностью. Он обслуживает несколько петабайтов информации при поддержании сотен гигабит пропускной способности.
Azure Synapse Analytics — это служба аналитики, которая объединяет лучшие технологии SQL и Spark и унифицированное взаимодействие с пользователем для Azure Synapse Data Обозреватель и конвейеров. Она интегрируется с Power BI, Azure Cosmos DB и Машинное обучение Azure. Служба поддерживает как выделенные, так и бессерверные модели ресурсов и возможность переключения между этими моделями.
База данных SQL Azure — это всегда актуальная полностью управляемая реляционная база данных, созданная для облака.
Машинное обучение Azure — это облачная служба для управления жизненными циклами проектов машинного обучения. Она предоставляет интегрированную среду для изучения данных, создания модели и управления и развертывания, а также поддерживает подходы к машинному обучению в коде в первую очередь и с низким кодом.
Power BI — это средство визуализации, которое обеспечивает простую интеграцию с ресурсами Azure.
служба приложение Azure позволяет создавать и размещать веб-приложения, мобильные серверные части и API RESTful без управления инфраструктурой. Поддерживаемые языки включают .NET, .NET Core, Java, Ruby, Node.js, PHP и Python.

Альтернативные варианты

Azure Databricksможно использовать для разработки, развертывания и управления моделями машинного обучения и рабочими нагрузками аналитики. Служба предоставляет единую среду для разработки моделей.

Подробности сценария

Организациям в финансовой отрасли необходимо спрогнозировать кредитный риск частных лиц или предприятий, запрашивающих кредит. Эта модель оценивает отклонение и вероятности по умолчанию для претендентов на кредит.

Прогнозирование кредитных рисков включает глубокий анализ поведения населения и классификацию базы клиентов на сегменты на основе финансовой ответственности. Другие переменные включают рыночные факторы и экономические условия, которые имеют значительное влияние на результаты.

Проблемы. Входные данные включают десятки миллионов профилей клиентов и данные о поведении клиентов и привычках расходов, основанных на миллиардах записей из разных систем, таких как внутренние системы активности клиентов. Сторонние данные о экономических условиях и анализ рынка страны или региона могут поступать из ежемесячных или квартальных моментальных снимков, требующих загрузки и обслуживания сотен ГБИТ-объектов файлов. Для проверки целостности данных требуются сведения о кредитных бюро о заявителе или полуструктурированных строках данных клиента, а также перекрестные соединения между этими наборами данных и проверка качества для проверки целостности данных.

Данные обычно состоят из таблиц сведений о клиентах из кредитных бюро вместе с анализом рынка. Действие клиента состоит из записей с динамическим макетом, которые могут быть не структурированы. Данные также доступны в тексте бесплатной формы из заметок службы клиентов и форм взаимодействия с претендентами.

Обработка этих больших объемов данных и обеспечение текущих результатов требует упрощенной обработки. Требуется хранилище с низкой задержкой и процесс извлечения. Инфраструктура данных должна иметь возможность масштабироваться для поддержки разрозненных источников данных и обеспечить возможность управления и защиты периметра данных. Платформа машинного обучения должна поддерживать сложный анализ многих моделей, которые обучены, тестируются и проверяются во многих сегментах населения.

Конфиденциальность и конфиденциальность данных. Обработка данных для этой модели включает персональные данные и демографические сведения. Необходимо избежать профилирования населения. Прямая видимость для всех персональных данных должна быть ограничена. Примеры персональных данных включают номера счетов, кредитные карта сведения, номера социального страхования, имена, адреса и почтовые коды.

Номера кредитных карта и банковских счетов всегда должны быть замечены. Некоторые элементы данных должны быть маскированы и всегда зашифрованы, предоставляя доступ к базовой информации, но доступной для анализа.

Данные должны быть зашифрованы неактивных данных, во время передачи и во время обработки с помощью безопасных анклавах. Доступ к элементам данных регистрируется в решении мониторинга. Рабочая система должна быть настроена с соответствующими конвейерами CI/CD с утверждениями, которые активируют развертывания и процессы модели. Аудит журналов и рабочих процессов должен обеспечить взаимодействие с данными для любых требований соответствия требованиям.

Обрабатывается. Эта модель требует высокой вычислительной мощности для анализа, контекстуализации и обучения модели и развертывания. Оценка модели проверяется на основе случайных выборок, чтобы обеспечить, чтобы кредитные решения не включали никаких гонки, пола, этнических или географических расположений. Модель принятия решений должна быть задокументирована и архивирована для последующей справки. Сохраняется каждый фактор, участвующий в результатах принятия решений.

Для обработки данных требуется высокая загрузка ЦП. Она включает обработку структурированных данных в формате DB и JSON, обработку кадров данных Spark или аналитику больших данных по терабайтам информации в различных форматах документов. Задания ELT/ETL для данных планируются или активируются через регулярные интервалы или в режиме реального времени в зависимости от значения последних данных.

Соответствие требованиям и нормативным требованиям. Каждая деталь обработки кредитов должна быть задокументирована, включая отправленное приложение, функции, используемые в оценке моделей, и результирующий набор модели. Сведения об обучении модели, данные, используемые для обучения, и результаты обучения должны быть зарегистрированы для будущих запросов на справочные материалы и аудит и соответствие требованиям.

Пакетная обработка и оценка в режиме реального времени. Некоторые задачи являются упреждающим и могут обрабатываться как пакетные задания, например предварительно утвержденные передачи баланса. Для некоторых запросов, таких как увеличение кредитной линии в интернете, требуется утверждение в режиме реального времени.

Доступ в режиме реального времени к статусу онлайн-запросов на кредит должен быть доступен заявителю. Финансовое учреждение, выдающего кредит, постоянно отслеживает производительность кредитной модели и нуждается в метриках, таких как статус утверждения кредита, количество утвержденных кредитов, сумм доллара, выданных и качество новых кредитных кредитов.

Ответственное применение ИИ

Панель мониторинга ответственного искусственного интеллекта предоставляет единый интерфейс для нескольких инструментов, которые помогут реализовать ответственный ИИ. Ответственный стандарт ИИ основан на шести принципах:

Схема, показывающая шесть принципов ответственного ИИ.

Справедливость и инклюзивность в Машинное обучение Azure. Этот компонент панели мониторинга ответственного искусственного интеллекта помогает оценить несправедливое поведение, избегая вреда распределения и вреда качества обслуживания. Его можно использовать для оценки справедливости между конфиденциальными группами, определенными с точки зрения пола, возраста, этнической принадлежности и других характеристик. Во время оценки справедливость определяется через метрики неравенства. Необходимо реализовать алгоритмы устранения рисков в пакете Fairlearn с открытым исходным кодом, который использует ограничения четности.

Надежность и безопасность в Машинное обучение Azure. Компонент анализа ошибок ответственного искусственного интеллекта поможет вам:

Получите глубокое представление о том, как распределяется сбой для модели.
Определите когорты данных, которые имеют более высокую частоту ошибок, чем общий тест.

Прозрачность в Машинное обучение Azure. Важной частью прозрачности является понимание того, как функции влияют на модель машинного обучения.

Интерпретация модели помогает понять, что влияет на поведение модели. Он создает понятное для человека описание прогнозов модели. Это понимание помогает гарантировать, что модель можно доверять и помогает отлаживать и улучшать ее. ИнтерпретироватьML поможет вам понять структуру моделей стеклянной коробки или связь между функциями в моделях глубокой нейронной сети в черном ящике.
Контрфактуальные действия , которые могут помочь вам понять и отладить модель машинного обучения с точки зрения того, как она реагирует на изменения функций и возмущения.

Конфиденциальность и безопасность в Машинное обучение Azure. Администраторы машинного обучения должны создать безопасную конфигурацию для разработки и управления развертыванием моделей. Функции безопасности и управления помогут вам соответствовать политикам безопасности организации. Другие средства помогут вам оценить и защитить модели.

Подотчетность в Машинное обучение Azure. Операции машинного обучения (MLOps) основаны на принципах и методиках DevOps, которые повышают эффективность рабочих процессов ИИ. Машинное обучение Azure поможет реализовать возможности MLOps:

Регистрация, упаковка и развертывание моделей
Получение уведомлений и оповещений об изменениях моделей
Сбор данных системы управления для комплексного жизненного цикла
Мониторинг приложений для операционных проблем

На этой схеме показаны возможности MLOps Машинное обучение Azure:

Схема, описывающая возможности MLOps Машинное обучение Azure.

Потенциальные варианты использования

Это решение можно применить к следующим сценариям:

Финансы: получение финансового анализа клиентов или межпродажный анализ клиентов для целевых маркетинговых кампаний.
Здравоохранение: используйте информацию о пациенте в качестве входных данных, чтобы предложить предложения лечения.
Гостеприимство: создайте профиль клиента, чтобы предложить предложения для отелей, рейсов, круизных пакетов и членства.

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участник.

Автор субъекта:

Шарита Басани | Старший архитектор облачных решений

Другие участник:

Мик Альбертс | Технический писатель

Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.

Модель кредитного риска кредита и вероятности по умолчанию

Архитектура

Поток данных

Компоненты

Альтернативные варианты

Подробности сценария

Ответственное применение ИИ

Потенциальные варианты использования

Рекомендации

Безопасность

Оптимизация затрат

Эффективность работы

Оптимизация производительности

Соавторы

Следующие шаги

Обратная связь

Обратная связь

Дополнительные ресурсы

Модель кредитного риска кредита и вероятности по умолчанию

Архитектура

Поток данных

Компоненты

Альтернативные варианты

Подробности сценария

Ответственное применение ИИ

Потенциальные варианты использования

Рекомендации

Безопасность

Оптимизация затрат

Эффективность работы

Оптимизация производительности

Соавторы

Следующие шаги

Связанные ресурсы

Обратная связь

Обратная связь

Дополнительные ресурсы