Модель кредитного риска кредита и вероятности по умолчанию

Машинное обучение Azure
Azure Synapse Analytics
Служба приложений Azure
Azure Data Lake Storage
Power BI

В этой статье описывается архитектура, которая использует Машинное обучение Azure для прогнозирования отклонений и вероятностей по умолчанию для претендентов на кредит. Прогнозы модели основаны на финансовом поведении заявителя. Модель использует огромный набор точек данных для классификации заявителей и предоставления оценки прав для каждого заявителя.

Apache®, Spark и логотип пламени являются зарегистрированными товарными знаками или товарными знаками Apache Software Foundation в США и/или других странах. Никакое одобрение Apache Software Foundation не подразумевается с помощью этих меток.

Архитектура

Схема, показывающая архитектуру для прогнозирования кредитного риска.

Скачайте файл Visio для этой архитектуры.

Поток данных

Следующий поток данных соответствует предыдущей схеме:

  1. служба хранилища. Данные хранятся в базе данных, такой как пул Azure Synapse Analytics, если он структурирован. Старые базы данных SQL можно интегрировать в систему. Полуструктурированные и неструктурированные данные можно загрузить в озеро данных.

  2. Прием и предварительная обработка: конвейеры обработки Azure Synapse Analytics и обработка ETL могут подключаться к данным, хранящимся в Azure или сторонних источниках с помощью встроенных соединителей. Azure Synapse Analytics поддерживает несколько методологий анализа, использующих SQL, Spark, Azure Data Обозреватель и Power BI. Для конвейеров данных можно также использовать существующую Фабрика данных Azure оркестрацию.

  3. Обработка: Машинное обучение Azure используется для разработки моделей машинного обучения и управления ими.

    1. Начальная обработка: на этом этапе необработанные данные обрабатываются для создания курированного набора данных, который будет обучать модель машинного обучения. Типичные операции включают форматирование типов данных, опустение отсутствующих значений, проектирование признаков, выделение признаков и уменьшение размерности.

    2. Обучение. На этапе обучения Машинное обучение Azure использует обработанный набор данных для обучения модели кредитных рисков и выбора оптимальной модели.

    • Обучение модели. Вы можете использовать ряд моделей машинного обучения, включая классические модели машинного обучения и глубокого обучения. Для оптимизации производительности модели можно использовать настройку гиперпараметров.

    • Оценка модели: Машинное обучение Azure оценивает производительность каждой обученной модели, чтобы выбрать лучшую модель для развертывания.

    • Регистрация модели: вы регистрируете модель, которая лучше всего выполняется в Машинное обучение Azure. Этот шаг делает модель доступной для развертывания.

    c. Ответственный ИИ: ответственный ИИ — это подход к разработке, оценке и развертыванию систем ИИ в безопасном, надежном и этическим способе. Так как эта модель вызывает утверждение или отказ в принятии решения о запросе на кредит, необходимо реализовать принципы ответственного ИИ.

    • Метрики справедливости оценивают влияние несправедливого поведения и обеспечивают стратегии устранения рисков. Конфиденциальные функции и атрибуты определяются в наборе данных и в когортах (подмножествах) данных. Дополнительные сведения см. в разделе "Производительность модели" и "справедливость".

    • Интерпретация — это мера того, насколько хорошо можно понять поведение модели машинного обучения. Этот компонент ответственного ИИ создает понятные для человека описания прогнозов модели. Дополнительные сведения см. в разделе "Интерпретация модели".

  4. Развертывание машинного обучения в режиме реального времени: необходимо использовать вывод модели в режиме реального времени, когда запрос должен быть немедленно проверен для утверждения.

    1. Управляемая конечная точка машинного обучения в Интернете. Для оценки в режиме реального времени необходимо выбрать соответствующий целевой объект вычислений.
    2. Онлайн-запросы на кредиты используют оценку в режиме реального времени на основе входных данных из формы или заявки на кредит.
    3. Решение и входные данные, используемые для оценки моделей, хранятся в постоянном хранилище и могут быть получены для последующей ссылки.
  5. Развертывание пакетного машинного обучения: для автономной обработки кредитов модель планируется активировать с регулярными интервалами.

    1. Управляемая конечная точка пакетной службы. Пакетное вывод запланировано и создается результирующий набор данных. Решения основаны на кредитоспособности заявителя.
    2. Результирующий набор оценки из пакетной обработки сохраняется в базе данных или хранилище данных Azure Synapse Analytics.
  6. Интерфейс к данным о действиях заявителей: сведения, введенные заявителем, внутренним кредитным профилем и решением модели, все этапы и хранятся в соответствующих службах данных. Эти сведения используются в механизме принятия решений для будущей оценки, поэтому они документируются.

    • служба хранилища. Все сведения об обработке кредитов хранятся в постоянном хранилище.
    • Пользовательский интерфейс: утверждение или отказ в принятии решения представлено заявителю.
  7. Отчеты: аналитика в режиме реального времени о количестве обработанных приложений и утверждении или отклонении результатов постоянно представлена руководителям и руководству. Примеры отчетности включают почти в режиме реального времени отчеты о утвержденных суммах, созданном кредитном портфеле и производительности модели.

Компоненты

  • Хранилище BLOB-объектов Azure предоставляет масштабируемое хранилище объектов для неструктурированных данных. Он оптимизирован для хранения таких файлов, как двоичные файлы, журналы действий и файлы, которые не соответствуют определенному формату.
  • Azure Data Lake служба хранилища — это основа хранилища для создания экономичных озер данных в Azure. Он предоставляет хранилище BLOB-объектов с иерархической структурой папок и улучшенной производительностью, управлением и безопасностью. Он обслуживает несколько петабайтов информации при поддержании сотен гигабит пропускной способности.
  • Azure Synapse Analytics — это служба аналитики, которая объединяет лучшие технологии SQL и Spark и унифицированное взаимодействие с пользователем для Azure Synapse Data Обозреватель и конвейеров. Она интегрируется с Power BI, Azure Cosmos DB и Машинное обучение Azure. Служба поддерживает как выделенные, так и бессерверные модели ресурсов и возможность переключения между этими моделями.
  • База данных SQL Azure — это всегда актуальная полностью управляемая реляционная база данных, созданная для облака.
  • Машинное обучение Azure — это облачная служба для управления жизненными циклами проектов машинного обучения. Она предоставляет интегрированную среду для изучения данных, создания модели и управления и развертывания, а также поддерживает подходы к машинному обучению в коде в первую очередь и с низким кодом.
  • Power BI — это средство визуализации, которое обеспечивает простую интеграцию с ресурсами Azure.
  • служба приложение Azure позволяет создавать и размещать веб-приложения, мобильные серверные части и API RESTful без управления инфраструктурой. Поддерживаемые языки включают .NET, .NET Core, Java, Ruby, Node.js, PHP и Python.

Альтернативные варианты

Azure Databricksможно использовать для разработки, развертывания и управления моделями машинного обучения и рабочими нагрузками аналитики. Служба предоставляет единую среду для разработки моделей.

Подробности сценария

Организациям в финансовой отрасли необходимо спрогнозировать кредитный риск частных лиц или предприятий, запрашивающих кредит. Эта модель оценивает отклонение и вероятности по умолчанию для претендентов на кредит.

Прогнозирование кредитных рисков включает глубокий анализ поведения населения и классификацию базы клиентов на сегменты на основе финансовой ответственности. Другие переменные включают рыночные факторы и экономические условия, которые имеют значительное влияние на результаты.

Проблемы. Входные данные включают десятки миллионов профилей клиентов и данные о поведении клиентов и привычках расходов, основанных на миллиардах записей из разных систем, таких как внутренние системы активности клиентов. Сторонние данные о экономических условиях и анализ рынка страны или региона могут поступать из ежемесячных или квартальных моментальных снимков, требующих загрузки и обслуживания сотен ГБИТ-объектов файлов. Для проверки целостности данных требуются сведения о кредитных бюро о заявителе или полуструктурированных строках данных клиента, а также перекрестные соединения между этими наборами данных и проверка качества для проверки целостности данных.

Данные обычно состоят из таблиц сведений о клиентах из кредитных бюро вместе с анализом рынка. Действие клиента состоит из записей с динамическим макетом, которые могут быть не структурированы. Данные также доступны в тексте бесплатной формы из заметок службы клиентов и форм взаимодействия с претендентами.

Обработка этих больших объемов данных и обеспечение текущих результатов требует упрощенной обработки. Требуется хранилище с низкой задержкой и процесс извлечения. Инфраструктура данных должна иметь возможность масштабироваться для поддержки разрозненных источников данных и обеспечить возможность управления и защиты периметра данных. Платформа машинного обучения должна поддерживать сложный анализ многих моделей, которые обучены, тестируются и проверяются во многих сегментах населения.

Конфиденциальность и конфиденциальность данных. Обработка данных для этой модели включает персональные данные и демографические сведения. Необходимо избежать профилирования населения. Прямая видимость для всех персональных данных должна быть ограничена. Примеры персональных данных включают номера счетов, кредитные карта сведения, номера социального страхования, имена, адреса и почтовые коды.

Номера кредитных карта и банковских счетов всегда должны быть замечены. Некоторые элементы данных должны быть маскированы и всегда зашифрованы, предоставляя доступ к базовой информации, но доступной для анализа.

Данные должны быть зашифрованы неактивных данных, во время передачи и во время обработки с помощью безопасных анклавах. Доступ к элементам данных регистрируется в решении мониторинга. Рабочая система должна быть настроена с соответствующими конвейерами CI/CD с утверждениями, которые активируют развертывания и процессы модели. Аудит журналов и рабочих процессов должен обеспечить взаимодействие с данными для любых требований соответствия требованиям.

Обрабатывается. Эта модель требует высокой вычислительной мощности для анализа, контекстуализации и обучения модели и развертывания. Оценка модели проверяется на основе случайных выборок, чтобы обеспечить, чтобы кредитные решения не включали никаких гонки, пола, этнических или географических расположений. Модель принятия решений должна быть задокументирована и архивирована для последующей справки. Сохраняется каждый фактор, участвующий в результатах принятия решений.

Для обработки данных требуется высокая загрузка ЦП. Она включает обработку структурированных данных в формате DB и JSON, обработку кадров данных Spark или аналитику больших данных по терабайтам информации в различных форматах документов. Задания ELT/ETL для данных планируются или активируются через регулярные интервалы или в режиме реального времени в зависимости от значения последних данных.

Соответствие требованиям и нормативным требованиям. Каждая деталь обработки кредитов должна быть задокументирована, включая отправленное приложение, функции, используемые в оценке моделей, и результирующий набор модели. Сведения об обучении модели, данные, используемые для обучения, и результаты обучения должны быть зарегистрированы для будущих запросов на справочные материалы и аудит и соответствие требованиям.

Пакетная обработка и оценка в режиме реального времени. Некоторые задачи являются упреждающим и могут обрабатываться как пакетные задания, например предварительно утвержденные передачи баланса. Для некоторых запросов, таких как увеличение кредитной линии в интернете, требуется утверждение в режиме реального времени.

Доступ в режиме реального времени к статусу онлайн-запросов на кредит должен быть доступен заявителю. Финансовое учреждение, выдающего кредит, постоянно отслеживает производительность кредитной модели и нуждается в метриках, таких как статус утверждения кредита, количество утвержденных кредитов, сумм доллара, выданных и качество новых кредитных кредитов.

Ответственное применение ИИ

Панель мониторинга ответственного искусственного интеллекта предоставляет единый интерфейс для нескольких инструментов, которые помогут реализовать ответственный ИИ. Ответственный стандарт ИИ основан на шести принципах:

Схема, показывающая шесть принципов ответственного ИИ.

Справедливость и инклюзивность в Машинное обучение Azure. Этот компонент панели мониторинга ответственного искусственного интеллекта помогает оценить несправедливое поведение, избегая вреда распределения и вреда качества обслуживания. Его можно использовать для оценки справедливости между конфиденциальными группами, определенными с точки зрения пола, возраста, этнической принадлежности и других характеристик. Во время оценки справедливость определяется через метрики неравенства. Необходимо реализовать алгоритмы устранения рисков в пакете Fairlearn с открытым исходным кодом, который использует ограничения четности.

Надежность и безопасность в Машинное обучение Azure. Компонент анализа ошибок ответственного искусственного интеллекта поможет вам:

  • Получите глубокое представление о том, как распределяется сбой для модели.
  • Определите когорты данных, которые имеют более высокую частоту ошибок, чем общий тест.

Прозрачность в Машинное обучение Azure. Важной частью прозрачности является понимание того, как функции влияют на модель машинного обучения.

  • Интерпретация модели помогает понять, что влияет на поведение модели. Он создает понятное для человека описание прогнозов модели. Это понимание помогает гарантировать, что модель можно доверять и помогает отлаживать и улучшать ее. ИнтерпретироватьML поможет вам понять структуру моделей стеклянной коробки или связь между функциями в моделях глубокой нейронной сети в черном ящике.
  • Контрфактуальные действия , которые могут помочь вам понять и отладить модель машинного обучения с точки зрения того, как она реагирует на изменения функций и возмущения.

Конфиденциальность и безопасность в Машинное обучение Azure. Администраторы машинного обучения должны создать безопасную конфигурацию для разработки и управления развертыванием моделей. Функции безопасности и управления помогут вам соответствовать политикам безопасности организации. Другие средства помогут вам оценить и защитить модели.

Подотчетность в Машинное обучение Azure. Операции машинного обучения (MLOps) основаны на принципах и методиках DevOps, которые повышают эффективность рабочих процессов ИИ. Машинное обучение Azure поможет реализовать возможности MLOps:

  • Регистрация, упаковка и развертывание моделей
  • Получение уведомлений и оповещений об изменениях моделей
  • Сбор данных системы управления для комплексного жизненного цикла
  • Мониторинг приложений для операционных проблем

На этой схеме показаны возможности MLOps Машинное обучение Azure:

Схема, описывающая возможности MLOps Машинное обучение Azure.

Потенциальные варианты использования

Это решение можно применить к следующим сценариям:

  • Финансы: получение финансового анализа клиентов или межпродажный анализ клиентов для целевых маркетинговых кампаний.
  • Здравоохранение: используйте информацию о пациенте в качестве входных данных, чтобы предложить предложения лечения.
  • Гостеприимство: создайте профиль клиента, чтобы предложить предложения для отелей, рейсов, круизных пакетов и членства.

Рекомендации

Эти рекомендации реализуют основные принципы платформы Azure Well-Architected Framework, которая представляет собой набор руководящих принципов, которые можно использовать для улучшения качества рабочей нагрузки. Дополнительные сведения см. в статье Microsoft Azure Well-Architected Framework.

Безопасность

Безопасность обеспечивает гарантии от преднамеренного нападения и злоупотребления ценными данными и системами. Дополнительные сведения см. в разделе "Общие сведения о компоненте безопасности".

Решения Azure обеспечивают защиту в глубине и подход нулевого доверия.

Рассмотрите возможность реализации следующих функций безопасности в этой архитектуре:

Оптимизация затрат

Оптимизация затрат заключается в сокращении ненужных расходов и повышении эффективности работы. Дополнительные сведения см. в разделе Обзор критерия "Оптимизация затрат".

Чтобы оценить затраты на реализацию этого решения, используйте калькулятор цен Azure.

Кроме того, рассмотрите следующие ресурсы:

Эффективность работы

Оперативное превосходство охватывает процессы операций, которые развертывают приложение и продолжают работать в рабочей среде. Дополнительные сведения см. в разделе "Общие сведения о принципах эффективности работы".

Решения машинного обучения должны быть масштабируемыми и стандартизированными для упрощения управления и обслуживания. Убедитесь, что решение поддерживает текущее вывод с помощью циклов переобучения и автоматического повторного развертывания моделей.

Дополнительные сведения см . в акселераторе решений Azure MLOps (версии 2).

Оптимизация производительности

Уровень производительности — это способность вашей рабочей нагрузки эффективно масштабироваться в соответствии с требованиями, предъявляемыми к ней пользователями. Дополнительные сведения см. в разделе "Общие сведения о эффективности производительности".

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участник.

Автор субъекта:

Другие участник:

Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.

Следующие шаги