В этой статье описывается архитектура, которая использует Машинное обучение Azure для прогнозирования отклонений и вероятностей по умолчанию для претендентов на кредит. Прогнозы модели основаны на финансовом поведении заявителя. Модель использует огромный набор точек данных для классификации заявителей и предоставления оценки прав для каждого заявителя.
Apache®, Spark и логотип пламени являются зарегистрированными товарными знаками или товарными знаками Apache Software Foundation в США и/или других странах. Никакое одобрение Apache Software Foundation не подразумевается с помощью этих меток.
Архитектура
Скачайте файл Visio для этой архитектуры.
Поток данных
Следующий поток данных соответствует предыдущей схеме:
служба хранилища. Данные хранятся в базе данных, такой как пул Azure Synapse Analytics, если он структурирован. Старые базы данных SQL можно интегрировать в систему. Полуструктурированные и неструктурированные данные можно загрузить в озеро данных.
Прием и предварительная обработка: конвейеры обработки Azure Synapse Analytics и обработка ETL могут подключаться к данным, хранящимся в Azure или сторонних источниках с помощью встроенных соединителей. Azure Synapse Analytics поддерживает несколько методологий анализа, использующих SQL, Spark, Azure Data Обозреватель и Power BI. Для конвейеров данных можно также использовать существующую Фабрика данных Azure оркестрацию.
Обработка: Машинное обучение Azure используется для разработки моделей машинного обучения и управления ими.
Начальная обработка: на этом этапе необработанные данные обрабатываются для создания курированного набора данных, который будет обучать модель машинного обучения. Типичные операции включают форматирование типов данных, опустение отсутствующих значений, проектирование признаков, выделение признаков и уменьшение размерности.
Обучение. На этапе обучения Машинное обучение Azure использует обработанный набор данных для обучения модели кредитных рисков и выбора оптимальной модели.
Обучение модели. Вы можете использовать ряд моделей машинного обучения, включая классические модели машинного обучения и глубокого обучения. Для оптимизации производительности модели можно использовать настройку гиперпараметров.
Оценка модели: Машинное обучение Azure оценивает производительность каждой обученной модели, чтобы выбрать лучшую модель для развертывания.
Регистрация модели: вы регистрируете модель, которая лучше всего выполняется в Машинное обучение Azure. Этот шаг делает модель доступной для развертывания.
c. Ответственный ИИ: ответственный ИИ — это подход к разработке, оценке и развертыванию систем ИИ в безопасном, надежном и этическим способе. Так как эта модель вызывает утверждение или отказ в принятии решения о запросе на кредит, необходимо реализовать принципы ответственного ИИ.
Метрики справедливости оценивают влияние несправедливого поведения и обеспечивают стратегии устранения рисков. Конфиденциальные функции и атрибуты определяются в наборе данных и в когортах (подмножествах) данных. Дополнительные сведения см. в разделе "Производительность модели" и "справедливость".
Интерпретация — это мера того, насколько хорошо можно понять поведение модели машинного обучения. Этот компонент ответственного ИИ создает понятные для человека описания прогнозов модели. Дополнительные сведения см. в разделе "Интерпретация модели".
Развертывание машинного обучения в режиме реального времени: необходимо использовать вывод модели в режиме реального времени, когда запрос должен быть немедленно проверен для утверждения.
- Управляемая конечная точка машинного обучения в Интернете. Для оценки в режиме реального времени необходимо выбрать соответствующий целевой объект вычислений.
- Онлайн-запросы на кредиты используют оценку в режиме реального времени на основе входных данных из формы или заявки на кредит.
- Решение и входные данные, используемые для оценки моделей, хранятся в постоянном хранилище и могут быть получены для последующей ссылки.
Развертывание пакетного машинного обучения: для автономной обработки кредитов модель планируется активировать с регулярными интервалами.
- Управляемая конечная точка пакетной службы. Пакетное вывод запланировано и создается результирующий набор данных. Решения основаны на кредитоспособности заявителя.
- Результирующий набор оценки из пакетной обработки сохраняется в базе данных или хранилище данных Azure Synapse Analytics.
Интерфейс к данным о действиях заявителей: сведения, введенные заявителем, внутренним кредитным профилем и решением модели, все этапы и хранятся в соответствующих службах данных. Эти сведения используются в механизме принятия решений для будущей оценки, поэтому они документируются.
- служба хранилища. Все сведения об обработке кредитов хранятся в постоянном хранилище.
- Пользовательский интерфейс: утверждение или отказ в принятии решения представлено заявителю.
Отчеты: аналитика в режиме реального времени о количестве обработанных приложений и утверждении или отклонении результатов постоянно представлена руководителям и руководству. Примеры отчетности включают почти в режиме реального времени отчеты о утвержденных суммах, созданном кредитном портфеле и производительности модели.
Компоненты
- Хранилище BLOB-объектов Azure предоставляет масштабируемое хранилище объектов для неструктурированных данных. Он оптимизирован для хранения таких файлов, как двоичные файлы, журналы действий и файлы, которые не соответствуют определенному формату.
- Azure Data Lake служба хранилища — это основа хранилища для создания экономичных озер данных в Azure. Он предоставляет хранилище BLOB-объектов с иерархической структурой папок и улучшенной производительностью, управлением и безопасностью. Он обслуживает несколько петабайтов информации при поддержании сотен гигабит пропускной способности.
- Azure Synapse Analytics — это служба аналитики, которая объединяет лучшие технологии SQL и Spark и унифицированное взаимодействие с пользователем для Azure Synapse Data Обозреватель и конвейеров. Она интегрируется с Power BI, Azure Cosmos DB и Машинное обучение Azure. Служба поддерживает как выделенные, так и бессерверные модели ресурсов и возможность переключения между этими моделями.
- База данных SQL Azure — это всегда актуальная полностью управляемая реляционная база данных, созданная для облака.
- Машинное обучение Azure — это облачная служба для управления жизненными циклами проектов машинного обучения. Она предоставляет интегрированную среду для изучения данных, создания модели и управления и развертывания, а также поддерживает подходы к машинному обучению в коде в первую очередь и с низким кодом.
- Power BI — это средство визуализации, которое обеспечивает простую интеграцию с ресурсами Azure.
- служба приложение Azure позволяет создавать и размещать веб-приложения, мобильные серверные части и API RESTful без управления инфраструктурой. Поддерживаемые языки включают .NET, .NET Core, Java, Ruby, Node.js, PHP и Python.
Альтернативные варианты
Azure Databricksможно использовать для разработки, развертывания и управления моделями машинного обучения и рабочими нагрузками аналитики. Служба предоставляет единую среду для разработки моделей.
Подробности сценария
Организациям в финансовой отрасли необходимо спрогнозировать кредитный риск частных лиц или предприятий, запрашивающих кредит. Эта модель оценивает отклонение и вероятности по умолчанию для претендентов на кредит.
Прогнозирование кредитных рисков включает глубокий анализ поведения населения и классификацию базы клиентов на сегменты на основе финансовой ответственности. Другие переменные включают рыночные факторы и экономические условия, которые имеют значительное влияние на результаты.
Проблемы. Входные данные включают десятки миллионов профилей клиентов и данные о поведении клиентов и привычках расходов, основанных на миллиардах записей из разных систем, таких как внутренние системы активности клиентов. Сторонние данные о экономических условиях и анализ рынка страны или региона могут поступать из ежемесячных или квартальных моментальных снимков, требующих загрузки и обслуживания сотен ГБИТ-объектов файлов. Для проверки целостности данных требуются сведения о кредитных бюро о заявителе или полуструктурированных строках данных клиента, а также перекрестные соединения между этими наборами данных и проверка качества для проверки целостности данных.
Данные обычно состоят из таблиц сведений о клиентах из кредитных бюро вместе с анализом рынка. Действие клиента состоит из записей с динамическим макетом, которые могут быть не структурированы. Данные также доступны в тексте бесплатной формы из заметок службы клиентов и форм взаимодействия с претендентами.
Обработка этих больших объемов данных и обеспечение текущих результатов требует упрощенной обработки. Требуется хранилище с низкой задержкой и процесс извлечения. Инфраструктура данных должна иметь возможность масштабироваться для поддержки разрозненных источников данных и обеспечить возможность управления и защиты периметра данных. Платформа машинного обучения должна поддерживать сложный анализ многих моделей, которые обучены, тестируются и проверяются во многих сегментах населения.
Конфиденциальность и конфиденциальность данных. Обработка данных для этой модели включает персональные данные и демографические сведения. Необходимо избежать профилирования населения. Прямая видимость для всех персональных данных должна быть ограничена. Примеры персональных данных включают номера счетов, кредитные карта сведения, номера социального страхования, имена, адреса и почтовые коды.
Номера кредитных карта и банковских счетов всегда должны быть замечены. Некоторые элементы данных должны быть маскированы и всегда зашифрованы, предоставляя доступ к базовой информации, но доступной для анализа.
Данные должны быть зашифрованы неактивных данных, во время передачи и во время обработки с помощью безопасных анклавах. Доступ к элементам данных регистрируется в решении мониторинга. Рабочая система должна быть настроена с соответствующими конвейерами CI/CD с утверждениями, которые активируют развертывания и процессы модели. Аудит журналов и рабочих процессов должен обеспечить взаимодействие с данными для любых требований соответствия требованиям.
Обрабатывается. Эта модель требует высокой вычислительной мощности для анализа, контекстуализации и обучения модели и развертывания. Оценка модели проверяется на основе случайных выборок, чтобы обеспечить, чтобы кредитные решения не включали никаких гонки, пола, этнических или географических расположений. Модель принятия решений должна быть задокументирована и архивирована для последующей справки. Сохраняется каждый фактор, участвующий в результатах принятия решений.
Для обработки данных требуется высокая загрузка ЦП. Она включает обработку структурированных данных в формате DB и JSON, обработку кадров данных Spark или аналитику больших данных по терабайтам информации в различных форматах документов. Задания ELT/ETL для данных планируются или активируются через регулярные интервалы или в режиме реального времени в зависимости от значения последних данных.
Соответствие требованиям и нормативным требованиям. Каждая деталь обработки кредитов должна быть задокументирована, включая отправленное приложение, функции, используемые в оценке моделей, и результирующий набор модели. Сведения об обучении модели, данные, используемые для обучения, и результаты обучения должны быть зарегистрированы для будущих запросов на справочные материалы и аудит и соответствие требованиям.
Пакетная обработка и оценка в режиме реального времени. Некоторые задачи являются упреждающим и могут обрабатываться как пакетные задания, например предварительно утвержденные передачи баланса. Для некоторых запросов, таких как увеличение кредитной линии в интернете, требуется утверждение в режиме реального времени.
Доступ в режиме реального времени к статусу онлайн-запросов на кредит должен быть доступен заявителю. Финансовое учреждение, выдающего кредит, постоянно отслеживает производительность кредитной модели и нуждается в метриках, таких как статус утверждения кредита, количество утвержденных кредитов, сумм доллара, выданных и качество новых кредитных кредитов.
Ответственное применение ИИ
Панель мониторинга ответственного искусственного интеллекта предоставляет единый интерфейс для нескольких инструментов, которые помогут реализовать ответственный ИИ. Ответственный стандарт ИИ основан на шести принципах:
Справедливость и инклюзивность в Машинное обучение Azure. Этот компонент панели мониторинга ответственного искусственного интеллекта помогает оценить несправедливое поведение, избегая вреда распределения и вреда качества обслуживания. Его можно использовать для оценки справедливости между конфиденциальными группами, определенными с точки зрения пола, возраста, этнической принадлежности и других характеристик. Во время оценки справедливость определяется через метрики неравенства. Необходимо реализовать алгоритмы устранения рисков в пакете Fairlearn с открытым исходным кодом, который использует ограничения четности.
Надежность и безопасность в Машинное обучение Azure. Компонент анализа ошибок ответственного искусственного интеллекта поможет вам:
- Получите глубокое представление о том, как распределяется сбой для модели.
- Определите когорты данных, которые имеют более высокую частоту ошибок, чем общий тест.
Прозрачность в Машинное обучение Azure. Важной частью прозрачности является понимание того, как функции влияют на модель машинного обучения.
- Интерпретация модели помогает понять, что влияет на поведение модели. Он создает понятное для человека описание прогнозов модели. Это понимание помогает гарантировать, что модель можно доверять и помогает отлаживать и улучшать ее. ИнтерпретироватьML поможет вам понять структуру моделей стеклянной коробки или связь между функциями в моделях глубокой нейронной сети в черном ящике.
- Контрфактуальные действия , которые могут помочь вам понять и отладить модель машинного обучения с точки зрения того, как она реагирует на изменения функций и возмущения.
Конфиденциальность и безопасность в Машинное обучение Azure. Администраторы машинного обучения должны создать безопасную конфигурацию для разработки и управления развертыванием моделей. Функции безопасности и управления помогут вам соответствовать политикам безопасности организации. Другие средства помогут вам оценить и защитить модели.
Подотчетность в Машинное обучение Azure. Операции машинного обучения (MLOps) основаны на принципах и методиках DevOps, которые повышают эффективность рабочих процессов ИИ. Машинное обучение Azure поможет реализовать возможности MLOps:
- Регистрация, упаковка и развертывание моделей
- Получение уведомлений и оповещений об изменениях моделей
- Сбор данных системы управления для комплексного жизненного цикла
- Мониторинг приложений для операционных проблем
На этой схеме показаны возможности MLOps Машинное обучение Azure:
Потенциальные варианты использования
Это решение можно применить к следующим сценариям:
- Финансы: получение финансового анализа клиентов или межпродажный анализ клиентов для целевых маркетинговых кампаний.
- Здравоохранение: используйте информацию о пациенте в качестве входных данных, чтобы предложить предложения лечения.
- Гостеприимство: создайте профиль клиента, чтобы предложить предложения для отелей, рейсов, круизных пакетов и членства.
Рекомендации
Эти рекомендации реализуют основные принципы платформы Azure Well-Architected Framework, которая представляет собой набор руководящих принципов, которые можно использовать для улучшения качества рабочей нагрузки. Дополнительные сведения см. в статье Microsoft Azure Well-Architected Framework.
Безопасность
Безопасность обеспечивает гарантии от преднамеренного нападения и злоупотребления ценными данными и системами. Дополнительные сведения см. в разделе "Общие сведения о компоненте безопасности".
Решения Azure обеспечивают защиту в глубине и подход нулевого доверия.
Рассмотрите возможность реализации следующих функций безопасности в этой архитектуре:
- Развертывание выделенных служб Azure в виртуальных сетях
- База данных SQL Azure возможности безопасности
- Защита учетных данных в фабрике данных с помощью Key Vault
- Корпоративная безопасность и управление для Машинного обучения Azure
- Базовые показатели безопасности Azure для рабочей области Synapse Analytics
Оптимизация затрат
Оптимизация затрат заключается в сокращении ненужных расходов и повышении эффективности работы. Дополнительные сведения см. в разделе Обзор критерия "Оптимизация затрат".
Чтобы оценить затраты на реализацию этого решения, используйте калькулятор цен Azure.
Кроме того, рассмотрите следующие ресурсы:
- Планирование и управление затратами для Azure Synapse Analytics
- Планирование затрат на Машинное обучение Azure и управление ими
Эффективность работы
Оперативное превосходство охватывает процессы операций, которые развертывают приложение и продолжают работать в рабочей среде. Дополнительные сведения см. в разделе "Общие сведения о принципах эффективности работы".
Решения машинного обучения должны быть масштабируемыми и стандартизированными для упрощения управления и обслуживания. Убедитесь, что решение поддерживает текущее вывод с помощью циклов переобучения и автоматического повторного развертывания моделей.
Дополнительные сведения см . в акселераторе решений Azure MLOps (версии 2).
Оптимизация производительности
Уровень производительности — это способность вашей рабочей нагрузки эффективно масштабироваться в соответствии с требованиями, предъявляемыми к ней пользователями. Дополнительные сведения см. в разделе "Общие сведения о эффективности производительности".
- Дополнительные сведения о разработке масштабируемых решений см. в списке проверка производительности.
- Сведения о регулируемых отраслях см. в статье "Масштабирование инициатив искусственного интеллекта и машинного обучения" в регулируемых отраслях.
- Управляйте средой Azure Synapse Analytics с помощью пулов SQL, Spark или бессерверных пулов SQL .
Соавторы
Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участник.
Автор субъекта:
- Шарита Басани | Старший архитектор облачных решений
Другие участник:
- Мик Альбертс | Технический писатель
Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.
Следующие шаги
- Базовый план безопасности Azure для Машинного обучения Azure
- Azure Synapse Analytics
- Развертывание моделей машинного обучения в Azure
- Что такое ответственный ИИ?