Сценарий сетки данных для финансового учреждения

Этот сценарий предназначен для клиентов, которые хотят использовать аналитику в масштабе облака для масштабируемости и архитектур сетки данных . Он демонстрирует сложный сценарий с целевыми зонами, интеграцией данных и продуктами данных.

Профиль клиента

Вымышленное предприятие, Woodgrove Bank, является крупной компанией по оказанию финансовых услуг с мировым следом. Данные Банка Woodgrove Размещаются в локальных и облачных системах развертывания. В архитектуре Банка Woodgrove существует несколько систем хранилища данных для консолидированного маркетинга и интегрированной отчетности. Эта архитектура включает несколько озер данных для нерегламентированной аналитики и обнаружения данных. Приложения Woodgrove Bank связаны между собой с помощью шаблонов интеграции приложений, которые в основном основаны на API или событиях.

Текущая ситуация

Банку Woodgrove сложно распределять данные в разные расположения из-за сложности хранения данных. Интеграция новых данных требует много времени и часто приводит к дублированию данных. Woodgrove Bank трудно контролировать комплексный ландшафт данных из-за подключения "точка — точка". Банк недооценили спрос на интенсивное потребление данных. Новые варианты использования появляются быстро, один за другим. Управление данными, например владение данными, их качество и соответствующие затраты, сложно контролировать. Обеспечение соответствия актуальным требованиям является непростой задачей, так как Woodgrove Bank точно не знает, где находятся данные.

Решение архитектуры: сетка данных

В последние несколько лет организации стали воспринимать данные как центральный компонент всей своей деятельности. Данные помогают найти новые способы повышения эффективности, стимулируют внедрение инноваций, открывают новые бизнес-модели и повышают удовлетворенность клиентов. Для компаний является главным приоритетом использование управляемых данными методов, таких как данные в большом масштабе.

Достичь этапа, когда более глубокая ценность данных будет доступна всем членам организации, является сложной задачей. Устаревшие и тесно взаимосвязанные системы, централизованные монолитные платформы и комплексное управление могут представлять собой значительные преграды для извлечения ценности из данных.

Сведения о сетке данных

Концепция "сетка данных", название которой предложила Замак Дехгхани (Zhamak Dehghani), охватывает данные, технологии, процессы и организацию. По сути, это доступный подход к управлению данными, когда различные домены используют свои собственные данные. Сетка данных ставит под сомнение идею обычной централизации данных. Вместо того чтобы смотреть на данные как на один огромный репозиторий, сетка данных рассматривает декомпозицию независимых продуктов данных. Этот переход от централизованного к федеративному владению поддерживается современной платформой данных самообслуживания, которая обычно разрабатывается с использованием облачных технологий.

При разбитии концепции сетки данных на стандартные блоки следует учитывать следующие ключевые моменты:

  • Данные как продукт. Каждая (организационная) область работает со своими данными в сквозном режиме. Обязанности по отчетности возлагаются на владельца данных в области. Конвейеры становятся первоклассной проблемой самих доменов.
  • Федеративное управление вычислительными данными. Чтобы гарантировать, что каждый владелец данных может доверять другим пользователям и предоставлять общий доступ к своим продуктам данных, необходимо создать корпоративный орган по управлению данными. Орган управления реализует качество данных, централизованную видимость владения данными, управление доступом к данным и политики конфиденциальности данных.
  • Владение данными, ориентированными на предметную область. В идеале предприятие должно определять и моделировать каждый узел домена данных в сетке, применяя принципы предметно-ориентированного проектирования.
  • Платформа самостоятельного обслуживания данных. Для сетки данных требуется платформа самообслуживания, которая позволяет пользователям устранить технические сложности и сосредоточиться на отдельных вариантах использования данных.

аналитику в масштабах облака;

Мышление на основе данных как продукта и модель платформы самообслуживания не являются новыми для корпорации Майкрософт. Корпорация Майкрософт уже много лет следила за рекомендациями по распределенным платформам, конвейерам между доменами, федеративной собственности и понятным данным.

Woodgrove Bank может перейти на сетку данных с помощью аналитики в масштабе облака. Аналитика в масштабе облака — это схема с открытым исходным кодом, предназначенная для разработки и быстрого развертывания современных платформ данных. Он связан с рекомендациями и принципами проектирования Azure и соответствует Azure Well-Architected Framework. Аналитика в масштабе облака дает предприятиям предписанную точку зрения на 80 процентов, а остальные 20 процентов можно настроить.

Аналитика в масштабе облака предлагает предприятиям стратегический путь проектирования для сетки данных, и его можно использовать для быстрой настройки такой архитектуры. Он предлагает схему, включая основные службы платформы данных для управления данными.

На самом высоком уровне аналитика в масштабе облака использует возможность управления данными, которая включается через целевую зону управления данными. Эта зона отвечает за федеративное управление данными организации платформы (самообслуживания) и доменов данных, которые повысят ценность для бизнеса через продукты данных. Преимущество этого подхода заключается в том, что он устраняет техническую сложность при соблюдении тех же стандартов. Это гарантирует отсутствие распространения технологий. Кроме того, он позволяет предприятиям применить модульный подход, начав с небольшого объема ресурсов и затем постепенно наращивая его.

Целевая зона управления данными, как показано на следующей схеме, окружает все предметные области. Она соединяет все области и предоставляет ценную информацию, которая так нужна банку Woodgrove Bank.

Схема, показывающая, как сетка данных интеллектуально распределяет продукты данных между доменами данных.

Аналитика в масштабе облака также выступает за применение согласованного управления, которое использует общую архитектуру при распределении продуктов данных. Платформа обеспечивает прямую связь между доменами. Она остается под контролем, уделяя особое внимание централизованному каталогизации и классификации для защиты данных и предоставления группам возможности обнаруживать данные. Она как бы накрывает пространство данных зонтом.

Предметные области

При использовании облачной аналитики в качестве стратегического пути необходимо подумать о декомпозиции архитектуры и результирующей степени детализации. Сетка данных разлагает данные, не следуя за границами технологий. Вместо этого она применяет принципы предметно-ориентированного проектирования (DDD), подхода к разработке программного обеспечения, охватывающего сложные системы для крупных организаций. DDD популярен из-за его влияния на современные методы разработки программного обеспечения и приложений, такие как микрослужбы.

Один из шаблонов предметно-ориентированного проектирования называется ограниченным контекстом. Ограниченные контексты используются для задания логических границ пространства решений области для более эффективного управления сложными процессами. Важно, чтобы команды понимали, какие аспекты, включая данные, они могут изменять, а какие являются общими зависимостями для координации с другими пользователями. Сетка данных охватывает ограниченный контекст. Он использует этот шаблон, чтобы описать, как организации могут координировать свои действия по доменам данных и сосредоточиться на доставке данных как продукта. Каждый домен данных владеет несколькими продуктами данных и управляет ими с собственным технологическим стеком, который не зависит от других.

Схема, показывающая архитектуру сетки данных.

Продукты для данных

Приглядевшись к внутренней архитектуре такой предметной области, можно ожидать найти в ней продукты данных.

Продукты данных удовлетворяют конкретную потребность организаций, использующих данные. Продукты данных помогают управлять данными между предметными областями, упорядочивать их и представлять полученную ценную информацию. Продукты данных — это результаты данных из одной или нескольких интеграций или других продуктов данных. Продукты данных тесно связаны с доменами данных и наследуют один и тот же сформированный формализованный язык. Она согласована заинтересованными лицами и дизайнерами и отвечает потребностям дизайна. Каждая область, которая создает данные, отвечает за обеспечение доступности таких продуктов данных другим областям.

Чтобы быстро доставлять продукты данных, аналитика в масштабе облака предлагает шаблоны для шаблонов распределения и интеграции данных. Платформа предоставляет пакет данных, потоковую передачу и аналитику для удовлетворения потребностей различных потребителей.

Одна из замечательных моментов облачной аналитики — упорядочение доменов и продуктов данных. Каждый домен данных соответствует одной целевой зоне данных, которая представляет собой логическую конструкцию и единицу масштабирования в архитектуре облачной аналитики. Он обеспечивает хранение данных и выполнение рабочих нагрузок данных, что позволяет получать полезные сведения и ценность. Каждый продукт данных соответствует одной группе ресурсов в целевой зоне данных, а все целевые зоны данных и зоны управления соответствуют подпискам. Такой подход упрощает реализацию и управление.

Все шаблоны облачной аналитики наследуют один и тот же набор политик из целевой зоны управления данными. Шаблоны автоматически предоставляют необходимые метаданные для обнаружения данных, управления, безопасности, управления затратами и повышения эффективности работы. Вы можете быстро подключить новые домены данных без необходимости сложного подключения, интеграции и тестирования.

На следующей схеме показано, как может выглядеть продукт данных:

Схема домена данных, содержащего продукт данных.

Практичный подход к созданию продуктов для работы с данными заключается в согласовании с источником, откуда происходят данные, либо вариантом использования для потребления. В обоих случаях необходимо предоставить абстрактное представление базовой (комплексной) модели данных приложения. Необходимо попытаться скрыть технические сведения и провести оптимизацию с прицелом на интенсивное использование данных. Представление Azure Synapse или файл Parquet, который логически группировать данные, является примером совместного использования продукта данных в разных доменах данных.

Далее необходимо поработать над обнаружением, источником, использованием и происхождением данных. Проверенный подход заключается в использовании службы управления данными, такой как Azure Purview, для регистрации всех данных. Интеграция данных в аналитике в масштабе облака идеально соединяет точки, так как позволяет создавать эти продукты данных, так как одновременно выполняет регистрацию метаданных.

При согласовании доменов данных и коллекций Azure Purview вы автоматически записываете все данные о происхождении, происхождении, сведения о качестве данных и потреблении из отдельных доменов. Благодаря такому подходу можно подключить несколько предметных областей и продуктов к централизованному решению управления, где хранятся все метаданные из каждой среды. Преимущество заключается в том, что оно централизованно интегрирует все метаданные и делает их легко доступными для различных потребителей. Такую архитектуру можно расширить для регистрации новых продуктов данных.

На следующей схеме показана междоменная архитектура сетки данных, использующая облачную аналитику.

Схема, показывающая интеграцию данных.

Сетевая конструкция позволяет совместно использовать продукты данных между доменами, используя минимальные затраты и устраняя единую точку отказа и ограничения пропускной способности. Для обеспечения безопасности можно использовать модель безопасности "Никому не доверяй" корпорации Майкрософт. Аналитика в масштабе облака предлагает использовать сетевую изоляцию через частные конечные точки и связь с частной сетью, модель доступа к данным на основе удостоверений, которая использует MIS, UMIs и вложенные группы безопасности, следуя принципу минимальных привилегий.

Вы можете использовать управляемые удостоверения, чтобы обеспечить соблюдение модели доступа с предоставлением минимальных прав. Приложения и службы в этой модели имеют ограниченный доступ к продуктам данных. Политики Azure с предстоящими политиками данных используются для обеспечения самообслуживания и принудительного применения соответствующих ресурсов во всех продуктах данных в большом масштабе. Благодаря такой структуре вы можете получить единообразный доступ к данным, сохраняя полный контроль за счет централизованного управления данными и аудита.

Схема, иллюстрирующая контракт данных.

Развитие к будущему

Аналитика в масштабе облака разработана с учетом сетки данных. Аналитика в масштабе облака предоставляет проверенный подход, с помощью которого организации могут совместно использовать данные во многих доменах данных. Эта платформа позволяет доменам иметь автономию для выбора и управляет архитектурой путем ее ограждения с помощью служб управления данными.

При реализации сетки данных логически группируйте и упорядочивайте домены. Этот подход требует корпоративного представления и, скорее всего, является культурным сдвигом для вашей организации. Для сдвига требуется создать федерацию владения данными между предметными областями и владельцами, которые отвечают за предоставление своих данных в виде продуктов. Кроме того, команды должны выстроить свою работу с учетом централизованных возможностей, предоставляемых целевой зоной управления данными. Этот новый подход может потребовать от отдельных групп отказаться от своих нынешних мандатов, что, скорее всего, вызовет сопротивление. Это может потребоваться от вас неких политических решений для установления баланса между централизованными и децентрализованными подходами.

Можно масштабировать архитектуру сетки данных, добавляя в архитектуру дополнительные целевые зоны для отдельных областей. Эти целевые зоны используют пиринг между виртуальными сетями для подключения к целевой зоне управления данными и всем другим целевым зонам. Этот шаблон позволяет совместно использовать продукты и ресурсы данных между зонами. При разделении на отдельные зоны можно распределить рабочие нагрузки между подписками и ресурсами Azure. Такой подход способствует органичному внедрению сетки данных.

Подробнее

Ресурсы корпорации Майкрософт:

Статья Замак Дехгхани (Zhamak Dehghani), автора сетки данных: