Обработка данных в режиме реального времени

Поиск по искусственному интеллекту Azure

Azure Cosmos DB

Azure Data Lake

Центры событий Azure

Azure Synapse Analytics

Предприятия, управляемые данными, должны поддерживать свои внутренние и аналитические системы в практически реальном времени синхронизации с клиентскими приложениями. Влияние транзакций, обновлений и изменений должно точно отражаться в комплексных процессах, связанных приложениях и системах обработки транзакций в Сети (OLTP). Терпимая задержка изменений в приложениях OLTP для отражения в подчиненных системах, использующих данные, может быть всего за несколько минут.

В этой статье описывается комплексное решение для обработки данных почти в режиме реального времени для синхронизации данных Lakehouse. Решение использует Центры событий Azure, Azure Synapse Analytics и Azure Data Lake служба хранилища для обработки и анализа данных.

Apache® и Apache Spark являются зарегистрированными товарными знаками или товарными знаками Apache Software Foundation в США и/или других странах. Использование этих меток не подразумевает подтверждения от Apache Software Foundation.

Архитектура

Скачайте файл Visio для этой архитектуры.

Поток данных

Сбор измененных данных является обязательным условием для прослушивания изменений в исходных системах. Соединители Debezium могут подключаться к разным исходным системам и касаться изменений по мере их выполнения. Соединители могут записывать изменения и создавать события из различных систем управления реляционными базами данных (RDBMS). Для установки соединителя Debezium требуется система подключения Kafka.
Соединители извлекают данные об изменениях и отправляют захваченные события в Центры событий Azure. Центры событий могут получать большие объемы данных из нескольких источников.
Центры событий напрямую передают данные в пулы Azure Synapse Analytics Spark или могут отправлять данные в целевую зону Azure Data Lake служба хранилища в необработанном формате.
Другие источники данных пакетной службы могут использовать конвейеры Azure Synapse для копирования данных в Data Lake служба хранилища и сделать его доступным для обработки. Комплексный рабочий процесс извлечения, преобразования и загрузки (ETL) может потребоваться выполнить цепочку различных шагов или добавить зависимости между шагами. Конвейеры Azure Synapse могут оркестрировать зависимости рабочих процессов в общей платформе обработки.
Пулы Azure Synapse Spark используют полностью поддерживаемые API структурированной потоковой передачи Apache Spark для обработки данных в платформе потоковой передачи Spark. Этап обработки данных включает в себя проверка качества данных и высокоуровневые проверки бизнес-правил.
Data Lake служба хранилища сохраняет проверенные данные в открытом формате Delta Lake. Delta Lake обеспечивает атомарность, согласованность, изоляцию и устойчивость (ACID), а также транзакции, масштабируемую обработку метаданных и единую потоковую передачу и пакетную обработку данных для существующих озер данных.

Использование индексов для ускорения запросов расширяет Delta с дальнейшими улучшениями производительности. Данные из проверенной зоны Data Lake служба хранилища также могут быть источником для дальнейшего расширенного анализа и машинного обучения.
Данные из проверенной зоны Data Lake служба хранилища, преобразованные и обогащенные с дополнительными правилами в окончательно обработанном состоянии, загружаются в выделенный пул SQL для выполнения крупномасштабных аналитических запросов.
Power BI использует данные, предоставляемые через выделенный пул SQL, для создания панелей мониторинга и отчетов корпоративного уровня.
Вы также можете использовать захваченные необработанные данные в целевой зоне Data Lake Store и проверенные данные в разностном формате:
- Дальнейший нерегламентированный и исследовательский анализ с помощью бессерверных пулов Azure Synapse SQL.
- Машинное обучение с помощью Машинное обучение Azure.
Для некоторых интерфейсов с низкой задержкой данные должны быть денормализованы для задержки однозначного сервера. Этот сценарий использования в основном предназначен для ответов API. Этот сценарий запрашивает документы в хранилище данных NoSQL, например Azure Cosmos DB, для однозначных миллисекунда ответов.
Стратегия секционирования Azure Cosmos DB может не поддаваться всем шаблонам запросов. Если это так, вы можете расширить решение, индексируя данные, к которым api-интерфейсы должны получить доступ с помощью Когнитивный поиск Azure. Azure Cosmos DB и Когнитивный поиск могут выполнять большинство сценариев, требующих ответов запросов с низкой задержкой.

Компоненты

Это решение использует следующие компоненты Azure:

Центры событий — это управляемая распределенная служба приема данных, которая может масштабироваться до приема больших объемов данных. С помощью механизма подписчика-издателя Центров событий различные приложения могут отправлять сообщения в разделы в Центрах событий, а подчиненные потребители могут подключаться к сообщениям и обрабатывать их. Функция отслеживания центров событий может записывать сообщения в Data Lake служба хранилища в формате AVRO по мере их поступления. Эта возможность обеспечивает простую микро пакетную обработку и долгосрочные сценарии хранения. Центры событий также предлагают API, совместимый с Kafka, и поддерживает реестр схем.
Data Lake служба хранилища формирует подсистему хранения, которая хранит все данные в необработанных и проверенных форматах. Data Lake служба хранилища может обрабатывать транзакции в масштабе и поддерживать различные форматы файлов и размеры. Иерархические пространства имен помогают упорядочивать данные в знакомую структуру папок и поддерживать разрешения переносимой операционной системы для разрешений UniX (POSIX). Драйвер файловой системы BLOB-объектов Azure (ABFS) предлагает API, совместимый с Hadoop.
Azure Synapse Analytics — это безграничная служба аналитики, которая объединяет интеграцию данных, хранение корпоративных данных и аналитику больших данных. Это решение использует следующие функции экосистемы Azure Synapse Analytics:
- Пулы Azure Synapse Spark предлагают среду выполнения Spark по запросу, которая добавляет встроенные улучшения производительности в Spark с открытым исходным кодом. Клиенты могут настраивать гибкие параметры автомасштабирования, отправлять задания удаленно через конечную точку Apache Livy и использовать интерфейс записной книжки Synapse Studio для интерактивных возможностей.
- Бессерверные пулы AZURE Synapse SQL предоставляют интерфейс для запроса данных Lakehouse с помощью знакомого синтаксиса T-SQL. Инфраструктура не настроена, а развертывание рабочей области Azure Synapse автоматически создает конечную точку. Бессерверные пулы AZURE Synapse SQL позволяют выполнять базовое обнаружение и изучение данных, а также являются хорошим вариантом для анализа пользовательских нерегламентированных запросов.
- Выделенные пулы SQL Azure Synapse хранят данные в реляционных таблицах с хранилищем столбцов. Выделенные пулы SQL используют архитектуру горизонтального масштабирования для распределения обработки данных между несколькими узлами. Запросы PolyBase переносят данные в таблицы пула SQL. Таблицы могут подключаться к Power BI для анализа и отчетности.
Power BI предоставляет визуальный интерфейс для создания отчетов и панелей мониторинга и доступа к ней. Power BI Desktop может подключаться к различным источникам данных, объединять источники в модель данных и создавать отчеты или панели мониторинга. С помощью Power BI можно преобразовать данные на основе бизнес-требований и предоставить доступ к визуальным элементам и отчетам другим пользователям с помощью служба Power BI.
Azure Cosmos DB — это управляемая многомодальная база данных NoSQL, которая поддерживает открытые API, такие как MongoDB и Cassandra. Это решение использует Azure Cosmos DB для приложений, требующих однозначных миллисекунд откликов и высокой доступности. Azure Cosmos DB предлагает многорегионную запись во всех регионах Azure. Azure Synapse Link для Azure Cosmos DB можно использовать для получения аналитических сведений и запуска аналитики по данным в режиме реального времени.
Когнитивный поиск Azure — это облачная служба поиска, которая может индексировать данные, необходимые приложениям и API. Когнитивный поиск имеет необязательные функции обогащения ИИ, которые помогают с извлечением текста и выводом текста из нетекстовых файлов. Когнитивный поиск интегрируется со службами, такими как Azure Data Lake служба хранилища и Azure Cosmos DB, чтобы легко получить доступ к данным и индексировать их. Индексированные данные можно запросить с помощью REST API или пакета SDK для .NET. Чтобы получить данные из двух отдельных индексов, их можно объединить в один индекс или использовать сложные типы данных.

Подробности сценария

Для обработки изменений практически в реальном времени требуется сквозный рабочий процесс:

Технология отслеживания измененных данных (CDC). Приложения OLTP могут иметь разные внутренние хранилища данных, такие как SQL Server, MySQL и Oracle. Первый шаг заключается в том, чтобы прослушивать изменения по мере их выполнения и распространять их вперед.
Буфер приема для публикации событий изменений в масштабе. Эта служба должна иметь возможность обрабатывать большие объемы данных по мере поступления сообщений. Отдельные подписчики могут подключаться к этой системе и обрабатывать данные.
Распределенное и масштабируемое хранилище для данных как есть в необработанном формате.
Распределенная, эффективная система потоковой обработки, которая позволяет пользователям перезапускать состояние и управлять ими.
Система аналитики, которая выполняется в масштабе для принятия бизнес-решений.
Интерфейс самостоятельной аналитики.
Для ответов API с низкой задержкой база данных NoSQL для хранения денормализованного представления данных.
В некоторых случаях система индексирует данные, обновляет индекс с регулярными интервалами и делает последние данные доступными для нижнего потребления.

Все предыдущие технологии должны использовать соответствующие конструкции безопасности для безопасности периметра, проверки подлинности, авторизации и шифрования данных.

Потенциальные варианты использования

Это решение хорошо подходит для:

Отрасли, которые должны распространять изменения из OLTP в обработку онлайн-аналитики (OLAP).
Приложения, требующие преобразования или обогащения данных.

Сценарий обработки данных в режиме реального времени особенно важен для отраслей финансовых услуг. Например, если страховая, кредитная карта или банковский клиент выполняет платеж, а затем немедленно обращается к службе клиентов, агент поддержки клиентов должен иметь последнюю информацию.

Аналогичные сценарии применяются к секторам розничной торговли, торговли и здравоохранения. Включение этих сценариев упрощает операции, что приводит к повышению производительности организации и повышению удовлетворенности клиентов.

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участник.

Автор субъекта:

Пратима Валавала | Архитектор облачных решений

Другие участник:

Раджеш Миттал | Архитектор облачных решений

Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.

Share via

Обработка данных в режиме реального времени

Архитектура

Поток данных

Компоненты

Подробности сценария

Потенциальные варианты использования

Рекомендации

Надежность

Оптимизация затрат

Оптимизация производительности

Соавторы

Следующие шаги

Обратная связь

Обратная связь

Дополнительные ресурсы

Share via

Обработка данных в режиме реального времени

Архитектура

Поток данных

Компоненты

Подробности сценария

Потенциальные варианты использования

Рекомендации

Надежность

Оптимизация затрат

Оптимизация производительности

Соавторы

Следующие шаги

Связанные ресурсы

Обратная связь

Обратная связь

Дополнительные ресурсы