Описание приема и обработки данных

Завершено

Аналитика данных связана с получением данных и поиском значимых сведений и их выводов. Это может быть связано с выбором наиболее подходящей линейки продукции для розничного продавца или лучших вариантов вакцин в биотехнологической компании.

Например, аналитика данных может заключаться в том, чтобы взять данные, создаваемые вашей организацией, и использовать их для создания картины того, как работает ваша организация и что можно сделать для обеспечения производительности бизнеса. Аналитика данных помогает определить сильные и слабые стороны в организации и позволяет принимать соответствующие бизнес-решения.

Данные, используемые компанией, могут поступать из многих источников. Существует масса исторических данных, которые можно объединять, а новые данные поступают непрерывно. Эти данные могут быть результатом покупок клиентов, банковскими транзакциями, изменениями биржевых котировок, данными о погоде в режиме реального времени, данными от устройств мониторинга или даже с камер. В решении аналитики данных вы объединяете эти данные и формируете хранилище данных, с помощью которого можно получить ответы на вопросы о бизнес-операциях. Для создания хранилища данных необходимо записать необходимые данные и структурировать их в соответствующий формат. Затем можно использовать средства анализа и визуализации для изучения информации, тенденций идентификации и их причин.

Примечание.

Структурирование — это процесс, с помощью которого вы преобразуете и сопоставляете необработанные данные в более удобном для анализа формате. Оно может включать в себя написание кода для записи, фильтрации, очистки, объединения и агрегирования данных из многих источников.

На этом уроке вы узнаете о двух важных этапах анализа данных: приеме данных и их обработке. На схеме ниже показано, как эти этапы согласуются друг с другом.

Схема типичной архитектуры аналитики данных с изображением приема, обработки и изучения данных.

Что такое прием данных?

Прием данных — это процесс получения и импорта данных для немедленного использования или хранения в базе данных. Данные могут поступать в виде непрерывного потока или пакетами в зависимости от источника. Цель процесса приема — записать эти данные и сохранить их. Эти необработанные данные могут храниться в репозитории, например в системе управления базами данных, наборе файлов или каком-либо другом хранилище, обеспечивающем быстрый и удобный доступ.

В процессе приема также можно выполнять фильтрацию. Например, при приеме можно отклонять подозрительные, поврежденные или дублирующиеся данные. Подозрительными данными могут быть данные, поступающие из непредвиденного источника. Поврежденные или дублирующиеся данные могут быть вызваны ошибкой устройства, сбоем передачи или незаконным вмешательством.

На этом этапе также можно выполнить некоторые преобразования, преобразуя данные в стандартную форму для последующей обработки. Например, может потребоваться изменить формат всех данных даты и времени, чтобы использовать одни и те же представления даты и времени, и преобразовать все данные измерения для использования одних и тех же единиц измерения. Однако эти преобразования должны выполняться быстро. Не пытайтесь выполнить сложные вычисления или объединения данных на этом этапе.

Что такое обработка данных?

Обработка данных происходит после приема и сбора данных. При обработке данных данные принимаются в необработанной форме, очищаются и преобразуются в более осмысленный формат (таблицы, графики, документы и т. д.). Результатом является база данных, которую можно использовать для выполнения запросов и создания визуализаций, предоставляя их форме и в контексте, которые должны интерпретироваться на компьютерах и использоваться сотрудниками всей организации.

Примечание.

Очистка данных — это обобщенный термин, охватывающий ряд действий, таких как удаление аномалий и применение фильтров и преобразований, которые занимают слишком много времени для выполнения на этапе приема.

Целью обработки данных является преобразование необработанных данных в одну или несколько бизнес-моделей. Бизнес-модель описывает данные с точки зрения значимых бизнес-сущностей и может объединять элементы и суммировать информацию. На этапе обработки данных также можно создать прогнозные или другие аналитические модели из данных. Обработка данных может быть сложной и содержать автоматизированные сценарии, а также средства, такие как Azure Databricks, Функции Azure и Cognitive Services Azure, для проверки и повторного форматирования данных и создания моделей. Аналитики данных могут использовать машинное обучение, чтобы определить будущие тенденции на основе этих моделей.

Схема приема данных для создания моделей данных.

Что такое ELT и ETL?

Механизм обработки данных может принимать два подхода к извлечению принимаемых данных, обработке этих данных для их преобразования и создавать модели, а затем сохранять преобразованные данные и модели. Эти подходы называются ETL и ELT.

ETL означает извлечение, преобразование и загрузку данных. Необработанные данные извлекаются и преобразуются перед сохранением. Шаги извлечения, преобразования и загрузки можно выполнять как непрерывный конвейер операций. Он подходит для систем, для которых требуются только простые модели с небольшой зависимостью между элементами. Например, этот тип процесса часто используется для основных задач очистки данных, дедупликации данных и переформатирования содержимого отдельных полей.

Схема изображения, показывающая процесс ETL.

Альтернативный подход — ELT. ELT означает извлечение, загрузку и преобразование данных. Процесс отличается от ETL тем, что данные хранятся перед преобразованиями. Модуль обработки данных может использовать итеративный подход, получая и обрабатывая данные из хранилища, перед записью преобразованных данных и моделей обратно в хранилище. ELT лучше подходит для построения сложных моделей, зависящих от нескольких элементов в базе данных, часто использующих периодическую пакетную обработку.

Схема изображения, показывающая процесс ELT.

ELT — масштабируемый подход, подходящий для облака, так как он может использовать обширные вычислительные мощности. ETL, который больше ориентирован на поток данных, уделяет больше внимания пропускной способности. Однако ETL может фильтровать данные перед их сохранением. Таким образом, ETL может помочь в обеспечении конфиденциальности и совместимости данных, удалив конфиденциальные данные до того, как они поступят в модели аналитических данных.

Azure предоставляет несколько вариантов, которые можно использовать для реализации подходов ELT и ETL. Например, при хранении данных в базе данных SQL Azure можно использовать SQL Server Integration Services. Службы SSIS могут извлекать и преобразовывать данные из разнообразных источников, таких как файлы данных XML, неструктурированные файлы и источники реляционных данных, а затем загружать их в одно или несколько назначений.

Это простая таблица, в которой показаны преимущества ETL и ELT в большинстве случаев.

Схема ETL и ELT.

Еще один более обобщенный подход — использование Фабрики данных Azure. Фабрика данных Azure — это облачная служба интеграции данных, которая позволяет создавать управляемые данными рабочие процессы для оркестрации перемещения и преобразования данных. С помощью Фабрики данных Azure можно создавать и включать в расписание управляемые данными рабочие процессы (конвейеры), поддерживающие прием данных из разнородных хранилищ данных, Вы можете создавать сложные процессы ETL для визуального преобразования данных с помощью потоков данных или служб вычислений, таких как Azure HDInsight Hadoop, Azure Databricks и База данных SQL Azure.