Как каталогизировать большие данные в каталоге данных Azure

Статья
12/13/2023

Внимание

Azure Каталог данных отменяется 15 мая 2024 г.

Новые учетные записи Azure Каталог данных больше не могут быть созданы.

Для функций каталога данных используйте службу Microsoft Purview , которая обеспечивает унифицированное управление данными для всего хранилища данных.

Если вы уже используете Azure Каталог данных, вам потребуется создать план миграции для вашей организации, чтобы перейти в Microsoft Purview к 15 мая 2024 г.

Введение

Каталог данных Microsoft Azure — это полностью управляемая облачная служба, выполняющая функции систем регистрации и обнаружения корпоративных источников данных. Это все о том, как помочь людям обнаруживать, понимать и использовать источники данных, а также помогать организациям получать больше ценности из существующих источников данных, включая большие данные.

Каталог данных Azure поддерживает регистрацию больших двоичных объектов и каталогов хранилища Azure, а также файлов и каталогов Hadoop HDFS. Эти источники данных являются частично структурированными, что обеспечивает большую гибкость. Однако это также означает, что для получения максимальной пользы от регистрации источников в каталоге данных Azure пользователям необходимо понимать и учитывать их структуру.

Каталоги как логические наборы данных

Наиболее общий подход к организации источников больших данных — использование каталогов в качестве логических наборов данных. Каталоги верхнего уровня определяют наборы данных, вложенные папки определяют разделы, а файлы в них хранят сами данные.

Пример такого подхода:

    \vehicle_maintenance_events
        \2013
        \2014
        \2015
            \01
                \2015-01-trailer01.csv
                \2015-01-trailer92.csv
                \2015-01-canister9635.csv
                ...
    \location_tracking_events
        \2013
        ...

В этом примере vehicle_maintenance_events и location_tracking_events представляют логические наборы данных. Каждая из этих папок содержит файлы данных, разделенные на вложенные папки по году и месяцу. Каждая из вложенных папок может содержать сотни и тысячи файлов.

В этом шаблоне регистрация отдельных файлов в Azure Каталог данных, вероятно, не имеет смысла. Вместо этого следует регистрировать каталоги, представляющие наборы данных, которые будут полезны пользователям, работающим с данными.

Справочные файлы данных

Другой подход представляет собой хранение справочных наборов данных в качестве отдельных файлов. Эти наборы данных могут рассматриваться как "небольшая" сторона больших данных и часто похожи на измерения в аналитической модели данных. Справочные файлы данных содержат записи, используемые в качестве контекста для основного массива файлов в хранилище больших данных.

Пример такого подхода:

    \vehicles.csv
    \maintenance_facilities.csv
    \maintenance_types.csv

Специалисту по анализу и обработке данных, который работает с данными в каталогах со сложной структурой, данные в справочных файлах могут помочь получить более подробную информацию о сущностях, которые упоминаются в больших наборах данных только по имени или идентификатору.

В этом случае имеет смысл зарегистрировать в каталоге данных Azure отдельные справочные файлы данных. Каждый файл представляет набор данных и может быть аннотирован и обнаружен независимо от других файлов.

Альтернативные подходы

Шаблоны, описанные в предыдущих разделах, являются двумя возможными способами организации хранилища больших данных, но каждая реализация отличается. Независимо от структуры источников больших данных регистрировать в каталоге данных Azure следует те файлы и папки, представляющие наборы данных, которые будут полезны другим пользователям в организации. Регистрация всех файлов и папок может перегрузить каталог и затруднить поиск нужных данных.

Итоги

Регистрация источников данных в каталоге данных Azure упрощает их поиск и интерпретацию. Регистрация и аннотирование файлов и каталогов, содержащих большие объемы данных и представляющих логические наборы данных, помогают пользователям находить и использовать необходимую информацию в источниках больших данных.