Как каталогизировать большие данные в каталоге данных Azure

Внимание

Azure Каталог данных отменяется 15 мая 2024 г.

Новые учетные записи Azure Каталог данных больше не могут быть созданы.

Для функций каталога данных используйте службу Microsoft Purview , которая обеспечивает унифицированное управление данными для всего хранилища данных.

Если вы уже используете Azure Каталог данных, вам потребуется создать план миграции для вашей организации, чтобы перейти в Microsoft Purview к 15 мая 2024 г.

Введение

Каталог данных Microsoft Azure — это полностью управляемая облачная служба, выполняющая функции систем регистрации и обнаружения корпоративных источников данных. Это все о том, как помочь людям обнаруживать, понимать и использовать источники данных, а также помогать организациям получать больше ценности из существующих источников данных, включая большие данные.

Каталог данных Azure поддерживает регистрацию больших двоичных объектов и каталогов хранилища Azure, а также файлов и каталогов Hadoop HDFS. Эти источники данных являются частично структурированными, что обеспечивает большую гибкость. Однако это также означает, что для получения максимальной пользы от регистрации источников в каталоге данных Azure пользователям необходимо понимать и учитывать их структуру.

Каталоги как логические наборы данных

Наиболее общий подход к организации источников больших данных — использование каталогов в качестве логических наборов данных. Каталоги верхнего уровня определяют наборы данных, вложенные папки определяют разделы, а файлы в них хранят сами данные.

Пример такого подхода:

    \vehicle_maintenance_events
        \2013
        \2014
        \2015
            \01
                \2015-01-trailer01.csv
                \2015-01-trailer92.csv
                \2015-01-canister9635.csv
                ...
    \location_tracking_events
        \2013
        ...

В этом примере vehicle_maintenance_events и location_tracking_events представляют логические наборы данных. Каждая из этих папок содержит файлы данных, разделенные на вложенные папки по году и месяцу. Каждая из вложенных папок может содержать сотни и тысячи файлов.

В этом шаблоне регистрация отдельных файлов в Azure Каталог данных, вероятно, не имеет смысла. Вместо этого следует регистрировать каталоги, представляющие наборы данных, которые будут полезны пользователям, работающим с данными.

Справочные файлы данных

Другой подход представляет собой хранение справочных наборов данных в качестве отдельных файлов. Эти наборы данных могут рассматриваться как "небольшая" сторона больших данных и часто похожи на измерения в аналитической модели данных. Справочные файлы данных содержат записи, используемые в качестве контекста для основного массива файлов в хранилище больших данных.

Пример такого подхода:

    \vehicles.csv
    \maintenance_facilities.csv
    \maintenance_types.csv

Специалисту по анализу и обработке данных, который работает с данными в каталогах со сложной структурой, данные в справочных файлах могут помочь получить более подробную информацию о сущностях, которые упоминаются в больших наборах данных только по имени или идентификатору.

В этом случае имеет смысл зарегистрировать в каталоге данных Azure отдельные справочные файлы данных. Каждый файл представляет набор данных и может быть аннотирован и обнаружен независимо от других файлов.

Альтернативные подходы

Шаблоны, описанные в предыдущих разделах, являются двумя возможными способами организации хранилища больших данных, но каждая реализация отличается. Независимо от структуры источников больших данных регистрировать в каталоге данных Azure следует те файлы и папки, представляющие наборы данных, которые будут полезны другим пользователям в организации. Регистрация всех файлов и папок может перегрузить каталог и затруднить поиск нужных данных.

Итоги

Регистрация источников данных в каталоге данных Azure упрощает их поиск и интерпретацию. Регистрация и аннотирование файлов и каталогов, содержащих большие объемы данных и представляющих логические наборы данных, помогают пользователям находить и использовать необходимую информацию в источниках больших данных.