Основные понятия Azure Databricks

Статья
04/16/2024

В этой статье описаны основные понятия, знакомство с которыми требуется для эффективного использования Azure Databricks.

Учетные записи и рабочие области

В Azure Databricks рабочая область — это развертывание Azure Databricks в облаке, которое работает в качестве среды для вашей команды для доступа к ресурсам Databricks. Ваша организация может выбрать несколько рабочих областей или только одну в зависимости от потребностей.

Учетная запись Azure Databricks представляет одну сущность, которая может включать несколько рабочих областей. Учетные записи, включенные для каталога Unity, можно использовать для управления пользователями и их доступом к данным централизованно во всех рабочих областях в учетной записи.

Выставление счетов: единицы databricks (DBUs)

Счета за Azure Databricks выставляются на основе единиц Databricks (DBU), единиц продуктивности обработки в час на основе типа экземпляра виртуальной машины.

См. страницу "Цены на Azure Databricks".

Проверка подлинности и авторизация

В этом разделе описаны основные понятия, изучение которых необходимо для управления удостоверениями Azure Databricks и их доступом к ресурсам Azure Databricks.

User

Отдельная личность, которая получает доступ к системе. Удостоверения пользователей представлены адресами электронной почты. См. раздел "Управление пользователями".

Субъект-служба

Удостоверение службы, предназначенное для использования с заданиями, автоматизированными инструментами и системами, например скриптами, приложениями и платформами CI/CD. Субъекты-службы представлены идентификатором приложения. См. статью Управление субъектами-службами.

Групповой

Коллекция удостоверений. Группы упрощают управление удостоверениями, облегчая назначение доступа к рабочим областям, данным и другим защищаемым объектам. Все удостоверения Databricks можно назначать как члены групп. См. статью Управление группами.

Список управления доступом (ACL)

Набор разрешений, связанных с рабочей областью, кластером, заданием, таблицей или экспериментом. Список управления доступом указывает, какие пользователи или системные процессы имеют доступ к объектам, а также какие операции можно выполнять с ресурсами. Каждая запись в обычном списке управления доступом определяет субъект и операцию. См. списки управления доступом

Личный маркер доступа

Непрозрачная строка используется для проверки подлинности в REST API и средствами партнеров по технологиям для подключения к хранилищам SQL. См . проверку подлинности маркера личного доступа Azure Databricks.

Маркеры идентификатора Microsoft Entra (прежнее название — Azure Active Directory) также можно использовать для проверки подлинности в REST API.

UI

Пользовательский интерфейс Azure Databricks — это графический интерфейс для взаимодействия с функциями, такими как папки рабочей области и их содержащиеся объекты, объекты данных и вычислительные ресурсы.

Наука и инженерия по обработке и анализу данных

Средства обработки и анализа данных помогают совместному взаимодействию между специалистами по обработке и анализу данных, инженерами и аналитиками данных. В этом разделе описываются основные понятия.

Рабочая область

Рабочая область — это среда, предоставляющая доступ ко всем ресурсам Azure Databricks. В рабочей области объекты (записные книжки, библиотеки, панели мониторинга и эксперименты) упорядочиваются по папкам. Здесь вы также можете обращаться к объектам данных и вычислительным ресурсам.

Записная книжка

Веб-интерфейс для создания рабочих процессов обработки и машинного обучения, которые могут содержать выполняемые команды, визуализации и текст повествования. Общие сведения о записных книжках Databricks.

Панель мониторинга

Интерфейс, предоставляющий упорядоченный доступ к визуализациям. Просмотр панелей мониторинга в записных книжках.

Библиотека

Пакет кода для записной книжки или задания, выполняющегося в кластере. Среда выполнения Databricks включает множество библиотек , и вы можете добавить собственные.

Папка Git (прежнее название — Репозиторий)

Папка, содержимое которой объединяется под одной версией путем синхронизации с удаленным репозиторием Git. Папки Databricks Git интегрируются с Git, чтобы обеспечить управление версиями и версиями для проектов.

Эксперимент

Коллекция выполнений MLflow для обучения модели машинного обучения. См. статью "Упорядочение учебных запусков с помощью экспериментов MLflow".

Интерфейсы Azure Databricks

В этом разделе описываются интерфейсы, поддерживаемые Azure Databricks в дополнение к пользовательскому интерфейсу, для доступа к ресурсам: API и командной строки (CLI).

REST API

Databricks предоставляет документацию по API для рабочей области и учетной записи.

CLI

Проект с открытым кодом, размещенный на сайте GitHub. Интерфейс командной строки построен на основе REST API Databricks.

Управление данными

В этом разделе описаны объекты, содержащие данные, которые вы анализируете и передаете в алгоритмы машинного обучения.

Файловая система Databricks (DBFS)

Слой абстракции файловой системы над хранилищем BLOB-объектов. Он содержит каталоги с файлами (файлы данных, библиотеки и образы) и другие каталоги. DBFS автоматически заполняется некоторыми наборами данных, которые вы можете использовать для изучения Azure Databricks. См. раздел Что такое файловая система Databricks (DBFS)?.

База данных

Коллекция объектов данных, таких как таблицы или представления и функции, упорядоченная таким образом, чтобы можно было легко получить доступ к ним, управлять и обновляться. См. сведения о базе данных?

Таблица

Представление структурированных данных. Запросы к таблицам выполняются с помощью SQL Apache Spark и API Apache Spark. См. таблицу?

Таблица Delta

По умолчанию все таблицы, созданные в Azure Databricks, — это разностные таблицы. Разностные таблицы основаны на проекте Delta Lake открытый код, платформе для высокопроизводительного хранилища таблиц ACID в облачных хранилищах объектов. Разностная таблица хранит данные в виде каталога файлов в облачном хранилище объектов и регистрирует метаданные таблицы в хранилище метаданных в каталоге и схеме.

Узнайте больше о технологиях , фирменных как Delta.

Хранилище мета-данных

Компонент, хранящий всю информацию о структуре различных таблиц и разделов в хранилище данных, в том числе столбцы и сведения о типах столбцов, сериализаторы и десериализаторы, необходимые для чтения и записи данных, а также соответствующие файлы с данными. См. раздел "Что такое хранилище метаданных?"

Для каждого развертывания Azure Databricks существует центральное хранилище метаданных Hive. Оно предназначено для хранения метаданных таблиц и доступно всем кластерам. Вы также можете использовать существующее внешнее хранилище метаданных Hive.

Визуализация

Графическое представление результата выполнения запроса. Просмотр визуализаций в записных книжках Databricks.

Управление вычислениями

В этом разделе описаны основные понятия, изучение которых необходимо для выполнения вычислений в Azure Databricks.

Кластер

Набор вычислительных ресурсов и конфигураций, на которых выполняются записные книжки и задания. Существует два типа кластеров: универсальные кластеры и кластеры заданий. См. раздел " Вычисления".

Создать универсальный кластер можно с помощью пользовательского интерфейса, CLI или REST API. Такой кластер можно завершить и перезапустить вручную. Несколько пользователей могут использовать такие кластеры одновременно для интерактивного совместного анализа данных.
Планировщик заданий Azure Databricks создает кластер заданий при запуске задания в новом кластере заданий и завершает работу этого кластера при завершении задания. Перезапустить кластер заданий нельзя.

Пул

Набор бездействующих, готовых к использованию экземпляров, который ускоряет запуск и автоматическое масштабирование кластера. При подключении к пулу кластер выделяет узлы драйвера и рабочие узлы из пула. См . справочник по конфигурации пула.

Если в пуле недостаточно бездействующих ресурсов для удовлетворения запроса кластера, пул расширяется путем выделения новых экземпляров от поставщика экземпляров. При завершении работы подключенного кластера используемые им экземпляры возвращаются в пул и могут быть повторно использованы другим кластером.

Databricks Runtime

Набор основных компонентов, которые выполняются в кластерах, управляемых Azure Databricks. См. статью Compute.* Azure Databricks со следующими средами выполнения:

Databricks Runtime включает Apache Spark с набором компонентов и обновлений, которые значительно повышают удобство использования, производительность и безопасность аналитики больших данных.
Среда выполнения Databricks для Машинное обучение основана на Databricks Runtime и предоставляет предварительно созданную инфраструктуру машинного обучения, интегрированную со всеми возможностями рабочей области Azure Databricks. Она содержит много популярных библиотек, включая TensorFlow, Keras, PyTorch и XGBoost.

Рабочие процессы

Платформы для разработки и запуска конвейеров обработки данных:

Задания: неинтерактивный механизм запуска записной книжки или библиотеки немедленно или по расписанию.
Delta Live Tables. Платформа для создания надежных, обслуживаемых и тестируемых конвейеров обработки данных.

Общие сведения о рабочих процессах Azure Databricks.

Рабочая нагрузка

Azure Databricks определяет два типа рабочих нагрузок, к которым применяются разные схемы цен: инжиниринг данных (задание) и аналитика данных (универсальная).

Инжиниринг данных — (автоматизированная) рабочая нагрузка выполняется на кластере заданий, которые создает планировщик заданий Azure Databricks для каждой рабочей нагрузки.
Аналитика данных — (интерактивная) рабочая нагрузка выполняется на универсальном кластере. Интерактивные рабочие нагрузки обычно выполняют команды в записной книжке Azure Databricks. Но выполнение задания в существующем универсальном кластере также считается интерактивной рабочей нагрузкой.

Контекст выполнения

Состояние среды чтения—eval-print (REPL) для каждого поддерживаемого языка программирования. Поддерживаемые языки: Python, R, Scala и SQL.

Машинное обучение

Машинное обучение в Azure Databricks — это интегрированная сквозная среда, включающая управляемые службы для отслеживания экспериментов, обучения моделей, разработки функций и управления и обслуживания функций и моделей.

Эксперименты

Основная организационная единица для отслеживания разработки модели машинного обучения. См. статью "Упорядочение учебных запусков с помощью экспериментов MLflow". Эксперименты упорядочивают, отображают отдельные журналируемые выполнения кода модели обучения и управляют доступом к ним.

Хранилище функций

Централизованный репозиторий признаков. См. раздел "Что такое хранилище функций"? Хранилище функций позволяет предоставлять общий доступ к функциям и обнаруживаться в организации, а также гарантирует, что для обучения и вывода модели используется тот же код вычислений функций.

Реестр моделей и моделей

Обученная модель машинного обучения или глубокого обучения, которая была зарегистрирована в реестре моделей.

SQL

SQL REST API

Интерфейс, позволяющий автоматизировать задачи в объектах SQL. См . API SQL.

Панель мониторинга

Презентация визуализаций данных и комментариев. См . панели мониторинга. Устаревшие панели мониторинга см. в разделе "Устаревшие панели мониторинга".

SQL-запросы

В этом разделе описываются понятия, которые необходимо знать для выполнения запросов SQL в Azure Databricks.

Запрос: любая допустимая инструкция SQL.
Хранилище SQL: вычислительный ресурс, на котором выполняются SQL-запросы.
Журнал запросов: список выполненных запросов и сведения об их производительности.

Основные понятия Azure Databricks

Учетные записи и рабочие области

Выставление счетов: единицы databricks (DBUs)

Проверка подлинности и авторизация

User

Субъект-служба

Групповой

Список управления доступом (ACL)

Личный маркер доступа

UI

Наука и инженерия по обработке и анализу данных

Рабочая область

Записная книжка

Панель мониторинга

Библиотека

Папка Git (прежнее название — Репозиторий)

Эксперимент

Интерфейсы Azure Databricks

REST API

CLI

Управление данными

Файловая система Databricks (DBFS)

База данных

Таблица

Таблица Delta

Хранилище мета-данных

Визуализация

Управление вычислениями

Кластер

Пул

Databricks Runtime

Рабочие процессы

Рабочая нагрузка

Контекст выполнения

Машинное обучение

Эксперименты

Хранилище функций

Реестр моделей и моделей

SQL

SQL REST API

Панель мониторинга

SQL-запросы

Обратная связь

Обратная связь

Дополнительные ресурсы