Краткое руководство: развертывание управляемого кластера Apache Spark с Azure Databricks

Статья
06/01/2023

Служба "Управляемый экземпляр Azure для Apache Cassandra" позволяет автоматизировать операции развертывания и масштабирования для управляемых решений Apache Cassandra с открытым кодом для центров обработки данных. Эта функция ускоряет гибридные сценарии и сокращает текущее обслуживание.

В этом кратком руководстве показано, как с помощью портала Azure создать полностью управляемый кластер Apache Spark в виртуальной сети Azure вашего Управляемого экземпляра Azure для кластера Apache Cassandra. Вы создаете кластер Spark в Azure Databricks. Позже вы сможете создавать или присоединять записные книжки к кластеру, считывать данные из разных источников данных и анализировать аналитические сведения.

См. подробные инструкции по развертыванию Azure Databricks в виртуальной сети Azure (внедрение в виртуальную сеть).

Предварительные требования

Если у вас еще нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу.

Создание кластера Azure Databricks.

Выполните следующие действия, чтобы создать кластер Azure Databricks в виртуальной сети с Управляемым экземпляром Azure для Apache Cassandra:

Войдите на портал Azure.
В области навигации слева найдите группы ресурсов. Перейдите к группе ресурсов, содержащей виртуальная сеть, в которой развернут управляемый экземпляр.
Откройте ресурс виртуальной сети и запишите диапазон адресов:
В группе ресурсов выберите Добавить и введите в поле поиска Azure Databricks:
Выберите Создать, чтобы создать учетную запись Azure Databricks:
Введите следующие значения.
- Имя рабочей области Укажите имя рабочей области Databricks.
- Регионе Убедитесь, что выбран тот же регион, что и виртуальная сеть.
- Ценовая категория Выберите "Стандартный", "Премиум" или "Пробная версия". Дополнительные сведения об этих ценовых категориях см. на странице цен на Databricks.
Затем перейдите на вкладку Сеть и введите следующие сведения:
- Развертывание рабочей области Azure Databricks в виртуальная сеть (виртуальная сеть) Выберите Да.
- виртуальная сеть В раскрывающемся списке выберите виртуальная сеть, где находится управляемый экземпляр.
- Имя общедоступной подсети Введите имя общедоступной подсети.
- Диапазон CIDR общедоступной подсети Введите диапазон IP-адресов для общедоступной подсети.
- Имя частной подсети Введите имя частной подсети.
- Диапазон CIDR частной подсети Введите диапазон IP-адресов для частной подсети.
Чтобы избежать конфликтов диапазонов, убедитесь, что выбраны более высокие диапазоны. При необходимости используйте визуальный калькулятор подсетей, чтобы разделить диапазоны:

На следующем снимке экрана показан пример сведений на панели "Сеть".
Выберите Просмотр и создание, а затем — Создать, чтобы развернуть рабочую область.
После ее создания выберите Запуск рабочей области.
Вы будете перенаправлены на портал Azure Databricks. На портале выберите Создать кластер.
На панели Новый кластер примите значения по умолчанию для всех полей, кроме следующих:
- Имя кластера Введите имя кластера.
- Версия Databricks Runtime Для поддержки Spark 3.x рекомендуется выбрать среду выполнения Databricks версии 7.5 или более поздней.
Разверните пункт Дополнительные параметры и добавьте следующую конфигурацию. Обязательно замените IP-адреса и учетные данные узла:
```
spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
spark.cassandra.auth.password cassandra
spark.cassandra.connection.port 9042
spark.cassandra.auth.username cassandra
spark.cassandra.connection.ssl.enabled true
```
Добавьте библиотеку соединителей Apache Spark Cassandra в кластер для подключения к собственным конечным точкам, а также к конечным точкам Cassandra в Azure Cosmos DB. В кластере выберите Библиотеки>Установить>Maven, а затем добавьте com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 в координаты Maven.

Очистка ресурсов

Если вы не собираетесь в дальнейшем использовать кластер с управляемым экземпляром, удалите его, выполнив следующие действия:

В меню слева на портале Azure выберите Группы ресурсов.
Выберите из списка группу ресурсов, созданную для этого краткого руководства.
На панели Обзор на странице группы ресурсов выберите Удалить группу ресурсов.
В следующем окне введите имя группы ресурсов, которую требуется удалить, и щелкните Удалить.

Дальнейшие действия

Из этого краткого руководства вы узнали, как создать полностью управляемый кластер Apache Spark в виртуальной сети вашего Управляемого экземпляра Azure для кластера Apache Cassandra. Далее вы сможете узнать, как управлять ресурсами кластера и центра обработки данных:

Управление ресурсами службы "Управляемый экземпляр Azure для ресурсов Apache Cassandra" с помощью Azure CLI

Краткое руководство: развертывание управляемого кластера Apache Spark с Azure Databricks

Предварительные требования

Создание кластера Azure Databricks.

Очистка ресурсов

Дальнейшие действия

Дополнительные ресурсы