Краткое руководство: развертывание управляемого кластера Apache Spark с Azure Databricks

Служба "Управляемый экземпляр Azure для Apache Cassandra" позволяет автоматизировать операции развертывания и масштабирования для управляемых решений Apache Cassandra с открытым кодом для центров обработки данных. Эта функция ускоряет гибридные сценарии и сокращает текущее обслуживание.

В этом кратком руководстве показано, как с помощью портала Azure создать полностью управляемый кластер Apache Spark в виртуальной сети Azure вашего Управляемого экземпляра Azure для кластера Apache Cassandra. Вы создаете кластер Spark в Azure Databricks. Позже вы сможете создавать или присоединять записные книжки к кластеру, считывать данные из разных источников данных и анализировать аналитические сведения.

См. подробные инструкции по развертыванию Azure Databricks в виртуальной сети Azure (внедрение в виртуальную сеть).

Предварительные требования

Если у вас еще нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу.

Создание кластера Azure Databricks.

Выполните следующие действия, чтобы создать кластер Azure Databricks в виртуальной сети с Управляемым экземпляром Azure для Apache Cassandra:

  1. Войдите на портал Azure.

  2. В области навигации слева найдите группы ресурсов. Перейдите к группе ресурсов, содержащей виртуальная сеть, в которой развернут управляемый экземпляр.

  3. Откройте ресурс виртуальной сети и запишите диапазон адресов:

    Снимок экрана: место для получения адресного пространства виртуальная сеть.

  4. В группе ресурсов выберите Добавить и введите в поле поиска Azure Databricks:

    Снимок экрана: поиск По запросу Azure Databricks.

  5. Выберите Создать, чтобы создать учетную запись Azure Databricks:

    Снимок экрана: предложение Azure Databricks с выбранной кнопкой

  6. Введите следующие значения.

    • Имя рабочей области Укажите имя рабочей области Databricks.
    • Регионе Убедитесь, что выбран тот же регион, что и виртуальная сеть.
    • Ценовая категория Выберите "Стандартный", "Премиум" или "Пробная версия". Дополнительные сведения об этих ценовых категориях см. на странице цен на Databricks.

    Снимок экрана: диалоговое окно, в котором можно ввести имя рабочей области, регион и ценовую категорию для учетной записи Databricks.

  7. Затем перейдите на вкладку Сеть и введите следующие сведения:

    • Развертывание рабочей области Azure Databricks в виртуальная сеть (виртуальная сеть) Выберите Да.
    • виртуальная сеть В раскрывающемся списке выберите виртуальная сеть, где находится управляемый экземпляр.
    • Имя общедоступной подсети Введите имя общедоступной подсети.
    • Диапазон CIDR общедоступной подсети Введите диапазон IP-адресов для общедоступной подсети.
    • Имя частной подсети Введите имя частной подсети.
    • Диапазон CIDR частной подсети Введите диапазон IP-адресов для частной подсети.

    Чтобы избежать конфликтов диапазонов, убедитесь, что выбраны более высокие диапазоны. При необходимости используйте визуальный калькулятор подсетей, чтобы разделить диапазоны:

    Снимок экрана: визуальный калькулятор подсети с двумя выделенными идентичными сетевыми адресами.

    На следующем снимке экрана показан пример сведений на панели "Сеть".

    Снимок экрана: указанные имена общедоступных и частных подсетей.

  8. Выберите Просмотр и создание, а затем — Создать, чтобы развернуть рабочую область.

  9. После ее создания выберите Запуск рабочей области.

  10. Вы будете перенаправлены на портал Azure Databricks. На портале выберите Создать кластер.

  11. На панели Новый кластер примите значения по умолчанию для всех полей, кроме следующих:

    • Имя кластера Введите имя кластера.
    • Версия Databricks Runtime Для поддержки Spark 3.x рекомендуется выбрать среду выполнения Databricks версии 7.5 или более поздней.

    Снимок экрана: диалоговое окно

  12. Разверните пункт Дополнительные параметры и добавьте следующую конфигурацию. Обязательно замените IP-адреса и учетные данные узла:

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Добавьте библиотеку соединителей Apache Spark Cassandra в кластер для подключения к собственным конечным точкам, а также к конечным точкам Cassandra в Azure Cosmos DB. В кластере выберите Библиотеки>Установить>Maven, а затем добавьте com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 в координаты Maven.

Снимок экрана, на котором показано поиск пакетов Maven в Databricks.

Очистка ресурсов

Если вы не собираетесь в дальнейшем использовать кластер с управляемым экземпляром, удалите его, выполнив следующие действия:

  1. В меню слева на портале Azure выберите Группы ресурсов.
  2. Выберите из списка группу ресурсов, созданную для этого краткого руководства.
  3. На панели Обзор на странице группы ресурсов выберите Удалить группу ресурсов.
  4. В следующем окне введите имя группы ресурсов, которую требуется удалить, и щелкните Удалить.

Дальнейшие действия

Из этого краткого руководства вы узнали, как создать полностью управляемый кластер Apache Spark в виртуальной сети вашего Управляемого экземпляра Azure для кластера Apache Cassandra. Далее вы сможете узнать, как управлять ресурсами кластера и центра обработки данных: