Доступ к данным API Cassandra для Azure Cosmos DB из Azure Databricks

ПРИМЕНИМО К: API Cassandra

В настоящей статье описывается работа с API Cassandra для Azure Cosmos DB из Spark в Azure Databricks.

Предварительные требования

Добавление необходимых зависимостей

  • Соединитель Cassandra Spark: с целью интеграции с API Cassandra для Azure Cosmos DB с помощью Spark соединитель Cassandra должен быть подключен к кластеру Azure Databricks. Чтобы подключить кластер:

    • Узнайте версию среды выполнения Databricks и версию Spark. Затем найдите координаты Maven, совместимые с соединителем Cassandra Spark, и подключите его к кластеру. См. статью "Отправка пакета Maven или пакета Spark", чтобы подключить библиотеку соединителя к кластеру. Мы рекомендуем выбрать среду выполнения Databricks версии 7.5, которая поддерживает Spark 3.0. Чтобы добавить соединитель Apache Spark Cassandra Connector, ваш кластер, выберите Библиотеки > Установить новое > Maven и добавьте строку com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 в координаты Maven. При использовании Spark 2.x мы рекомендуем применять среду с Spark версии 2.4.5 с помощью соединителя Spark в координатах Maven com.datastax.spark:spark-cassandra-connector_2.11:2.4.3.
  • Библиотека API Cassandra для Azure Cosmos DB: если используется Spark 2.x, для настройки политики повтора из соединителя Cassandra Spark к API Cassandra для Azure Cosmos DB необходима фабрика настраиваемого подключения. Добавьте com.microsoft.azure.cosmosdb:azure-cosmos-cassandra-spark-helper:1.2.0координаты Maven для подключения библиотеки к кластеру.

Примечание

Если используется Spark 3.0 или более поздней версии, не нужно устанавливать библиотеку API Cassandra для Cosmos DB, упомянутую выше.

Записные книжки с примерами

Список примеров записных книжек Azure Databricks доступен для скачивания в репозитории GitHub. Среди них примеры подключения к API Cassandra для Azure Cosmos DB из Spark и выполнения с данными различных операций CRUD. Также можно импортировать все записные книжки в свою рабочую область кластера Databricks и запустить ее.

Доступ к API Cassandra для Azure Cosmos DB из программ Spark Scala

Программы Spark, выполняемые как автоматизированные процессы в Azure Databricks, передаются в кластер с помощью spark-submit) и планируются для выполнения с помощью заданий Azure Databricks.

Следующие ссылки помогут приступить к созданию программы Spark Scala для взаимодействия с API Cassandra для Azure Cosmos DB.

Дальнейшие действия

Начните с создания учетной записи API Cassandra, базы данных и таблицы с помощью приложения Java.