Azure Cosmos DB

Important

이 설명서는 사용 중지되었으며 업데이트되지 않을 수 있습니다. 공식 Cosmos DB Spark 커넥터 Github 리포지토리를 참조하세요.

Azure Cosmos DB는 전 세계에 배포된 Microsoft의 멀티모델 데이터베이스입니다. Azure Cosmos DB를 사용하면 Azure의 여러 지리적 영역에서 처리량 및 스토리지를 탄력적이고 독립적으로 크기 조정할 수 있습니다. 포괄적인 SLA(서비스 수준 계약)를 통해 처리량, 대기 시간, 가용성 및 일관성을 보장합니다. Azure Cosmos DB는 여러 언어로 제공되는 SDK와 함께 다음 데이터 모델에 대한 API를 제공합니다.

  • SQL API
  • MongoDB API
  • Cassandra API
  • 그래프(Gremlin) API
  • 테이블 API

이 문서에서는 Azure Databricks를 사용하여 Azure Cosmos DB에서 데이터를 읽고 쓰는 방법을 설명합니다. Azure Cosmos DB에 대한 최신 세부 정보는 Apache Spark-Azure Cosmos DB 커넥터를 사용하여 빅 데이터 분석 가속화를 참조하세요.

리소스:

Important

이 커넥터는 Azure Cosmos DB의 Core(SQL) API를 지원합니다. MongoDB API용 Cosmos DB의 경우 MongoDB Spark 커넥터를 사용합니다. Cosmos DB Cassandra API의 경우 Cassandra Spark connector(Cassandra Spark 커넥터)를 사용합니다.

필수 라이브러리 만들기 및 연결

  1. 실행 중인 Apache Spark 버전에 대한 최신 azure-cosmosdb-spark 라이브러리를 다운로드합니다.
  2. 다운로드한 JAR 파일을 Databricks에 업로드합니다. 라이브러리를 참조 하세요.
  3. Databricks 클러스터에 업로드된 라이브러리를 설치합니다.