Azure Databricks에서 스트리밍

아티클
03/01/2024

Azure Databricks를 사용하여 거의 실시간 데이터 수집, 처리, 기계 학습 및 AI를 스트리밍 데이터에 사용할 수 있습니다.

Azure Databricks는 스트리밍 및 증분 처리를 위한 다양한 최적화를 제공합니다. 대부분의 스트리밍 또는 증분 데이터 처리 또는 ETL 작업의 경우 Databricks는 델타 라이브 테이블을 권장합니다. 델타 라이브 테이블이란?을 참조하세요.

Azure Databricks의 대부분의 증분 및 스트리밍 워크로드는 델타 라이브 테이블 및 자동 로더를 비롯한 구조적 스트리밍에 의해 구동됩니다. 자동 로더란?을 참조하세요.

Delta Lake 및 Structured Streaming은 Databricks Lakehouse의 증분 처리에 긴밀하게 통합됩니다. 델타 테이블 스트리밍 읽기 및 쓰기를 참조 하세요.

실시간 모델 제공은 Azure Databricks를 사용한 모델 서비스를 참조 하세요.

Azure Databricks 플랫폼에서 스트리밍 솔루션을 빌드하는 방법에 대한 자세한 내용은 데이터 스트리밍 제품 페이지를 참조 하세요.

Azure Databricks에는 Avro, 프로토콜 버퍼 및 JSON 데이터 페이로드에 포함된 반구조화된 데이터 필드를 사용하기 위한 특정 기능이 있습니다. 자세한 내용은 다음을 참조하세요.

구조적 스트리밍이란?

Apache Spark 구조적 스트리밍은 친숙한 Spark API를 사용하여 정확히 한 번만 처리할 수 있는 엔드투엔드 내결함성을 제공하는 거의 실시간 처리 엔진입니다. 구조적 스트리밍을 통해 정적 데이터에 대한 일괄 처리 계산을 표현하는 것과 동일한 방식으로 스트리밍 데이터에 대한 계산을 표현할 수 있습니다. Structured Streaming 엔진은 계산을 증분 방식으로 수행하고 스트리밍 데이터가 도착할 때 결과를 지속적으로 업데이트합니다.

구조적 스트리밍을 처음 접하는 경우 첫 번째 구조적 스트리밍 워크로드 실행을 참조하세요.

Unity 카탈로그에서 구조적 스트리밍을 사용하는 방법에 대한 자세한 내용은 구조적 스트리밍에서 Unity 카탈로그 사용을 참조 하세요.

Azure Databricks에서 지원하는 스트리밍 원본 및 싱크는 무엇인가요?

Databricks는 자동 로더를 사용하여 클라우드 개체 스토리지에서 Delta Lake로 지원되는 파일 형식을 수집하는 것을 권장합니다. ETL 파이프라인의 경우 Databricks는 Delta Live Tables(Delta 테이블 및 구조적 스트리밍 사용)를 사용하는 것을 권장합니다. Delta Lake 테이블 간 스트리밍하여 증분 ETL 워크로드를 구성할 수도 있습니다.

Delta Lake 및 자동 로더 외에도 구조적 스트리밍은 Apache Kafka 같은 메시징 서비스에 연결할 수 있습니다.

foreachBatch를 사용하여 임의의 데이터 싱크에 쓸 수도 있습니다.

추가 리소스

Apache Spark는 구조적 스트리밍에 대한 자세한 정보를 포함하는 구조적 스트리밍 프로그래밍 가이드를 제공합니다.

구조적 스트리밍에 대한 참조 정보를 위해 Databricks는 다음 Apache Spark API 참조를 권장합니다.