Photon

중요

이 기능은 공개 미리 보기 상태입니다.

Photon는 Azure Databricks의 기본 벡터화 쿼리 엔진으로, 기존 코드에서 작동 하도록 Apache Spark Api와 직접 호환 되도록 작성 되었습니다. 최신 하드웨어를 활용 하기 위해 c + +로 개발 되었으며, 벡터화 쿼리 처리의 최신 기술을 사용 하 여 Cpu에서 데이터 및 명령 수준 병렬 처리에 대 한 사례를 제공 하 고 실제 데이터 및 응용 프로그램에 대 한 성능을 향상 시킵니다. Photon는 기존 SQL를 실행 하 고 API 호출을 더 빠르게 실행 하 고 워크 로드 당 총 비용을 절감 하는 고성능 런타임의 일부입니다.

Photon 활성화는 Azure Databricks 클러스터를 사용 하는지 아니면 Databricks SQL 끝점을 사용 하는지에 따라 달라 집니다.

Azure Databricks 클러스터

Azure Databricks 클러스터의 Photon에 액세스 하려면 UI 또는 Api (클러스터 Api 2.0작업 api 2.1를 사용 하 여 클러스터를 만들 때 Photon를 사용 하 여 지정)를 사용 하는 런타임을 명시적으로 선택 해야 합니다 . Photon는 Databricks Runtime 8.3 및 Databricks Runtime 8.3 Photon 이상을 실행 하는 클러스터에서 사용할 수 있습니다.

Photon는 드라이버 및 작업자 노드에서 제한 된 인스턴스 형식 집합을 지원 합니다. Photon 인스턴스 유형은 비 Photon 런타임을 실행 하는 동일한 인스턴스 유형과 다른 속도로 6Bus를 사용 합니다. Photon 인스턴스 및 FBU 사용에 대 한 자세한 내용은 가격 책정 페이지를 Azure Databricks참조 하세요.

Databricks SQL 끝점

Photon는 Databricks SQL 끝점에서 기본적으로 사용 하도록 설정 되어 있습니다. 세로 막대의 끝점SQL 끝점 아이콘을 클릭 하 고, 끝점을 선택 하 고, Photon의 값이 On인지 확인 하 여 SQL 끝점 에 대해 Photon가 사용 하도록 설정 되었는지 확인할 수 있습니다.

장점

다음은 Photon의 장점을 요약 한 것입니다.

  • 델타 및 Parquet 테이블에 대해 SQL 및 이와 동등한 데이터 프레임 작업을 지원 합니다.
  • 상당한 양의 데이터 (100GB 이상)를 처리 하 고 집계와 조인을 포함 하는 쿼리를 가속화 해야 합니다.
  • 델타 캐시에서 반복 해 서 데이터에 액세스 하는 경우 성능이 향상 됩니다.
  • 열 수가 많고 많은 작은 파일이 있는 테이블에 대 한 보다 강력한 검색 성능
  • ,,,, 등을 사용 하 여 더 빠른 델타 및 Parquet 작성, UPDATEDELETEMERGE INTOINSERTCREATE TABLE AS SELECT 특히 넓은 테이블 (수백-수천 개의 열)을 사용 합니다.
  • 정렬-병합 조인을 해시 조인과 바꿉니다.

제한 사항

  • 는 델타 및 Parquet 테이블에서 읽기와 쓰기 모두에 대해 작동 합니다.
  • 창 및 정렬 연산자를 지원 하지 않습니다.
  • 는 Spark 구조적 스트리밍을 지원 하지 않습니다.
  • 는 Udf를 지원 하지 않습니다.
  • 예를 들어 단기 실행 쿼리 (2 초)를 개선 하는 데 필요한 것 < 은 아닙니다. 예를 들어 적은 양의 데이터에 대 한 쿼리를 수행 합니다.

Photon에서 지원 하지 않는 기능은 Databricks Runtime와 동일한 방식으로 실행 됩니다. 이러한 기능에는 성능상의 이점이 없습니다.