Databricks Runtime 기본 테넌스 업데이트
이 문서에서는 지원되는 Databricks 런타임 버전에 대한 기본 테넌트 업데이트를 나열합니다. 기존 클러스터에 유지 관리 업데이트를 추가하려면 클러스터를 다시 시작합니다. 지원되지 않는 Databricks 런타임 버전에 대한 기본 테넌트 업데이트는 Databricks 런타임에 대한 유지 관리 업데이트(보관됨)를 참조하세요.
참고 항목
릴리스가 준비되었습니다. Azure Databricks 계정은 초기 릴리스 날짜 이후 며칠 동안 업데이트되지 않을 수 있습니다.
Databricks Runtime releases
릴리스별 유지 관리 업데이트:
- Databricks Runtime 14.3
- Databricks Runtime 14.2
- Databricks Runtime 14.1
- Databricks Runtime 14.0
- Databricks Runtime 13.3 LTS
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
Databricks Runtime 14.3
Databricks Runtime 14.3 LTS를 참조하세요.
- 2024년 1월 3일
- [SPARK-46933] JDBCRDD를 사용하는 커넥터에 쿼리 실행 시간 메트릭을 추가합니다.
- [SPARK-46763] 중복 특성에 대한 ReplaceDeduplicateWithAggregate의 어설션 오류를 수정합니다.
- [SPARK-46954] XML: BufferedReader를 사용하여 InputStreamReader 래핑
- [SPARK-46655] 메서드에서 쿼리 컨텍스트 catch를
DataFrame
건너뜁니다. - [SPARK-44815] 추가 RPC를 방지하기 위해 df.schema를 캐시합니다.
- [SPARK-46952] XML: 손상된 레코드의 크기를 제한합니다.
- [SPARK-46794] LogicalRDD 제약 조건에서 하위 쿼리를 제거합니다.
- [SPARK-46736] protobuf 커넥터에서 빈 메시지 필드를 유지합니다.
- [SPARK-45182] 검사sum에 의해 결정된 대로 부모 확정되지 않은 단계를 다시 시도한 후 이전 단계에서 작업 완료를 무시합니다.
- [SPARK-46414] prependBaseUri를 사용하여 javascript 가져오기를 렌더링합니다.
- [SPARK-46383] 의 수명을 줄여 드라이버 힙 사용량을 줄입니다
TaskInfo.accumulables()
. - [SPARK-46861] DAGScheduler에서 교착 상태를 방지합니다.
- [SPARK-46954] XML: 스키마 인덱스 조회를 최적화합니다.
- [SPARK-46676] dropDuplicatesWithinWatermark는 계획의 정식화에 실패하지 않아야 합니다.
- [SPARK-46644] isZero를 사용하도록 SQLMetric에서 추가 및 병합을 변경합니다.
- [SPARK-46731] 상태 데이터 원본- 판독기별로 상태 저장소 공급자 인스턴스를 관리합니다.
- [SPARK-46677] 해결 방법 수정
dataframe["*"]
- [SPARK-46610] 옵션에서 키에 대한 값이 없는 경우 테이블을 만들면 예외가 throw됩니다.
- [SPARK-46941] SizeBasedWindowFunction이 포함된 경우 최상위 K 계산에 대한 창 그룹 제한 노드를 삽입할 수 없습니다.
- [SPARK-45433] 타임스탬프가 지정된 timestampFormat과 일치하지 않는 경우 CSV/JSON 스키마 유추를 수정합니다.
- [SPARK-46930] Avro에서 Union 형식 필드에 대한 사용자 지정 접두사에 대한 지원을 추가합니다.
- [SPARK-46227] 14.3으로 백포트합니다.
- [SPARK-46822] jdbc 형식을 jdbc의 촉매 형식으로 캐스팅할 때 spark.sql.legacy.charVarcharAsString을 존중합니다.
- 운영 체제 보안 업데이트.
Databricks Runtime 14.2
Databricks Runtime 14.2를 참조하세요.
- 2024년 2월 8일
- [SPARK-46930] Avro에서 Union 형식 필드에 대한 사용자 지정 접두사에 대한 지원을 추가합니다.
- [SPARK-46822] jdbc 형식을 jdbc의 촉매 형식으로 캐스팅할 때 spark.sql.legacy.charVarcharAsString을 존중합니다.
- [SPARK-46952] XML: 손상된 레코드의 크기를 제한합니다.
- [SPARK-46644] isZero를 사용하도록 SQLMetric에서 추가 및 병합을 변경합니다.
- [SPARK-46861] DAGScheduler에서 교착 상태를 방지합니다.
- [SPARK-46794] LogicalRDD 제약 조건에서 하위 쿼리를 제거합니다.
- [SPARK-46941] SizeBasedWindowFunction이 포함된 경우 최상위 K 계산에 대한 창 그룹 제한 노드를 삽입할 수 없습니다.
- [SPARK-46933] JDBCRDD를 사용하는 커넥터에 쿼리 실행 시간 메트릭을 추가합니다.
- 운영 체제 보안 업데이트.
- 2024년 1월 31일
- [SPARK-46382] XML: 에 대한
ignoreSurroundingSpaces
문서 업데이트 - [SPARK-46382] XML: 요소 사이에 흩어져 있는 값을 캡처합니다.
- [SPARK-46763] 중복 특성에 대한 ReplaceDeduplicateWithAggregate의 어설션 오류를 수정합니다.
- [SPARK-46769] 타임스탬프 관련 스키마 유추를 구체화합니다.
- [SPARK-46677] 해결 방법 수정
dataframe["*"]
- [SPARK-46382] XML: Default ignoreSurroundingSpaces를 true로 설정합니다.
- [SPARK-46633] 길이가 0인 블록을 처리하도록 Avro 판독기를 수정합니다.
- [SPARK-45964] 촉매 패키지의 XML 및 JSON 패키지에서 프라이빗 sql 접근자를 제거합니다.
- [SPARK-46581] AccumulatorV2에서 isZero에 대한 주석을 업데이트합니다.
- [SPARK-45912] XSDToSchema API의 향상된 기능: 클라우드 스토리지 접근성을 위해 HDFS API로 변경합니다.
- [SPARK-45182] 검사sum에 의해 결정된 대로 부모 확정되지 않은 단계를 다시 시도한 후 이전 단계에서 작업 완료를 무시합니다.
- [SPARK-46660] ReattachExecute는 SessionHolder의 업데이트를 요청합니다.
- [SPARK-46610] 옵션에서 키에 대한 값이 없는 경우 테이블을 만들면 예외가 throw됩니다.
- [SPARK-46383] 의 수명을 줄여 드라이버 힙 사용량을 줄입니다
TaskInfo.accumulables()
. - [SPARK-46769] 타임스탬프 관련 스키마 유추를 구체화합니다.
- [SPARK-46684] 인수를 제대로 전달하도록 CoGroup.applyInPandas/Arrow를 수정합니다.
- [SPARK-46676] dropDuplicatesWithinWatermark는 계획의 정식화에 실패하지 않아야 합니다.
- [SPARK-45962] XML에서 대신 옵션을 제거하고
treatEmptyValuesAsNulls
사용합니다nullValue
. - [SPARK-46541] 자체 조인에서 모호한 열 참조를 수정합니다.
- [SPARK-46599] XML: 호환성 검사 TypeCoercion.findTightestCommonType을 사용합니다.
- 운영 체제 보안 업데이트.
- [SPARK-46382] XML: 에 대한
- 2024년 1월 17일
shuffle
Photon 쿼리에서 반환된 설명 계획의 노드는 브로드캐스트 조인의 일부인 순서 섞기 중에 메모리 부족 오류가 발생할 때 플래그를 추가causedBroadcastJoinBuildOOM=true
하도록 업데이트됩니다.- TLSv1.3을 통해 통신할 때 대기 시간이 증가하지 않도록 하기 위해 이 기본 테넌스 릴리스에는 JDK 버그 JDK-8293562를 수정하기 위한 JDK 8 설치 패치가 포함되어 있습니다.
- [SPARK-46261]
DataFrame.withColumnsRenamed
는 dict/map 순서를 유지해야 합니다. - [SPARK-46538] 에서 모호한 열 참조 문제를 해결합니다
ALSModel.transform
. - [SPARK-46145] spark.catalog.listTables는 테이블 또는 뷰를 찾을 수 없을 때 예외를 throw하지 않습니다.
- [SPARK-46484] 도우미 함수가 계획 ID를 유지하도록 합니다
resolveOperators
. - [SPARK-46394] true로 설정된 경우
spark.sql.legacy.keepCommandOutputSchema
특수 문자를 사용하여 스키마에서 spark.catalog.listDatabases() 문제를 해결합니다. - [SPARK-46609] PartitioningPreservingUnaryExecNode에서 지수 폭발을 방지합니다.
- [SPARK-46446] 상관 관계가 있는 OFFSET을 사용하여 하위 쿼리를 사용하지 않도록 설정하여 정확성 버그를 수정합니다.
- [SPARK-46152] XML: XML 스키마 유추에서 DecimalType 지원을 추가합니다.
- [SPARK-46602] 뷰/테이블이 없을 때 뷰 만들기에서 전파
allowExisting
합니다. - [SPARK-45814] 메모리 누수 방지를 위해 ArrowConverters.createEmptyArrowBatch 호출 close()를 만듭니다.
- [SPARK-46058] privateKeyPassword에 별도의 플래그를 추가합니다.
- [SPARK-46132] RPC SSL에 대한 JKS 키에 대한 키 암호를 지원합니다.
- [SPARK-46600] SqlConf와 SqlApiConf 간에 공유 코드를 SqlApiConfHelper로 이동합니다.
- [SPARK-46478] 문자열에 oracle varchar(255)를 사용하도록 SPARK-43049를 되돌려 줍니다.
- [SPARK-46417] hive.getTable을 호출하고 throwException이 false인 경우 실패하지 마세요.
- [SPARK-46153] XML: TimestampNTZType 지원을 추가합니다.
- [BACKPORT] [[SPARK-46056]]https://issues.apache.org/jira/browse/SPARK-46056) parquet 벡터화된 읽기 NPE를 byteArrayDecimalType 기본값으로 수정합니다.
- [SPARK-46466] 벡터화된 parquet 판독기는 타임스탬프 ntz에 대한 재베이스를 수행해서는 안 됩니다.
- [SPARK-46260]
DataFrame.withColumnsRenamed
는 받아쓰기 순서를 준수해야 합니다. - [SPARK-46036] raise_error 함수에서 오류 클래스 제거
- [SPARK-46294] init 및 0 값의 의미 체계를 정리합니다.
- [SPARK-46173] 날짜 구문 분석 중 trimAll 호출 건너뛰기
- [SPARK-46250] 데플레이크가 test_parity_listener.
- [SPARK-46587] XML: XSD 큰 정수 변환을 수정합니다.
- [SPARK-46396] 타임스탬프 유추는 예외를 throw해서는 안 됩니다.
- [SPARK-46241] 무한 재귀에 빠지지 않도록 오류 처리 루틴을 수정합니다.
- [SPARK-46355] XML: 읽기 완료 시 InputStreamReader를 닫습니다.
- [SPARK-46370] 열 기본값을 변경한 후 테이블에서 쿼리할 때 버그를 수정합니다.
- [SPARK-46265] AddArtifact RPC의 어설션은 연결 클라이언트를 이전 클러스터와 호환되지 않도록 합니다.
- [SPARK-46308] 재귀 오류 처리를 금지합니다.
- [SPARK-46337] 를 유지합니다
CTESubstitution
PLAN_ID_TAG
.
- 2023년 12월 14일
- [SPARK-46141] spark.sql.legacy.ctePrecedencePolicy의 기본값을 CORRECTED로 변경합니다.
- [SPARK-45730] ReloadingX509TrustManagerSuite를 덜 벗겨지게 합니다.
- [SPARK-45852] 로깅하는 동안 재귀 오류를 정상적으로 처리합니다.
- [SPARK-45808] SQL 예외에 대한 오류 처리가 향상되었습니다.
- [SPARK-45920] 서수별 group은 idempotent여야 합니다.
- "[SPARK-45649] "에 대한
OffsetWindowFunctionFrame
준비 프레임워크를 통합합니다. - [SPARK-45733] 여러 재시도 정책을 지원합니다.
- [SPARK-45509] Spark 커넥트 대한 df 열 참조 동작을 수정합니다.
- [SPARK-45655] CollectMetrics의 AggregateFunctions 내에서 비결정적 식을 허용합니다.
- [SPARK-45905] 소수점 형식 간의 최소 공통 형식은 먼저 정수 자릿수를 유지해야 합니다.
- [SPARK-45136] Ammonite 지원을 사용하여 ClosureCleaner를 향상시킵니다.
- [SPARK-46255] 복합 형식 -> 문자열 변환을 지원합니다.
- [SPARK-45859] ml.functions에서 UDF 개체를 지연으로 만듭니다.
- [SPARK-46028] 입력 열 수락을 만듭니
Column.__getitem__
다. - [SPARK-45798] 서버 쪽 세션 ID를 어설션합니다.
- [SPARK-45892] 분리
validateSchemaOutput
및 을 위해 최적화 프로그램 계획 유효성 검사를 리팩터링합니다validateExprIdUniqueness
. - [SPARK-45844] XML에 대한 대/소문자 구분을 구현합니다.
- [SPARK-45770] 에 대한
Dataframe.drop
계획을DataFrameDropColumns
소개합니다. - [SPARK-44790] XML: python, Connect 및 SQL에 대한 구현 및 바인딩을 to_xml.
- [SPARK-45851] scala 클라이언트에서 여러 정책을 지원합니다.
- 운영 체제 보안 업데이트.
- 2023년 11월 29일
- PyArrow RCE 취약성을 수정하기 위해 새 패키지를
pyarrow-hotfix
설치했습니다. - JDBC 또는 ODBC 클라이언트에서 시작된 작업에서
getColumns
이스케이프된 밑줄이 야생 카드 잘못 해석되는 문제를 해결했습니다. - [SPARK-45730] 에 대한
ReloadingX509TrustManagerSuite
시간 제약 조건이 개선되었습니다. - [SPARK-45852] 이제 Spark용 Python 클라이언트 커넥트 텍스트 변환 중에 재귀 오류를 catch합니다.
- [SPARK-45808] SQL 예외에 대한 오류 처리가 향상되었습니다.
- [SPARK-45920]
GROUP BY
서수는 서수가 대체되지 않습니다. - [SPARK-45649]를 되돌려 갑니다.
- [SPARK-45733] 여러 재시도 정책에 대한 지원이 추가되었습니다.
- [SPARK-45509] Spark 커넥트 대한 열 참조 동작이 수정되었습니다
df
. - [SPARK-45655] 에서
CollectMetrics
비결정적 식을 허용합니다AggregateFunctions
. - [SPARK-45905] 이제 소수점 형식 간의 최소 공통 형식은 정수 자릿수를 먼저 유지합니다.
- [SPARK-45136] Ammonite 지원을 통해 향상시킵니다
ClosureCleaner
. - [SPARK-45859] UDF 개체를 지연으로
ml.functions
만들었습니다. - [SPARK-46028]
Column.__getitem__
는 입력 열을 허용합니다. - [SPARK-45798] 서버 쪽 세션 ID를 어설션합니다.
- [SPARK-45892] 분리
validateSchemaOutput
및 을 위해 최적화 프로그램 계획 유효성 검사를 리팩터링합니다validateExprIdUniqueness
. - [SPARK-45844] XML에 대한 대/소문자 구분을 구현합니다.
- [SPARK-45770] 에 대한
Dataframe.drop
열 해상도가DataFrameDropColumns
수정되었습니다. - [SPARK-44790] Python, Spark 커넥트 및 SQL에 대한 구현 및 바인딩이 추가되었습니다
to_xml
. - [SPARK-45851] Scala 클라이언트에서 여러 정책에 대한 지원이 추가되었습니다.
- 운영 체제 보안 업데이트.
- PyArrow RCE 취약성을 수정하기 위해 새 패키지를
Databricks Runtime 14.1
Databricks Runtime 14.1을 참조하세요.
- 2024년 2월 8일
- [SPARK-46952] XML: 손상된 레코드의 크기를 제한합니다.
- [SPARK-45182] 검사sum에 의해 결정된 대로 부모 확정되지 않은 단계를 다시 시도한 후 이전 단계에서 작업 완료를 무시합니다.
- [SPARK-46794] LogicalRDD 제약 조건에서 하위 쿼리를 제거합니다.
- [SPARK-46933] JDBCRDD를 사용하는 커넥터에 쿼리 실행 시간 메트릭을 추가합니다.
- [SPARK-46861] DAGScheduler에서 교착 상태를 방지합니다.
- [SPARK-45582] 출력 모드 스트리밍 집계 내에서 커밋을 호출한 후 저장소 인스턴스가 사용되지 않는지 확인합니다.
- [SPARK-46930] Avro에서 Union 형식 필드에 대한 사용자 지정 접두사에 대한 지원을 추가합니다.
- [SPARK-46941] SizeBasedWindowFunction이 포함된 경우 최상위 K 계산에 대한 창 그룹 제한 노드를 삽입할 수 없습니다.
- [SPARK-46396] 타임스탬프 유추는 예외를 throw해서는 안 됩니다.
- [SPARK-46822] jdbc 형식을 jdbc의 촉매 형식으로 캐스팅할 때 spark.sql.legacy.charVarcharAsString을 존중합니다.
- [SPARK-45957] 실행 불가능한 명령에 대한 실행 계획을 생성하지 않습니다.
- 운영 체제 보안 업데이트.
- 2024년 1월 31일
- [SPARK-46684] 인수를 제대로 전달하도록 CoGroup.applyInPandas/Arrow를 수정합니다.
- [SPARK-46763] 중복 특성에 대한 ReplaceDeduplicateWithAggregate의 어설션 오류를 수정합니다.
- [SPARK-45498] 후속 작업: 이전 단계 시도에서 작업 완료를 무시합니다.
- [SPARK-46382] XML: 에 대한
ignoreSurroundingSpaces
문서 업데이트 - [SPARK-46383] 의 수명을 줄여 드라이버 힙 사용량을 줄입니다
TaskInfo.accumulables()
. - [SPARK-46382] XML: Default ignoreSurroundingSpaces를 true로 설정합니다.
- [SPARK-46677] 해결 방법 수정
dataframe["*"]
- [SPARK-46676] dropDuplicatesWithinWatermark는 계획의 정식화에 실패하지 않아야 합니다.
- [SPARK-46633] 길이가 0인 블록을 처리하도록 Avro 판독기를 수정합니다.
- [SPARK-45912] XSDToSchema API의 향상된 기능: 클라우드 스토리지 접근성을 위해 HDFS API로 변경합니다.
- [SPARK-46599] XML: 호환성 검사 TypeCoercion.findTightestCommonType을 사용합니다.
- [SPARK-46382] XML: 요소 사이에 흩어져 있는 값을 캡처합니다.
- [SPARK-46769] 타임스탬프 관련 스키마 유추를 구체화합니다.
- [SPARK-46610] 옵션에서 키에 대한 값이 없는 경우 테이블을 만들면 예외가 throw됩니다.
- [SPARK-45964] 촉매 패키지의 XML 및 JSON 패키지에서 프라이빗 sql 접근자를 제거합니다.
- [SPARK-46769] 타임스탬프 관련 스키마 유추를 구체화합니다.
- [SPARK-45962] XML에서 대신 옵션을 제거하고
treatEmptyValuesAsNulls
사용합니다nullValue
. - [SPARK-46541] 자체 조인에서 모호한 열 참조를 수정합니다.
- 운영 체제 보안 업데이트.
- 2024년 1월 17일
shuffle
Photon 쿼리에서 반환된 설명 계획의 노드는 브로드캐스트 조인의 일부인 순서 섞기 중에 메모리 부족 오류가 발생할 때 플래그를 추가causedBroadcastJoinBuildOOM=true
하도록 업데이트됩니다.- TLSv1.3을 통해 통신할 때 대기 시간이 증가하지 않도록 하기 위해 이 기본 테넌스 릴리스에는 JDK 버그 JDK-8293562를 수정하기 위한 JDK 8 설치 패치가 포함되어 있습니다.
- [SPARK-46538] 에서 모호한 열 참조 문제를 해결합니다
ALSModel.transform
. - [SPARK-46417] hive.getTable을 호출하고 throwException이 false인 경우 실패하지 마세요.
- [SPARK-46484] 도우미 함수가 계획 ID를 유지하도록 합니다
resolveOperators
. - [SPARK-46153] XML: TimestampNTZType 지원을 추가합니다.
- [SPARK-46152] XML: XML 스키마 유추에서 DecimalType 지원을 추가합니다.
- [SPARK-46145] spark.catalog.listTables는 테이블 또는 뷰를 찾을 수 없을 때 예외를 throw하지 않습니다.
- [SPARK-46478] 문자열에 oracle varchar(255)를 사용하도록 SPARK-43049를 되돌려 줍니다.
- [SPARK-46394] true로 설정된 경우
spark.sql.legacy.keepCommandOutputSchema
특수 문자를 사용하여 스키마에서 spark.catalog.listDatabases() 문제를 해결합니다. - [SPARK-46337] 를 유지합니다
CTESubstitution
PLAN_ID_TAG
. - [SPARK-46466] 벡터화된 parquet 판독기는 타임스탬프 ntz에 대한 재베이스를 수행해서는 안 됩니다.
- [SPARK-46587] XML: XSD 큰 정수 변환을 수정합니다.
- [SPARK-45814] 메모리 누수 방지를 위해 ArrowConverters.createEmptyArrowBatch 호출 close()를 만듭니다.
- [SPARK-46132] RPC SSL에 대한 JKS 키에 대한 키 암호를 지원합니다.
- [SPARK-46602] 뷰/테이블이 없을 때 뷰 만들기에서 전파
allowExisting
합니다. - [SPARK-46173] 날짜 구문 분석 중 trimAll 호출 건너뛰기
- [SPARK-46355] XML: 읽기 완료 시 InputStreamReader를 닫습니다.
- [SPARK-46600] SqlConf와 SqlApiConf 간에 공유 코드를 SqlApiConfHelper로 이동합니다.
- [SPARK-46261]
DataFrame.withColumnsRenamed
는 dict/map 순서를 유지해야 합니다. - [SPARK-46056] parquet 벡터화된 읽기 NPE를 byteArrayDecimalType 기본값으로 수정합니다.
- [SPARK-46260]
DataFrame.withColumnsRenamed
는 받아쓰기 순서를 준수해야 합니다. - [SPARK-46250] 데플레이크가 test_parity_listener.
- [SPARK-46370] 열 기본값을 변경한 후 테이블에서 쿼리할 때 버그를 수정합니다.
- [SPARK-46609] PartitioningPreservingUnaryExecNode에서 지수 폭발을 방지합니다.
- [SPARK-46058] privateKeyPassword에 별도의 플래그를 추가합니다.
- 2023년 12월 14일
- JDBC 또는 ODBC 클라이언트에서 시작된 getColumns 작업의 이스케이프된 밑줄이 잘못 처리되고 야생카드 해석되는 문제를 해결했습니다.
- [SPARK-45509] Spark 커넥트 대한 df 열 참조 동작을 수정합니다.
- [SPARK-45844] XML에 대한 대/소문자 구분을 구현합니다.
- [SPARK-46141] spark.sql.legacy.ctePrecedencePolicy의 기본값을 CORRECTED로 변경합니다.
- [SPARK-46028] 입력 열 수락을 만듭니
Column.__getitem__
다. - [SPARK-46255] 복합 형식 -> 문자열 변환을 지원합니다.
- [SPARK-45655] CollectMetrics의 AggregateFunctions 내에서 비결정적 식을 허용합니다.
- [SPARK-45433] 타임스탬프가 지정된 timestampFormat과 일치하지 않는 경우 CSV/JSON 스키마 유추를 수정합니다.
- [SPARK-45316] 에 새 매개 변수
ignoreCorruptFiles
/ignoreMissingFiles
를HadoopRDD
추가합니다.NewHadoopRDD
- [SPARK-45852] 로깅하는 동안 재귀 오류를 정상적으로 처리합니다.
- [SPARK-45920] 서수별 group은 idempotent여야 합니다.
- 운영 체제 보안 업데이트.
- 2023년 11월 29일
- PyArrow RCE 취약성을 수정하기 위해 새 패키지를
pyarrow-hotfix
설치했습니다. - JDBC 또는 ODBC 클라이언트에서 시작된 작업에서
getColumns
이스케이프된 밑줄이 야생 카드 잘못 해석되는 문제를 해결했습니다. - 자동 로더 또는 스트리밍 테이블을 사용하여 CSV 데이터를 수집할 때 이제 큰 CSV 파일을 분할할 수 있으며 스키마 유추 및 데이터 처리 중에 병렬로 처리할 수 있습니다.
- [SPARK-45892] 분리
validateSchemaOutput
및 을 위해 최적화 프로그램 계획 유효성 검사를 리팩터링합니다validateExprIdUniqueness
. - [SPARK-45620] Python UDF와 관련된 API는 이제 camelCase를 사용합니다.
- [SPARK-44790] Python, Spark 커넥트 및 SQL에 대한 구현 및 바인딩이 추가되었습니다
to_xml
. - [SPARK-45770] 에 대한
Dataframe.drop
열 해상도가DataFrameDropColumns
수정되었습니다. - [SPARK-45859] UDF 개체를 지연으로
ml.functions
만들었습니다. - [SPARK-45730] 에 대한
ReloadingX509TrustManagerSuite
시간 제약 조건이 개선되었습니다. - [SPARK-44784] SBT 테스트 밀폐를 만들었습니다.
- 운영 체제 보안 업데이트.
- PyArrow RCE 취약성을 수정하기 위해 새 패키지를
- 2023년 11월 10일
- [SPARK-45545]
SparkTransportConf
는 생성 시 상속됩니다SSLOptions
. - [SPARK-45250] 동적 할당이 해제된 경우 yarn 클러스터에 대한 단계 수준 작업 리소스 프로필에 대한 지원이 추가되었습니다.
- [SPARK-44753] PySpark SQL에 대한 XML DataFrame 판독기 및 기록기가 추가되었습니다.
- [SPARK-45396] 모듈에 대한 문서 항목이
PySpark.ml.connect
추가되었습니다. - [SPARK-45584] 를 사용하여 하위 쿼리 실행 실패를
TakeOrderedAndProjectExec
수정했습니다. - [SPARK-45541] SSLFactory가 추가되었습니다.
- [SPARK-45577] 명명된 인수에서 접힌 값을 전달하도록 수정
UserDefinedPythonTableFunctionAnalyzeRunner
되었습니다. - [SPARK-45562] 'rowTag'를 필수 옵션으로 만들었습니다.
- [SPARK-45427] 에 RPC SSL 설정이
SSLOptions
추가되었습니다.SparkTransportConf
- [SPARK-43380] Avro 읽기의 속도 저하가 수정되었습니다.
- [SPARK-45430]
FramelessOffsetWindowFunction
는 더 이상 실패하지offset > rowCount
않습니다.IGNORE NULLS
- [SPARK-45429] SSL RPC 통신을 위한 도우미 클래스가 추가되었습니다.
- [SPARK-45386] 0을 잘못 반환하는
StorageLevel.NONE
문제를 해결했습니다. - [SPARK-44219] 최적화 다시 쓰기를 위한 규칙별 유효성 검사 검사 추가되었습니다.
- [SPARK-45543] 다른 창 함수에
InferWindowGroupLimit
순위와 유사한 함수와 동일한 창 프레임이 없는 경우 문제가 발생하는 문제를 해결했습니다. - 운영 체제 보안 업데이트.
- [SPARK-45545]
- 2023년 9월 27일
- [SPARK-44823] 23.9.1로 업데이트
black
되고 잘못된 검사 수정되었습니다. - [SPARK-45339] 이제 PySpark는 다시 시도한 오류를 기록합니다.
- [SPARK-42946] 변수 대체 아래에 중첩된 중요한 데이터를 수정합니다.
- [SPARK-44551] OSS와 동기화할 주석을 편집했습니다.
- [SPARK-45360] Spark 세션 작성기에서
SPARK_REMOTE
초기화를 지원합니다. - [SPARK-45279] 모든 논리 계획에 연결됩니다
plan_id
. - [SPARK-45425] 에 매핑
MsSqlServerDialect
됩니다ShortType
TINYINT
. - [SPARK-45419] sst 파일 ID를 다시 사용하지
rocksdb
않도록 더 큰 버전의 파일 버전 맵 항목이 제거되었습니다. - [SPARK-45488] 요소의 값에 대한 지원이 추가되었습니다
rowTag
. - [SPARK-42205] 이벤트 로그의
Accumulables
Task/Stage
시작 이벤트에 대한JsonProtocol
로깅이 제거되었습니다. - [SPARK-45426] 에 대한
ReloadingX509TrustManager
지원이 추가되었습니다. - [SPARK-45256]
DurationWriter
는 초기 용량보다 더 많은 값을 작성할 때 실패합니다. - [SPARK-43380] 성능 회귀를 유발하지 않고 데이터 형식 변환 문제를 해결
Avro
했습니다. - [SPARK-45182] 스테이지 출력이 확정되지 않은 경우 모든 스테이지 작업을 다시 시도 할 수 있도록 순서 섞기 맵 스테이지 롤백에 대한 지원이 추가되었습니다.
- [SPARK-45399] 를 사용하여
newOption
XML 옵션이 추가되었습니다. - 운영 체제 보안 업데이트.
- [SPARK-44823] 23.9.1로 업데이트
Databricks Runtime 14.0
Databricks Runtime 14.0을 참조하세요.
- 2024년 2월 8일
- [SPARK-46396] 타임스탬프 유추는 예외를 throw해서는 안 됩니다.
- [SPARK-46794] LogicalRDD 제약 조건에서 하위 쿼리를 제거합니다.
- [SPARK-45182] 검사sum에 의해 결정된 대로 부모 확정되지 않은 단계를 다시 시도한 후 이전 단계에서 작업 완료를 무시합니다.
- [SPARK-46933] JDBCRDD를 사용하는 커넥터에 쿼리 실행 시간 메트릭을 추가합니다.
- [SPARK-45957] 실행 불가능한 명령에 대한 실행 계획을 생성하지 않습니다.
- [SPARK-46861] DAGScheduler에서 교착 상태를 방지합니다.
- [SPARK-46930] Avro에서 Union 형식 필드에 대한 사용자 지정 접두사에 대한 지원을 추가합니다.
- [SPARK-46941] SizeBasedWindowFunction이 포함된 경우 최상위 K 계산에 대한 창 그룹 제한 노드를 삽입할 수 없습니다.
- [SPARK-45582] 출력 모드 스트리밍 집계 내에서 커밋을 호출한 후 저장소 인스턴스가 사용되지 않는지 확인합니다.
- 운영 체제 보안 업데이트.
- 2024년 1월 31일
- [SPARK-46541] 자체 조인에서 모호한 열 참조를 수정합니다.
- [SPARK-46676] dropDuplicatesWithinWatermark는 계획의 정식화에 실패하지 않아야 합니다.
- [SPARK-46769] 타임스탬프 관련 스키마 유추를 구체화합니다.
- [SPARK-45498] 후속 작업: 이전 단계 시도에서 작업 완료를 무시합니다.
- [SPARK-46769] 타임스탬프 관련 스키마 유추를 구체화합니다.
- [SPARK-46383] 의 수명을 줄여 드라이버 힙 사용량을 줄입니다
TaskInfo.accumulables()
. - [SPARK-46633] 길이가 0인 블록을 처리하도록 Avro 판독기를 수정합니다.
- [SPARK-46677] 해결 방법 수정
dataframe["*"]
- [SPARK-46684] 인수를 제대로 전달하도록 CoGroup.applyInPandas/Arrow를 수정합니다.
- [SPARK-46763] 중복 특성에 대한 ReplaceDeduplicateWithAggregate의 어설션 오류를 수정합니다.
- [SPARK-46610] 옵션에서 키에 대한 값이 없는 경우 테이블을 만들면 예외가 throw됩니다.
- 운영 체제 보안 업데이트.
- 2024년 1월 17일
shuffle
Photon 쿼리에서 반환된 설명 계획의 노드는 브로드캐스트 조인의 일부인 순서 섞기 중에 메모리 부족 오류가 발생할 때 플래그를 추가causedBroadcastJoinBuildOOM=true
하도록 업데이트됩니다.- TLSv1.3을 통해 통신할 때 대기 시간이 증가하지 않도록 하기 위해 이 기본 테넌스 릴리스에는 JDK 버그 JDK-8293562를 수정하기 위한 JDK 8 설치 패치가 포함되어 있습니다.
- [SPARK-46394] true로 설정된 경우
spark.sql.legacy.keepCommandOutputSchema
특수 문자를 사용하여 스키마에서 spark.catalog.listDatabases() 문제를 해결합니다. - [SPARK-46250] 데플레이크가 test_parity_listener.
- [SPARK-45814] 메모리 누수 방지를 위해 ArrowConverters.createEmptyArrowBatch 호출 close()를 만듭니다.
- [SPARK-46173] 날짜 구문 분석 중 trimAll 호출 건너뛰기
- [SPARK-46484] 도우미 함수가 계획 ID를 유지하도록 합니다
resolveOperators
. - [SPARK-46466] 벡터화된 parquet 판독기는 타임스탬프 ntz에 대한 재베이스를 수행해서는 안 됩니다.
- [SPARK-46056] parquet 벡터화된 읽기 NPE를 byteArrayDecimalType 기본값으로 수정합니다.
- [SPARK-46058] privateKeyPassword에 별도의 플래그를 추가합니다.
- [SPARK-46478] 문자열에 oracle varchar(255)를 사용하도록 SPARK-43049를 되돌려 줍니다.
- [SPARK-46132] RPC SSL에 대한 JKS 키에 대한 키 암호를 지원합니다.
- [SPARK-46417] hive.getTable을 호출하고 throwException이 false인 경우 실패하지 마세요.
- [SPARK-46261]
DataFrame.withColumnsRenamed
는 dict/map 순서를 유지해야 합니다. - [SPARK-46370] 열 기본값을 변경한 후 테이블에서 쿼리할 때 버그를 수정합니다.
- [SPARK-46609] PartitioningPreservingUnaryExecNode에서 지수 폭발을 방지합니다.
- [SPARK-46600] SqlConf와 SqlApiConf 간에 공유 코드를 SqlApiConfHelper로 이동합니다.
- [SPARK-46538] 에서 모호한 열 참조 문제를 해결합니다
ALSModel.transform
. - [SPARK-46337] 를 유지합니다
CTESubstitution
PLAN_ID_TAG
. - [SPARK-46602] 뷰/테이블이 없을 때 뷰 만들기에서 전파
allowExisting
합니다. - [SPARK-46260]
DataFrame.withColumnsRenamed
는 받아쓰기 순서를 준수해야 합니다. - [SPARK-46145] spark.catalog.listTables는 테이블 또는 뷰를 찾을 수 없을 때 예외를 throw하지 않습니다.
- 2023년 12월 14일
- JDBC 또는 ODBC 클라이언트에서 시작된 getColumns 작업의 이스케이프된 밑줄이 잘못 처리되고 야생카드 해석되는 문제를 해결했습니다.
- [SPARK-46255] 복합 형식 -> 문자열 변환을 지원합니다.
- [SPARK-46028] 입력 열 수락을 만듭니
Column.__getitem__
다. - [SPARK-45920] 서수별 group은 idempotent여야 합니다.
- [SPARK-45433] 타임스탬프가 지정된 timestampFormat과 일치하지 않는 경우 CSV/JSON 스키마 유추를 수정합니다.
- [SPARK-45509] Spark 커넥트 대한 df 열 참조 동작을 수정합니다.
- 운영 체제 보안 업데이트.
- 2023년 11월 29일
- PyArrow RCE 취약성을 수정하기 위해 새 패키지를
pyarrow-hotfix
설치했습니다. - JDBC 또는 ODBC 클라이언트에서 시작된 작업에서
getColumns
이스케이프된 밑줄이 야생 카드 잘못 해석되는 문제를 해결했습니다. - 자동 로더 또는 스트리밍 테이블을 사용하여 CSV 데이터를 수집할 때 이제 큰 CSV 파일을 분할할 수 있으며 스키마 유추 및 데이터 처리 중에 병렬로 처리할 수 있습니다.
- Spark-snowflake 커넥터가 2.12.0으로 업그레이드되었습니다.
- [SPARK-45859] UDF 개체를 지연으로
ml.functions
만들었습니다. - [SPARK-45592]를 되돌려 갑니다.
- [SPARK-45892] 분리
validateSchemaOutput
및 을 위해 최적화 프로그램 계획 유효성 검사를 리팩터링합니다validateExprIdUniqueness
. - [SPARK-45592] 을 사용하여 AQE
InMemoryTableScanExec
의 정확성 문제를 해결했습니다. - [SPARK-45620] Python UDF와 관련된 API는 이제 camelCase를 사용합니다.
- [SPARK-44784] SBT 테스트 밀폐를 만들었습니다.
- [SPARK-45770] 에 대한
Dataframe.drop
열 해상도가DataFrameDropColumns
수정되었습니다. - [SPARK-45544] 에 대한 통합 SSL 지원
TransportContext
- [SPARK-45730] 에 대한
ReloadingX509TrustManagerSuite
시간 제약 조건이 개선되었습니다. - 운영 체제 보안 업데이트.
- PyArrow RCE 취약성을 수정하기 위해 새 패키지를
- 2023년 11월 10일
- Unity 카탈로그 스트리밍 테이블 및 구체화된 뷰에서 데이터 피드 쿼리가 변경되어 오류 메시지가 표시됩니다.
- [SPARK-45545]
SparkTransportConf
는 생성 시 상속됩니다SSLOptions
. - [SPARK-45584] 를 사용하여 하위 쿼리 실행 실패를
TakeOrderedAndProjectExec
수정했습니다. - [SPARK-45427] 에 RPC SSL 설정이
SSLOptions
추가되었습니다.SparkTransportConf
- [SPARK-45541] 추가되었습니다
SSLFactory
. - [SPARK-45430]
FramelessOffsetWindowFunction
는 더 이상 실패하지offset > rowCount
않습니다.IGNORE NULLS
- [SPARK-45429] SSL RPC 통신을 위한 도우미 클래스가 추가되었습니다.
- [SPARK-44219] 최적화 재작성을 위한 규칙별 추가 유효성 검사가 추가되었습니다.
- [SPARK-45543] 다른 창 함수가
InferWindowGroupLimit
순위와 유사한 함수와 동일한 창 프레임이 아닌 경우 오류가 발생하는 문제를 해결했습니다. - 운영 체제 보안 업데이트.
- 2023년 10월 23일
- [SPARK-45426] 에 대한
ReloadingX509TrustManager
지원이 추가되었습니다. - [SPARK-45396] 모듈에 대한
PySpark.ml.connect
문서 항목을 추가하고 에 추가__all__
Evaluator
했습니다ml.connect
. - [SPARK-45256] 초기 용량보다 더 많은 값을 쓸 때 실패한 문제를 해결
DurationWriter
했습니다. - [SPARK-45279] 모든 논리 계획에 연결됩니다
plan_id
. - [SPARK-45250] 동적 할당이 해제된 경우 yarn 클러스터에 대한 단계 수준 작업 리소스 프로필에 대한 지원이 추가되었습니다.
- [SPARK-45182] 스테이지 출력이 확정되지 않은 경우 모든 스테이지 작업을 다시 시도 할 수 있도록 순서 섞기 맵 스테이지 롤백에 대한 지원이 추가되었습니다.
- [SPARK-45419] 더 큰 버전의 파일 버전 맵 항목을 제거하여 다른
rocksdb
인스턴스에서 파일을 다시 사용하지rocksdb sst
마세요. - [SPARK-45386] 0을 잘못 반환하는
StorageLevel.NONE
문제를 해결했습니다. - 운영 체제 보안 업데이트.
- [SPARK-45426] 에 대한
- 2023년 10월 13일
- Snowflake-jdbc 종속성이 3.13.29에서 3.13.33으로 업그레이드되었습니다.
- 이
array_insert
함수는 양수 및 음수 인덱스에 대해 1부터 시작하지만 이전에는 음수 인덱스에 대해 0부터 시작했습니다. 이제 인덱스 -1의 입력 배열 끝에 새 요소를 삽입합니다. 이전 동작을 복원하려면spark.sql.legacy.negativeIndexInArrayInsert
을true
로 설정합니다. - 자동 로더를 사용한 CSV 스키마 유추를 사용하도록 설정한
ignoreCorruptFiles
경우 Azure Databricks는 더 이상 손상된 파일을 무시하지 않습니다. - [SPARK-45227] 을 사용하여 미묘한 스레드 안전 문제를 해결
CoarseGrainedExecutorBackend
했습니다. - [SPARK-44658]
ShuffleStatus.getMapStatus
은 대신 반환None
Some(null)
되어야 합니다. - [SPARK-44910]
Encoders.bean
는 제네릭 형식 인수가 있는 슈퍼클래스를 지원하지 않습니다. - [SPARK-45346] Parquet 스키마 유추는 스키마를 병합할 때 대/소문자를 구분하는 플래그를 존중합니다.
- [SPARK-42946]을 되돌려 갑니다.
- [SPARK-42205] 작업 또는 스테이지 시작 이벤트에서 Accumulables 로깅을 제거하도록 JSON 프로토콜을 업데이트했습니다.
- [SPARK-45360] Spark 세션 작성기에서
SPARK_REMOTE
초기화를 지원합니다. - [SPARK-45316] 에 새 매개 변수
ignoreCorruptFiles
/ignoreMissingFiles
를HadoopRDD
추가합니다.NewHadoopRDD
- [SPARK-44909] 토치 배포자 로그 스트리밍 서버를 사용할 수 없는 경우 실행을 건너뜁니다.
- [SPARK-45084]
StateOperatorProgress
이제 정확한 순서 섞기 파티션 번호를 사용합니다. - [SPARK-45371] Spark 커넥트 Scala Client의 음영 문제를 해결했습니다.
- [SPARK-45178] 래퍼를 사용하는 대신 지원되지 않는 원본에 대해
Trigger.AvailableNow
단일 일괄 처리를 실행하도록 대체합니다. - [SPARK-44840] 음수 인덱스에 대해 1부터 만듭니
array_insert()
다. - [SPARK-44551] OSS와 동기화할 주석을 편집했습니다.
- [SPARK-45078] 이제 요소 형식이
ArrayInsert
파생된 구성 요소 형식과 같지 않을 때 함수가 명시적 캐스팅을 수행합니다. - [SPARK-45339] 이제 PySpark는 재시도 오류를 기록합니다.
- [SPARK-45057] false인 경우
keepReadLock
읽기 잠금을 획득하지 않습니다. - [SPARK-44908] 교차 유효성 검사기
foldCol
매개 변수 기능이 수정되었습니다. - 운영 체제 보안 업데이트.
Databricks Runtime 13.3 LTS
Databricks Runtime 13.3 LTS를 참조하세요.
- 2024년 2월 8일
- [SPARK-46794] LogicalRDD 제약 조건에서 하위 쿼리를 제거합니다.
- [SPARK-46933] JDBCRDD를 사용하는 커넥터에 쿼리 실행 시간 메트릭을 추가합니다.
- [SPARK-45582] 출력 모드 스트리밍 집계 내에서 커밋을 호출한 후 저장소 인스턴스가 사용되지 않는지 확인합니다.
- [SPARK-46396] 타임스탬프 유추는 예외를 throw해서는 안 됩니다.
- [SPARK-46861] DAGScheduler에서 교착 상태를 방지합니다.
- [SPARK-46941] SizeBasedWindowFunction이 포함된 경우 최상위 K 계산에 대한 창 그룹 제한 노드를 삽입할 수 없습니다.
- 운영 체제 보안 업데이트.
- 2024년 1월 31일
- [SPARK-46610] 옵션에서 키에 대한 값이 없는 경우 테이블을 만들면 예외가 throw됩니다.
- [SPARK-46383] TaskInfo.accumulables()의 수명을 줄여 드라이버 힙 사용량을 줄입니다.
- [SPARK-46600] SqlConf와 SqlApiConf 간에 공유 코드를 SqlApiConfHelper로 이동합니다.
- [SPARK-46676] dropDuplicatesWithinWatermark는 계획의 정식화에 실패하지 않아야 합니다.
- [SPARK-46763] 중복 특성에 대한 ReplaceDeduplicateWithAggregate의 어설션 오류를 수정합니다.
- 운영 체제 보안 업데이트.
- 2024년 1월 17일
shuffle
Photon 쿼리에서 반환된 설명 계획의 노드는 브로드캐스트 조인의 일부인 순서 섞기 중에 메모리 부족 오류가 발생할 때 플래그를 추가causedBroadcastJoinBuildOOM=true
하도록 업데이트됩니다.- TLSv1.3을 통해 통신할 때 대기 시간이 증가하지 않도록 하기 위해 이 기본 테넌스 릴리스에는 JDK 버그 JDK-8293562를 수정하기 위한 JDK 8 설치 패치가 포함되어 있습니다.
- [SPARK-46058] privateKeyPassword에 별도의 플래그를 추가합니다.
- [SPARK-46173] 날짜 구문 분석 중 trimAll 호출 건너뛰기
- [SPARK-46370] 열 기본값을 변경한 후 테이블에서 쿼리할 때 버그를 수정합니다.
- [SPARK-46370] 열 기본값을 변경한 후 테이블에서 쿼리할 때 버그를 수정합니다.
- [SPARK-46370] 열 기본값을 변경한 후 테이블에서 쿼리할 때 버그를 수정합니다.
- [SPARK-46609] PartitioningPreservingUnaryExecNode에서 지수 폭발을 방지합니다.
- [SPARK-46132] RPC SSL에 대한 JKS 키에 대한 키 암호를 지원합니다.
- [SPARK-46602] 뷰/테이블이 없을 때 뷰 만들기에서 전파
allowExisting
합니다. - [SPARK-46249] 백그라운드 작업과의 경합을 방지하기 위해 RocksDB 메트릭을 획득하려면 인스턴스 잠금이 필요합니다.
- [SPARK-46417] hive.getTable을 호출하고 throwException이 false인 경우 실패하지 마세요.
- [SPARK-46538] 에서 모호한 열 참조 문제를 해결합니다
ALSModel.transform
. - [SPARK-46478] 문자열에 oracle varchar(255)를 사용하도록 SPARK-43049를 되돌려 줍니다.
- [SPARK-46250] 데플레이크가 test_parity_listener.
- [SPARK-46394] true로 설정된 경우
spark.sql.legacy.keepCommandOutputSchema
특수 문자를 사용하여 스키마에서 spark.catalog.listDatabases() 문제를 해결합니다. - [SPARK-46056] parquet 벡터화된 읽기 NPE를 byteArrayDecimalType 기본값으로 수정합니다.
- [SPARK-46145] spark.catalog.listTables는 테이블 또는 뷰를 찾을 수 없을 때 예외를 throw하지 않습니다.
- [SPARK-46466] 벡터화된 parquet 판독기는 타임스탬프 ntz에 대한 재베이스를 수행해서는 안 됩니다.
- 2023년 12월 14일
- JDBC 또는 ODBC 클라이언트에서 시작된 getColumns 작업의 이스케이프된 밑줄이 잘못 처리되고 야생카드 해석되는 문제를 해결했습니다.
- [SPARK-45920] 서수별 group은 idempotent여야 합니다.
- [SPARK-44582] SMJ가 클린 경우 반복기를 건너뜁니다.
- [SPARK-45433] 타임스탬프가 지정된 timestampFormat과 일치하지 않는 경우 CSV/JSON 스키마 유추를 수정합니다.
- [SPARK-45655] CollectMetrics의 AggregateFunctions 내에서 비결정적 식을 허용합니다.
- 운영 체제 보안 업데이트.
- 2023년 11월 29일
- PyArrow RCE 취약성을 수정하기 위해 새 패키지를
pyarrow-hotfix
설치했습니다. - Spark-snowflake 커넥터가 2.12.0으로 업그레이드되었습니다.
- [SPARK-44846] 뒤
RemoveRedundantAggregates
의 복합 그룹화 식이 제거되었습니다. - [SPARK-45544] 에 대한 통합 SSL 지원
TransportContext
- [SPARK-45892] 분리
validateSchemaOutput
및 을 위해 최적화 프로그램 계획 유효성 검사를 리팩터링합니다validateExprIdUniqueness
. - [SPARK-45730] 에 대한
ReloadingX509TrustManagerSuite
시간 제약 조건이 개선되었습니다. - [SPARK-45859] UDF 개체를 지연으로
ml.functions
만들었습니다. - 운영 체제 보안 업데이트.
- PyArrow RCE 취약성을 수정하기 위해 새 패키지를
- 2023년 11월 10일
- 더 나은 사용률을 달성하기 위해 속도 제한 전에 Delta Lake 스트리밍 쿼리의 파티션 필터가 푸시다운됩니다.
- Unity 카탈로그 스트리밍 테이블 및 구체화된 뷰에서 데이터 피드 쿼리가 변경되어 오류 메시지가 표시됩니다.
- [SPARK-45545]
SparkTransportConf
는 생성 시 상속됩니다SSLOptions
. - [SPARK-45584] 를 사용하여 하위 쿼리 실행 실패를
TakeOrderedAndProjectExec
수정했습니다. - [SPARK-45427] 에 RPC SSL 설정이
SSLOptions
추가되었습니다.SparkTransportConf
- [SPARK-45541] 추가되었습니다
SSLFactory
. - [SPARK-45430]
FramelessOffsetWindowFunction
는 더 이상 실패하지offset > rowCount
않습니다.IGNORE NULLS
- [SPARK-45429] SSL RPC 통신을 위한 도우미 클래스가 추가되었습니다.
- [SPARK-44219] 최적화 재작성을 위한 규칙별 추가 유효성 검사가 추가되었습니다.
- [SPARK-45543] 다른 창 함수에
InferWindowGroupLimit
순위와 유사한 함수와 동일한 창 프레임이 없는 경우 문제가 발생하는 문제를 해결했습니다. - 운영 체제 보안 업데이트.
- 2023년 10월 23일
- [SPARK-45256] 초기 용량보다 더 많은 값을 쓸 때 실패한 문제를 해결
DurationWriter
했습니다. - [SPARK-45419] 더 큰 버전의 파일 버전 맵 항목을 제거하여 다른
rocksdb
인스턴스에서 파일을 다시 사용하지rocksdb sst
마세요. - [SPARK-45426] 에 대한
ReloadingX509TrustManager
지원이 추가되었습니다. - 기타 수정.
- [SPARK-45256] 초기 용량보다 더 많은 값을 쓸 때 실패한 문제를 해결
- 2023년 10월 13일
- Snowflake-jdbc 종속성이 3.13.29에서 3.13.33으로 업그레이드되었습니다.
- 이
array_insert
함수는 양수 및 음수 인덱스에 대해 1부터 시작하지만 이전에는 음수 인덱스에 대해 0부터 시작했습니다. 이제 인덱스 -1의 입력 배열 끝에 새 요소를 삽입합니다. 이전 동작을 복원하려면spark.sql.legacy.negativeIndexInArrayInsert
을true
로 설정합니다. - 자동 로더를 사용하여 CSV 스키마 유추 중에 사용되는 경우
ignoreCorruptFiles
손상된 파일을 무시하지 않는 문제를 해결했습니다. - [SPARK-42946]을 되돌려 갑니다.
- [SPARK-42205] 작업 또는 스테이지 시작 이벤트에서 Accumulables 로깅을 제거하도록 JSON 프로토콜을 업데이트했습니다.
- [SPARK-45178] 래퍼를 사용하는 대신 지원되지 않는 원본에 대해
Trigger.AvailableNow
단일 일괄 처리를 실행하도록 대체합니다. - [SPARK-45316] 새 매개 변수
ignoreCorruptFiles
를 추가합니다.ignoreMissingFiles
HadoopRDD
NewHadoopRDD
- [SPARK-44740] 아티팩트에 대한 메타데이터 값이 수정되었습니다.
- [SPARK-45360] 에서
SPARK_REMOTE
Spark 세션 작성기 구성을 초기화했습니다. - [SPARK-44551] OSS와 동기화할 주석을 편집했습니다.
- [SPARK-45346] 이제 Parquet 스키마 유추는 스키마를 병합할 때 대/소문자를 구분하는 플래그를 존중합니다.
- [SPARK-44658]
ShuffleStatus.getMapStatus
가 대신 반환None
됩니다Some(null)
. - [SPARK-44840] 음수
array_insert()
인덱스에 대해 1부터 만들었습니다.
- 2023년 9월 14일
- [SPARK-44873] Hive 클라이언트에서 중첩된 열에 대한
alter view
지원이 추가되었습니다. - [SPARK-44878] 캐시 완료에 대한 삽입 예외를 방지하기 위해 쓰기 관리자에 대한
RocksDB
엄격한 제한을 해제했습니다.
- [SPARK-44873] Hive 클라이언트에서 중첩된 열에 대한
- 2023년 8월 30일
- 더 빠른 복사를 위해 dbutils
cp
명령(dbutils.fs.cp
)이 최적화되었습니다. 이 향상된 기능을 사용하면 파일 크기에 따라 복사 작업에 최대 100시간이 걸릴 수 있습니다. 이 기능은 Unity 카탈로그 볼륨 및 DBFS 탑재를 포함하여 Databricks에서 액세스할 수 있는 모든 클라우드 및 파일 시스템에서 사용할 수 있습니다. - [SPARK-44455] 결과에 백틱이 있는
SHOW CREATE TABLE
따옴표 식별자입니다. - [SPARK-44763] 간격이 있는 이진 산술 연산에서 문자열을 double로 표시하는 문제를 해결했습니다.
- [SPARK-44871] 동작이 수정되었습니다
percentile_disc
. - [SPARK-44714] 쿼리에 대한 LCA 확인의 완화 제한.
- [SPARK-44818] 이전에
taskThread
실행된 보류 중인 작업 중단에 대한 경합이 초기화되었습니다. - [SPARK-44505] DSv2용 검색에서 열 형식 지원에 대한 재정의가 추가되었습니다.
- [SPARK-44479] 빈 구조체 형식에서 프로토부프 변환이 수정되었습니다.
- [SPARK-44718] 메모리 모드 구성 기본값을 구성 값과
OffHeapMemoryMode
일치ColumnVector
합니다. - [SPARK-42941] Python에 대한
StreamingQueryListener
지원이 추가되었습니다. - [SPARK-44558] PySpark의 Spark 커넥트 로그 수준을 내보냅니다.
- [SPARK-44464] Null이 첫 번째 열 값으로 포함된 출력 행으로 수정
applyInPandasWithStatePythonRunner
되었습니다. - [SPARK-44643] 필드가 빈 행인 경우 수정
Row.__repr__
되었습니다. - 운영 체제 보안 업데이트.
- 더 빠른 복사를 위해 dbutils
Databricks Runtime 12.2 LTS
Databricks Runtime 12.2 LTS를 참조하세요.
- 2024년 2월 13일
- [SPARK-46861] DAGScheduler에서 교착 상태를 방지합니다.
- [SPARK-46794] LogicalRDD 제약 조건에서 하위 쿼리를 제거합니다.
- 운영 체제 보안 업데이트.
- 2024년 1월 31일
- [SPARK-46763] 중복 특성에 대한 ReplaceDeduplicateWithAggregate의 어설션 오류를 수정합니다.
- 운영 체제 보안 업데이트.
- 2023년 12월 25일
- TLSv1.3을 통해 통신할 때 대기 시간이 증가하지 않도록 하기 위해 이 기본 테넌스 릴리스에는 JDK 버그 JDK-8293562를 수정하기 위한 JDK 8 설치 패치가 포함되어 있습니다.
- [SPARK-39440] 구성을 추가하여 이벤트 타임라인 사용하지 않도록 설정합니다.
- [SPARK-46132] RPC SSL에 대한 JKS 키에 대한 키 암호를 지원합니다.
- [SPARK-46394] true로 설정된 경우
spark.sql.legacy.keepCommandOutputSchema
특수 문자를 사용하여 스키마에서 spark.catalog.listDatabases() 문제를 해결합니다. - [SPARK-46417] hive.getTable을 호출하고 throwException이 false인 경우 실패하지 마세요.
- [SPARK-43067] Kafka 커넥터에서 오류 클래스 리소스 파일의 위치를 수정합니다.
- [SPARK-46249] 백그라운드 작업과의 경합을 방지하기 위해 RocksDB 메트릭을 획득하려면 인스턴스 잠금이 필요합니다.
- [SPARK-46602] 뷰/테이블이 없을 때 뷰 만들기에서 전파
allowExisting
합니다. - [SPARK-46058] privateKeyPassword에 별도의 플래그를 추가합니다.
- [SPARK-46145] spark.catalog.listTables는 테이블 또는 뷰를 찾을 수 없을 때 예외를 throw하지 않습니다.
- [SPARK-46538] 에서 모호한 열 참조 문제를 해결합니다
ALSModel.transform
. - [SPARK-42852] EquivalentExpressions에서 NamedLambdaVariable 관련 변경 내용을 되돌려 갑니다.
- 2023년 12월 14일
- JDBC 또는 ODBC 클라이언트에서 시작된 getColumns 작업의 이스케이프된 밑줄이 잘못 처리되고 야생카드 해석되는 문제를 해결했습니다.
- [SPARK-44582] SMJ가 클린 경우 반복기를 건너뜁니다.
- [SPARK-45920] 서수별 group은 idempotent여야 합니다.
- [SPARK-45655] CollectMetrics의 AggregateFunctions 내에서 비결정적 식을 허용합니다.
- 운영 체제 보안 업데이트.
- 2023년 11월 29일
- PyArrow RCE 취약성을 수정하기 위해 새 패키지를
pyarrow-hotfix
설치했습니다. - JDBC 또는 ODBC 클라이언트에서 시작된 작업에서
getColumns
이스케이프된 밑줄이 야생 카드 잘못 해석되는 문제를 해결했습니다. - [SPARK-42205] 이벤트 내 및
Task
시작 이벤트에 대한 로깅 계산이Stage
제거되었습니다. - [SPARK-44846] 뒤
RemoveRedundantAggregates
의 복합 그룹화 식이 제거되었습니다. - [SPARK-43718] 조인의
USING
키에 대한 null 허용 여부가 수정되었습니다. - [SPARK-45544] 에 대한 통합 SSL 지원
TransportContext
- [SPARK-43973] 구조화된 스트리밍 UI는 이제 실패한 쿼리를 올바르게 표시합니다.
- [SPARK-45730] 에 대한
ReloadingX509TrustManagerSuite
시간 제약 조건이 개선되었습니다. - [SPARK-45859] UDF 개체를 지연으로
ml.functions
만들었습니다. - 운영 체제 보안 업데이트.
- PyArrow RCE 취약성을 수정하기 위해 새 패키지를
- 2023년 11월 14일
- 더 나은 사용률을 달성하기 위해 속도 제한 전에 Delta Lake 스트리밍 쿼리의 파티션 필터가 푸시다운됩니다.
- [SPARK-45545]
SparkTransportConf
는 생성 시 상속됩니다SSLOptions
. - [SPARK-45427] 에 RPC SSL 설정이
SSLOptions
추가되었습니다.SparkTransportConf
- [SPARK-45584] 를 사용하여 하위 쿼리 실행 실패를
TakeOrderedAndProjectExec
수정했습니다. - [SPARK-45541] 추가되었습니다
SSLFactory
. - [SPARK-45430]
FramelessOffsetWindowFunction
는 더 이상 실패하지offset > rowCount
않습니다.IGNORE NULLS
- [SPARK-45429] SSL RPC 통신을 위한 도우미 클래스가 추가되었습니다.
- 운영 체제 보안 업데이트.
- 2023년 10월 24일
- [SPARK-45426] 에 대한
ReloadingX509TrustManager
지원이 추가되었습니다. - 기타 수정.
- [SPARK-45426] 에 대한
- 2023년 10월 13일
- Snowflake-jdbc 종속성이 3.13.29에서 3.13.33으로 업그레이드되었습니다.
- [SPARK-42553] 간격 후에 하나 이상의 시간 단위를 확인합니다.
- [SPARK-45346] Parquet 스키마 유추는 스키마를 병합할 때 대/소문자 구분 플래그를 적용합니다.
- [SPARK-45178] 래퍼를 사용하는 대신 지원되지 않는 원본에 대해
Trigger.AvailableNow
단일 일괄 처리를 실행하도록 대체합니다. - [SPARK-45084]
StateOperatorProgress
정확한 적절한 순서 섞기 파티션 번호를 사용합니다.
- 2023년 9월 12일
- [SPARK-44873] Hive 클라이언트에서 중첩된 열에 대한
alter view
지원이 추가되었습니다. - [SPARK-44718] 메모리 모드 구성 기본값을 구성 값과
OffHeapMemoryMode
일치ColumnVector
합니다. - [SPARK-43799] PySpark
Protobuf
API에 설명자 이진 옵션이 추가되었습니다. - 기타 수정.
- [SPARK-44873] Hive 클라이언트에서 중첩된 열에 대한
- 2023년 8월 30일
- [SPARK-44485] 최적화되었습니다
TreeNode.generateTreeString
. - [SPARK-44818] 이전에
taskThread
실행된 보류 중인 작업 중단에 대한 경합이 초기화되었습니다. - [11.3-13.0] [[SPARK-44871]]https://issues.apache.org/jira/browse/SPARK-44871) 동작이 수정되었습니다
percentile_disc
. - [SPARK-44714] 쿼리에 대한 LCA 확인 제한 완화.
- 운영 체제 보안 업데이트.
- [SPARK-44485] 최적화되었습니다
- 2023년 8월 15일
- [SPARK-44504] 유지 관리 작업은 중지 오류에 따라 로드된 공급자를 클린.
- [SPARK-44464] 첫 번째 열 값으로 포함된
Null
출력 행으로 수정applyInPandasWithStatePythonRunner
되었습니다. - 운영 체제 보안 업데이트.
- 2023년 7월 29일
- 다른 외부 또는 관리되는 스토리지 위치와 충돌하는 스토리지 위치 경로를 호출할 때 반환
INVALID_PARAMETER_VALUE.LOCATION_OVERLAP
되는 문제를 해결dbutils.fs.ls()
했습니다. - [SPARK-44199]
CacheManager
더 이상 불필요하게 새로 고치지fileIndex
않습니다. - 운영 체제 보안 업데이트.
- 다른 외부 또는 관리되는 스토리지 위치와 충돌하는 스토리지 위치 경로를 호출할 때 반환
- 2023년 7월 24일
- [SPARK-44337] 구문 분석 오류를 발생하도록
Any.getDefaultInstance
설정된 필드가 있는 문제를 해결했습니다. - [SPARK-44136] 에서 드라이버 대신 실행기에서 구체화되는 문제를 해결
StateManager
했습니다FlatMapGroupsWithStateExec
. - 운영 체제 보안 업데이트.
- [SPARK-44337] 구문 분석 오류를 발생하도록
- 2023년 6월 23일
- 운영 체제 보안 업데이트.
- 2023년 6월 15일
- 광화 .
approx_count_distinct
- Snowflake-jdbc 라이브러리는 보안 문제를 해결하기 위해 3.13.29로 업그레이드됩니다.
- [SPARK-43779]
ParseToDate
이제 기본 스레드에서 로드됩니다EvalMode
. - [SPARK-43156][SPARK-43098] 꺼진 확장 스칼라 하위 쿼리 수 오류 테스트
decorrelateInnerQuery
입니다. - 운영 체제 보안 업데이트.
- 광화 .
- 2023년 6월 2일
- 모드의
failOnUnknownFields
JSON 파서는 모드에서 레코드를 삭제하고 모드에서DROPMALFORMED
FAILFAST
직접 실패합니다. - Iceberg 및 Parquet을 사용하여 증분 업데이트의 성능을 향상시킵니다
SHALLOW CLONE
. - 제공된 스키마에 유추 파티션이 포함되지 않은 경우 다른 원본 파일 형식이 일치하지 않는 자동 로더의 문제가 해결되었습니다. 이 문제로 인해 유추된 파티션 스키마에 열이 없는 파일을 읽을 때 예기치 않은 오류가 발생할 수 있습니다.
- [SPARK-43404] ID 불일치 오류를 방지하려면 동일한 버전의 RocksDB 상태 저장소에 대한 sst 파일 재사용을 건너뜁니다.
- [SPARK-43413][11.3-13.0] 하위 쿼리
ListQuery
null 허용 여부가 수정IN
되었습니다. - [SPARK-43522] 배열 인덱스를 사용하여 구조체 열 이름을 만드는 문제가 수정되었습니다.
- [SPARK-43541] 식 및 누락된 열을 확인할 때 모든
Project
태그를 전파합니다. - [SPARK-43527] PySpark에서 수정
catalog.listCatalogs
되었습니다. - [SPARK-43123] 내부 필드 메타데이터는 더 이상 카탈로그로 누출되지 않습니다.
- [SPARK-43340] 이벤트 로그에서 누락된 스택 추적 필드가 수정되었습니다.
- [SPARK-42444]
DataFrame.drop
이제 중복된 열을 올바르게 처리합니다. - [SPARK-42937]
PlanSubqueries
이제 true로 설정InSubqueryExec#shouldBroadcast
됩니다. - [SPARK-43286] 임의 EV를 생성하도록 CBC 모드가 업데이트
aes_encrypt
되었습니다. - [SPARK-43378] 에서 스트림 개체를 제대로 닫습니다
deserializeFromChunkedBuffer
.
- 모드의
- 2023년 5월 17일
- Parquet 검사는 일괄 처리 크기를 동적으로 조정하여 매우 구조화된 파일을 검색할 때 OOM에 대해 강력해졌습니다. 파일 메타데이터는 일괄 처리 크기를 선제적으로 낮추기 위해 분석되며, 작업 재시도 시 최종 안전망으로 다시 낮아집니다.
- Avro 파일을 스키마 진화 모드에서
failOnNewColumns\
옵션failOnUnknownFields\
만 사용하거나 자동 로더를 사용하여 읽은 경우 데이터를 읽을 수 없다는 오류를 throw하는 대신 데이터 형식이 다른 열이 읽null\
혀집니다. 이러한 읽기는 이제 실패하고 사용자에게 옵션을 사용하도록rescuedDataColumn\
권장합니다. - 이제 자동 로더가 다음을 수행합니다.
-
- 이러한 데이터 형식 중 하나가 제공된 경우 올바르게 읽고 더 이상 구조
Integer
Short
하지 않으며Byte
형식을 지정하지만 Avro 파일은 다른 두 형식 중 하나를 제안합니다.
- 이러한 데이터 형식 중 하나가 제공된 경우 올바르게 읽고 더 이상 구조
-
- 날짜가 손상되지 않도록 날짜 또는 타임스탬프를 형식으로 읽는 간격 유형을 방지합니다.
-
- 정밀도가 낮은 읽기
Decimal
형식을 방지합니다.
- 정밀도가 낮은 읽기
- [SPARK-43172] Spark Connect 클라이언트에서 호스트 및 토큰을 노출합니다.
- [SPARK-43293]
__qualified_access_only
는 일반 열에서 무시됩니다. - [SPARK-43098] 스칼라 하위 쿼리를 절별로 그룹화
COUNT
할 때 수정 버그가 수정되었습니다. - [SPARK-43085] 여러 부분으로 구성된 테이블 이름에 대한 열
DEFAULT
할당을 지원합니다. - [SPARK-43190]
ListQuery.childOutput
는 이제 보조 출력과 일치합니다. - [SPARK-43192] 사용자 에이전트 문자 집합 유효성 검사가 제거되었습니다.
- 운영 체제 보안 업데이트.
- 2023년 4월 25일
- 스키마 진화 모드에서
failOnNewColumns
옵션 또는 자동 로더를 사용하여 Parquet 파일을 읽failOnUnknownFields
은 경우 파일을 읽을 수 없다는 오류를 throw하는 대신 데이터 형식이 다른 열을 읽null
습니다. 이러한 읽기는 이제 실패하고 사용자에게 옵션을 사용하도록rescuedDataColumn
권장합니다. - 이제 자동 로더가 올바르게 읽고 더 이상 복구
Integer
Short
하지 않으며Byte
이러한 데이터 형식 중 하나가 제공되면 형식을 지정합니다. Parquet 파일은 다른 두 형식 중 하나를 제안합니다. 이전에 구조된 데이터 열을 사용하도록 설정했을 때 데이터 형식이 일치하지 않으면 열이 읽을 수 있더라도 저장됩니다. - [SPARK-43009] 상수를 사용하여
Any
매개 변수화sql()
- [SPARK-42406] 필드를 삭제하여 Protobuf 재귀 필드 종료
- [SPARK-43038] 다음을 통해 CBC 모드를 지원합니다.
aes_encrypt()
/aes_decrypt()
- [SPARK-42971] 작업자가 이벤트를 처리
WorkDirCleanup
할 때 null인 경우appDirs
인쇄workdir
하도록 변경 - [SPARK-43018] 타임스탬프 리터럴을 사용하여 INSERT 명령에 대한 버그 수정
- 운영 체제 보안 업데이트.
- 스키마 진화 모드에서
- 2023년 4월 11일
- 명령에서 레거시 데이터 원본 형식을
SYNC
지원합니다. - 리포지토리 외부의 Notebook에서 %autoreload 동작의 문제를 해결합니다.
- 중첩된 JSON 개체의 스키마에서 새 열이 검색될 때 자동 로더 스키마 진화가 무한 장애 루프로 전환될 수 있는 문제를 해결했습니다.
- [SPARK-42928]
resolvePersistentFunction
동기화합니다. - [SPARK-42936] 자식 집계를 통해 절을 직접 해결할 수 있는 경우의 LCan 문제를 해결합니다.
- [SPARK-42967] 스테이지가
SparkListenerTaskStart.stageAttemptId
취소된 후 작업이 시작되는 시기를 수정합니다. - 운영 체제 보안 업데이트.
- 명령에서 레거시 데이터 원본 형식을
- 2023년 3월 29일
이제 Databricks SQL은 테이블 생성 시 또는 나중에 Delta Lake 테이블 열에 대한 기본값 지정을 지원합니다. 이후
INSERT
,UPDATE
및DELETE
MERGE
명령은 명시적DEFAULT
키워드(keyword) 사용하여 열의 기본값을 참조할 수 있습니다. 또한 할당에 대상 테이블보다 적은 열의 명시적 목록이 있는 경우INSERT
해당 열 기본값은 다시 기본 열(또는 기본값이 지정되지 않은 경우 NULL)으로 대체됩니다.예시:
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()) USING delta; INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; \> 0, 2023-03-28 1, 2023-03-28z
이제 자동 로더는 스트림에 대해
Trigger.AvailableNow
하나 이상의 동기 RocksDB 로그 클린up을 시작하여 검사포인트가 빠르게 실행되는 자동 로더 스트림에 대해 정기적으로 클린 가져올 수 있음을 검사. 이로 인해 일부 스트림이 종료되기까지 시간이 더 오래 걸릴 수 있지만 스토리지 비용을 절감하고 향후 실행 시 자동 로더 환경을 개선할 수 있습니다.이제 델타 테이블을 수정하여 다음을 사용하여 테이블 기능에 지원을 추가할 수 있습니다
DeltaTable.addFeatureSupport(feature_name)
.[SPARK-42794] Structure Streaming에서 RocksDB 상태 저장소를 획득하기 위해 lockAcquireTimeoutM을 2분으로 늘림
[SPARK-42521] 대상 테이블보다 적은 열의 사용자 지정 목록을 사용하여 INSERT에 대한 NULL 추가
[SPARK-42702][SPARK-42623] 하위 쿼리 및 CTE에서 매개 변수가 있는 쿼리 지원
[SPARK-42668] HDFSStateStoreProvider 중지에서 압축된 스트림을 닫는 동안 예외 catch
[SPARK-42403] JsonProtocol은 null JSON 문자열을 처리해야 합니다.
- 2023년 3월 8일
- 고객에게 더 많은 컨텍스트를 제공하기 위해 "구성을 초기화하지 못했습니다"라는 오류 메시지가 개선되었습니다.
- 테이블 속성을 사용하여 델타 테이블에 기능을 추가하기 위한 용어 변경이 있습니다. 기본 구문은 이제
'delta.feature.featureName'='supported'
'delta.feature.featureName'='enabled'
. 이전 버전과의 호환성을 위해 계속 사용'delta.feature.featureName'='enabled'
되며 계속 작동합니다. - 이 릴리스부터 기본 판독기 및 기록기 버전 및 기본적으로 지원되는 테이블 기능을 포함하는 프로토콜 관련 Spark 구성을 무시하기 위해 테이블을 추가 테이블 속성
delta.ignoreProtocolDefaults
으로 만들거나 바꿀 수 있습니다. - [SPARK-42070] Mask 함수 인수의 기본값을 -1에서 NULL로 변경합니다.
- [SPARK-41793] 중요한 10진수의 범위 절에 의해 정의된 창 프레임의 잘못된 결과
- [SPARK-42484] UnsafeRowUtils 더 나은 오류 메시지
- [SPARK-42516] 보기를 만드는 동안 항상 세션 표준 시간대 구성 캡처
- [SPARK-42635] TimestampAdd 식을 수정합니다.
- [SPARK-42622] 값에서 대체 해제
- [SPARK-42534] DB2Dialect Limit 절 수정
- [SPARK-42121] 기본 제공 테이블 반환 함수 posexplode, posexplode_outer, json_tuple 및 스택 추가
- [SPARK-42045] ANSI SQL 모드: Round/Bround에서 small/small/significant 정수 오버플로에 대한 오류를 반환해야 합니다.
- 운영 체제 보안 업데이트.
Databricks Runtime 11.3 LTS
Databricks Runtime 11.3 LTS를 참조하세요.
- 2024년 2월 13일
- [SPARK-46794] LogicalRDD 제약 조건에서 하위 쿼리를 제거합니다.
- [SPARK-46861] DAGScheduler에서 교착 상태를 방지합니다.
- 운영 체제 보안 업데이트.
- 2024년 1월 31일
- 운영 체제 보안 업데이트.
- 2023년 12월 25일
- TLSv1.3을 통해 통신할 때 대기 시간이 증가하지 않도록 하기 위해 이 기본 테넌스 릴리스에는 JDK 버그 JDK-8293562를 수정하기 위한 JDK 8 설치 패치가 포함되어 있습니다.
- [SPARK-46058] privateKeyPassword에 별도의 플래그를 추가합니다.
- [SPARK-46602] 뷰/테이블이 없을 때 뷰 만들기에서 전파
allowExisting
합니다. - [SPARK-46394] true로 설정된 경우
spark.sql.legacy.keepCommandOutputSchema
특수 문자를 사용하여 스키마에서 spark.catalog.listDatabases() 문제를 해결합니다. - [SPARK-46538] 에서 모호한 열 참조 문제를 해결합니다
ALSModel.transform
. - [SPARK-39440] 구성을 추가하여 이벤트 타임라인 사용하지 않도록 설정합니다.
- [SPARK-46249] 백그라운드 작업과의 경합을 방지하기 위해 RocksDB 메트릭을 획득하려면 인스턴스 잠금이 필요합니다.
- [SPARK-46132] RPC SSL에 대한 JKS 키에 대한 키 암호를 지원합니다.
- 2023년 12월 14일
- JDBC 또는 ODBC 클라이언트에서 시작된 getColumns 작업의 이스케이프된 밑줄이 잘못 처리되고 야생카드 해석되는 문제를 해결했습니다.
- 운영 체제 보안 업데이트.
- 2023년 11월 29일
- PyArrow RCE 취약성을 수정하기 위해 새 패키지를
pyarrow-hotfix
설치했습니다. - JDBC 또는 ODBC 클라이언트에서 시작된 작업에서
getColumns
이스케이프된 밑줄이 야생 카드 잘못 해석되는 문제를 해결했습니다. - [SPARK-43973] 구조화된 스트리밍 UI는 이제 실패한 쿼리를 올바르게 표시합니다.
- [SPARK-45730] 에 대한
ReloadingX509TrustManagerSuite
시간 제약 조건이 개선되었습니다. - [SPARK-45544] 에 대한 통합 SSL 지원
TransportContext
- [SPARK-45859] UDF 개체를 지연으로
ml.functions
만들었습니다. - [SPARK-43718] 조인의
USING
키에 대한 null 허용 여부가 수정되었습니다. - [SPARK-44846] 뒤
RemoveRedundantAggregates
의 복합 그룹화 식이 제거되었습니다. - 운영 체제 보안 업데이트.
- PyArrow RCE 취약성을 수정하기 위해 새 패키지를
- 2023년 11월 14일
- 더 나은 사용률을 달성하기 위해 속도 제한 전에 Delta Lake 스트리밍 쿼리의 파티션 필터가 푸시다운됩니다.
- [SPARK-42205] 스테이지 및 작업 시작 이벤트에서 로깅 계산이 제거되었습니다.
- [SPARK-45545]
SparkTransportConf
는 생성 시 상속됩니다SSLOptions
. - [SPARK-33861]을 되돌려 갑니다.
- [SPARK-45541] 추가되었습니다
SSLFactory
. - [SPARK-45429] SSL RPC 통신을 위한 도우미 클래스가 추가되었습니다.
- [SPARK-45584] 를 사용하여 하위 쿼리 실행 실패를
TakeOrderedAndProjectExec
수정했습니다. - [SPARK-45430]
FramelessOffsetWindowFunction
는 더 이상 실패하지offset > rowCount
않습니다.IGNORE NULLS
- [SPARK-45427] 에 RPC SSL 설정이
SSLOptions
추가되었습니다.SparkTransportConf
- 운영 체제 보안 업데이트.
- 2023년 10월 24일
- [SPARK-45426] 에 대한
ReloadingX509TrustManager
지원이 추가되었습니다. - 기타 수정.
- [SPARK-45426] 에 대한
- 2023년 10월 13일
- Snowflake-jdbc 종속성이 3.13.29에서 3.13.33으로 업그레이드되었습니다.
- [SPARK-45178] 래퍼를 사용하는 대신 지원되지 않는 원본에 대해
Trigger.AvailableNow
단일 일괄 처리를 실행하도록 대체합니다. - [SPARK-45084]
StateOperatorProgress
정확한 적절한 순서 섞기 파티션 번호를 사용합니다. - [SPARK-45346] 이제 Parquet 스키마 유추는 스키마를 병합할 때 대/소문자를 구분하는 플래그를 적용합니다.
- 운영 체제 보안 업데이트.
- 2023년 9월 10일
- 기타 수정.
- 2023년 8월 30일
- [SPARK-44818] 이전에
taskThread
실행된 보류 중인 작업 중단에 대한 경합이 초기화되었습니다. - [SPARK-44871][11.3-13.0] 동작이 수정되었습니다
percentile_disc
. - 운영 체제 보안 업데이트.
- [SPARK-44818] 이전에
- 2023년 8월 15일
- [SPARK-44485] 최적화되었습니다
TreeNode.generateTreeString
. - [SPARK-44504] 유지 관리 작업은 중지 오류에 따라 로드된 공급자를 클린.
- [SPARK-44464] 첫 번째 열 값으로 포함된
Null
출력 행으로 수정applyInPandasWithStatePythonRunner
되었습니다. - 운영 체제 보안 업데이트.
- [SPARK-44485] 최적화되었습니다
- 2023년 7월 27일
- 다른 외부 또는 관리되는 스토리지 위치와 충돌하는 스토리지 위치 경로를 호출할 때 반환
INVALID_PARAMETER_VALUE.LOCATION_OVERLAP
되는 문제를 해결dbutils.fs.ls()
했습니다. - [SPARK-44199]
CacheManager
더 이상 불필요하게 새로 고치지fileIndex
않습니다. - 운영 체제 보안 업데이트.
- 다른 외부 또는 관리되는 스토리지 위치와 충돌하는 스토리지 위치 경로를 호출할 때 반환
- 2023년 7월 24일
- [SPARK-44136] StateManager가 FlatMapGroupsWithStateExec의 드라이버 대신 실행기에서 구체화될 수 있는 문제를 해결했습니다.
- 운영 체제 보안 업데이트.
- 2023년 6월 23일
- 운영 체제 보안 업데이트.
- 2023년 6월 15일
- 광화 .
approx_count_distinct
- Snowflake-jdbc 라이브러리는 보안 문제를 해결하기 위해 3.13.29로 업그레이드됩니다.
- [SPARK-43779]
ParseToDate
이제 기본 스레드에서 로드됩니다EvalMode
. - [SPARK-40862] RewriteCorrelatedScalarSubquery에서 집계되지 않은 하위 쿼리 지원
- [SPARK-43156][SPARK-43098] 꺼진 확장 스칼라 하위 쿼리 수 버그 테스트
decorrelateInnerQuery
- [SPARK-43098] 스칼라 하위 쿼리에 group by 절이 있는 경우 정확성 COUNT 버그 수정
- 운영 체제 보안 업데이트.
- 광화 .
- 2023년 6월 2일
- 모드의
failOnUnknownFields
JSON 파서는 모드에서 레코드를 삭제하고 모드에서DROPMALFORMED
FAILFAST
직접 실패합니다. - Iceberg 및 Parquet을 사용하여 증분 업데이트의 성능을 향상시킵니다
SHALLOW CLONE
. - 제공된 스키마에 유추 파티션이 포함되지 않은 경우 다른 원본 파일 형식이 일치하지 않는 자동 로더의 문제가 해결되었습니다. 이 문제로 인해 유추된 파티션 스키마에 열이 없는 파일을 읽을 때 예기치 않은 오류가 발생할 수 있습니다.
- [SPARK-43404]ID 불일치 오류를 방지하려면 동일한 버전의 RocksDB 상태 저장소에 대한 sst 파일 재사용을 건너뜁니다.
- [SPARK-43527] PySpark에서 수정
catalog.listCatalogs
되었습니다. - [SPARK-43413][11.3-13.0] 하위 쿼리
ListQuery
null 허용 여부가 수정IN
되었습니다. - [SPARK-43340] 이벤트 로그에서 누락된 스택 추적 필드가 수정되었습니다.
- 모드의
Databricks Runtime 10.4 LTS
Databricks Runtime 10.4 LTS를 참조하세요.
- 2024년 2월 13일
- [SPARK-46861] DAGScheduler에서 교착 상태를 방지합니다.
- 운영 체제 보안 업데이트.
- 2024년 1월 31일
- 운영 체제 보안 업데이트.
- 2023년 12월 25일
- TLSv1.3을 통해 통신할 때 대기 시간이 증가하지 않도록 하기 위해 이 기본 테넌스 릴리스에는 JDK 버그 JDK-8293562를 수정하기 위한 JDK 8 설치 패치가 포함되어 있습니다.
- [SPARK-46058] privateKeyPassword에 별도의 플래그를 추가합니다.
- [SPARK-46538] 에서 모호한 열 참조 문제를 해결합니다
ALSModel.transform
. - [SPARK-39440] 구성을 추가하여 이벤트 타임라인 사용하지 않도록 설정합니다.
- [SPARK-46132] RPC SSL에 대한 JKS 키에 대한 키 암호를 지원합니다.
- 2023년 12월 14일
- 운영 체제 보안 업데이트.
- 2023년 11월 29일
- PyArrow RCE 취약성을 수정하기 위해 새 패키지를
pyarrow-hotfix
설치했습니다. - [SPARK-45544] 에 대한 통합 SSL 지원
TransportContext
- [SPARK-45859] UDF 개체를 지연으로
ml.functions
만들었습니다. - [SPARK-43718] 조인의
USING
키에 대한 null 허용 여부가 수정되었습니다. - [SPARK-45730] 에 대한
ReloadingX509TrustManagerSuite
시간 제약 조건이 개선되었습니다. - [SPARK-42205] 스테이지 및 작업 시작 이벤트에서 로깅 계산이 제거되었습니다.
- [SPARK-44846] 뒤
RemoveRedundantAggregates
의 복합 그룹화 식이 제거되었습니다. - 운영 체제 보안 업데이트.
- PyArrow RCE 취약성을 수정하기 위해 새 패키지를
- 2023년 11월 14일
- [SPARK-45541] 추가되었습니다
SSLFactory
. - [SPARK-45545]
SparkTransportConf
는 생성 시 상속됩니다SSLOptions
. - [SPARK-45427] 에 RPC SSL 설정이
SSLOptions
추가되었습니다.SparkTransportConf
- [SPARK-45429] SSL RPC 통신을 위한 도우미 클래스가 추가되었습니다.
- [SPARK-45584] 를 사용하여 하위 쿼리 실행 실패를
TakeOrderedAndProjectExec
수정했습니다. - [SPARK-33861]을 되돌려 갑니다.
- 운영 체제 보안 업데이트.
- [SPARK-45541] 추가되었습니다
- 2023년 10월 24일
- [SPARK-45426] 에 대한
ReloadingX509TrustManager
지원이 추가되었습니다. - 운영 체제 보안 업데이트.
- [SPARK-45426] 에 대한
- 2023년 10월 13일
- [SPARK-45084]
StateOperatorProgress
정확한 적절한 순서 섞기 파티션 번호를 사용합니다. - [SPARK-45178] 래퍼를 사용하는 대신 지원되지 않는 원본에 대해
Trigger.AvailableNow
단일 일괄 처리를 실행하도록 대체합니다. - 운영 체제 보안 업데이트.
- [SPARK-45084]
- 2023년 9월 10일
- 기타 수정.
- 2023년 8월 30일
- [SPARK-44818] 이전에
taskThread
실행된 보류 중인 작업 중단에 대한 경합이 초기화되었습니다. - 운영 체제 보안 업데이트.
- [SPARK-44818] 이전에
- 2023년 8월 15일
- [SPARK-44504] 유지 관리 작업은 중지 오류에 따라 로드된 공급자를 클린.
- [SPARK-43973] 이제 구조적 스트리밍 UI가 실패한 쿼리를 올바르게 표시합니다.
- 운영 체제 보안 업데이트.
- 2023년 6월 23일
- 운영 체제 보안 업데이트.
- 2023년 6월 15일
- Snowflake-jdbc 라이브러리는 보안 문제를 해결하기 위해 3.13.29로 업그레이드됩니다.
- [SPARK-43098] 스칼라 하위 쿼리에 group by 절이 있는 경우 정확성 COUNT 버그 수정
- [SPARK-40862] RewriteCorrelatedScalarSubquery에서 집계되지 않은 하위 쿼리 지원
- [SPARK-43156][SPARK-43098] 꺼진 확장 스칼라 하위 쿼리 수 테스트
decorrelateInnerQuery
입니다. - 운영 체제 보안 업데이트.
- 2023년 6월 2일
- 모드의
failOnUnknownFields
JSON 파서는 모드에서 레코드를 삭제하고 모드에서DROPMALFORMED
FAILFAST
직접 실패합니다. - JSON에서 데이터를 구문 분석하여 방지
UnknownFieldException
할 수 있는 문제를 해결했습니다. - 제공된 스키마에 유추 파티션이 포함되지 않은 경우 다른 원본 파일 형식이 일치하지 않는 자동 로더의 문제가 해결되었습니다. 이 문제로 인해 유추된 파티션 스키마에 열이 없는 파일을 읽을 때 예기치 않은 오류가 발생할 수 있습니다.
- [SPARK-43404] ID 불일치 오류를 방지하려면 동일한 버전의 RocksDB 상태 저장소에 대한 sst 파일 재사용을 건너뜁니다.
- [SPARK-43413] 하위 쿼리
ListQuery
null 허용 여부가 수정되었습니다IN
. - 운영 체제 보안 업데이트.
- 모드의
- 2023년 5월 17일
- Parquet 검사는 일괄 처리 크기를 동적으로 조정하여 매우 구조화된 파일을 검색할 때 OOM에 대해 강력해졌습니다. 파일 메타데이터는 일괄 처리 크기를 선제적으로 낮추기 위해 분석되며, 작업 재시도 시 최종 안전망으로 다시 낮아집니다.
- [SPARK-41520] 분할
AND_OR
트리 패턴을 구분AND
하고OR
. - [SPARK-43190]
ListQuery.childOutput
는 이제 보조 출력과 일치합니다. - 운영 체제 보안 업데이트.
- 2023년 4월 25일
- [SPARK-42928]
resolvePersistentFunction
동기화합니다. - 운영 체제 보안 업데이트.
- [SPARK-42928]
- 2023년 4월 11일
- 중첩된 JSON 개체의 스키마에서 새 열이 검색될 때 자동 로더 스키마 진화가 무한 장애 루프로 전환될 수 있는 문제를 해결했습니다.
- [SPARK-42937]
PlanSubqueries
이제 true로 설정InSubqueryExec#shouldBroadcast
됩니다. - [SPARK-42967] 스테이지가 취소된 후 작업이 시작될 때 SparkListenerTaskStart.stageAttemptId를 수정합니다.
- 2023년 3월 29일
- [SPARK-42668] HDFSStateStoreProvider 중지에서 압축된 스트림을 닫는 동안 예외 catch
- [SPARK-42635] 를 수정합니다.
- 운영 체제 보안 업데이트.
- 2023년 3월 14일
- [SPARK-41162] 집계를 사용하여 자체 조인에 대한 안티 및 세미 조인 수정
- [SPARK-33206] 작은 인덱스 파일에 대한 순서 섞기 인덱스 캐시 가중치 계산 수정
- [SPARK-42484]
UnsafeRowUtils
오류 메시지 개선 - 기타 수정.
- 2023년 2월 28일
- yyyy-MM-dd date_format 대해 생성된 열을 지원합니다. 이 변경은 생성된 열의 date_format yyyy-MM-dd에 대한 파티션 정리를 지원합니다.
- 이제 사용자는 Databricks Runtime 9.1 LTS 이상을 사용하여 판독기 버전 3 및 기록기 버전 7이 필요한 특정 델타 테이블을 읽고 쓸 수 있습니다. 성공하려면 테이블 프로토콜에 나열된 테이블 기능이 현재 버전의 Databricks 런타임에서 지원되어야 합니다.
- yyyy-MM-dd date_format 대해 생성된 열을 지원합니다. 이 변경은 생성된 열의 date_format yyyy-MM-dd에 대한 파티션 정리를 지원합니다.
- 운영 체제 보안 업데이트.
- 2023년 2월 16일
- [SPARK-30220] 필터 노드 외부의 Exists/In 하위 쿼리 사용 설정
- 운영 체제 보안 업데이트.
- 2023년 1월 31일
- JDBC 테이블의 테이블 형식은 이제 기본적으로 EXTERNAL입니다.
- 2023년 1월 18일
- 열 이름에 공백 또는 세미콜론과 같은 유효하지 않은 문자가 포함된 경우 Azure Synapse 커넥터는 보다 설명적인 오류 메시지를 반환합니다. 이 경우 다음 메시지가 반환
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
됩니다. - [SPARK-38277] RocksDB 상태 저장소 커밋 후 쓰기 일괄 처리 지우기
- [SPARK-41199] DSv1 스트리밍 원본 및 DSv2 스트리밍 원본이 공동 사용되는 경우 메트릭 문제 해결
- [SPARK-41198] CTE 및 DSv1 스트리밍 원본이 있는 스트리밍 쿼리의 메트릭을 수정합니다.
- [SPARK-41339] 단순히 지우는 대신 RocksDB 쓰기 일괄 처리를 닫고 다시 만듭니다.
- [SPARK-41732] SessionWindowing 규칙에 트리 패턴 기반 정리를 적용합니다.
- 운영 체제 보안 업데이트.
- 열 이름에 공백 또는 세미콜론과 같은 유효하지 않은 문자가 포함된 경우 Azure Synapse 커넥터는 보다 설명적인 오류 메시지를 반환합니다. 이 경우 다음 메시지가 반환
- 2022년 11월 29일
- 사용자는 Redshift 커넥터를 사용하여 데이터를 작성할 때 선행 및 후행 공백의 동작을 구성할 수 있습니다. 공백 처리를 제어하기 위해 다음 옵션이 추가되었습니다.
csvignoreleadingwhitespace
로 설정true
하면 쓰기 중 값에서 선행 공백을tempformat
CSV
제거합니다CSV GZIP
. 구성을false
로 설정하면 공백이 유지됩니다. 기본적으로 값은true
입니다.csvignoretrailingwhitespace
로 설정true
하면 쓰기tempformat
CSV
중 값에서 후행 공백을 제거합니다CSV GZIP
. 구성을false
로 설정하면 공백이 유지됩니다. 기본적으로 값은true
입니다.
- 모든 열이 문자열
cloudFiles.inferColumnTypes
(설정 또는 설정false
되지 않음)으로 남아 있고 JSON에 중첩된 개체가 포함된 경우 자동 로더에서 JSON 구문 분석과 관련된 문제가 해결되었습니다. - 운영 체제 보안 업데이트.
- 사용자는 Redshift 커넥터를 사용하여 데이터를 작성할 때 선행 및 후행 공백의 동작을 구성할 수 있습니다. 공백 처리를 제어하기 위해 다음 옵션이 추가되었습니다.
- 2022년 11월 15일
- Apache commons-text를 1.10.0으로 업그레이드했습니다.
- [SPARK-40646] 구조체, 맵 및 배열에 대한 JSON 구문 분석이 수정되었으므로 레코드의 일부가 스키마와 일치하지 않는 경우 null을 반환하는 대신 나머지 레코드를 올바르게 구문 분석할 수 있습니다. 향상된 동작을 옵트인하려면 .로 설정합니다
spark.sql.json.enablePartialResults
true
. 플래그는 원래 동작을 유지하기 위해 기본적으로 꺼져 있습니다. - [SPARK-40292] 중첩된 구조체에서
arrays_zip
배열을 참조할 때 함수의 열 이름 수정 - 운영 체제 보안 업데이트.
- 2022년 11월 1일
- Delta 테이블에 이름이 사용자
_change_type
정의 열이 있지만 해당 테이블에서 변경 데이터 피드 가 꺼져 있는 경우 실행 시MERGE
해당 열의 데이터가 NULL 값으로 잘못 채워지는 문제를 해결했습니다. allowOverwrites
가 사용하도록 설정된 경우 동일한 마이크로 일괄 처리에서 파일을 복제할 수 있는 자동 로더 문제를 해결했습니다.- [SPARK-40697] 외부 데이터 파일을 포함하도록 읽기 쪽 문자 패딩 추가
- [SPARK-40596] ExecutorDecommissionInfo의 메시지로 ExecutorDecommission 채우기
- 운영 체제 보안 업데이트.
- Delta 테이블에 이름이 사용자
- 2022년 10월 18일
- 운영 체제 보안 업데이트.
- 2022년 10월 5일
- [SPARK-40468] 선택한 경우
_corrupt_record
CSV에서 열 정리를 수정합니다. - 운영 체제 보안 업데이트.
- [SPARK-40468] 선택한 경우
- 2022년 9월 22일
- 사용자는 spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
,true
)를 설정하여 ADLS Gen2에서 자동 로더에 대한 기본 제공 목록을 다시 사용하도록 설정할 수 있습니다. 이전에는 성능 문제로 인해 기본 제공 목록이 꺼졌지만 고객의 스토리지 비용이 증가할 수 있습니다. - [SPARK-40315] ArrayBasedMapData의 리터럴에 대해 hashCode() 추가
- [SPARK-40213] 라틴 문자 1자에 대한 ASCII 값 변환 지원
- [SPARK-40380] 계획에 직렬화할 수 없는 리터럴이 포함되지 않도록 InvokeLike의 상수 폴딩 수정
- [SPARK-38404] 중첩된 CTE가 외부 CTE를 참조할 때 CTE 해상도 향상
- [SPARK-40089] 일부 10진수 형식에 대한 정렬 수정
- [SPARK-39887] RemoveRedundantAliases는 프로젝션 노드의 출력을 고유하게 만드는 별칭을 유지해야 합니다.
- 사용자는 spark.conf.set(
- 2022년 9월 6일
- [SPARK-40235] Executor.updateDependencies()에서 동기화되는 대신 인터럽트 가능한 잠금을 사용합니다.
- [SPARK-40218] GROUPING SETS는 그룹화 열을 유지해야 합니다.
- [SPARK-39976] ArrayIntersect는 왼쪽 식에서 null을 올바르게 처리해야 합니다.
- [SPARK-40053] Python 런타임 환경이 필요한 동적 취소 사례에 추가
assume
합니다. - [SPARK-35542] 수정: 매개 변수 splitsArray, inputCols 및 outputCols를 저장한 후에는 여러 열에 대해 만든 버킷타이저를 로드할 수 없습니다.
- [SPARK-40079] 빈 입력 사례에 대한 Imputer inputCols 유효성 검사를 추가합니다.
- 2022년 8월 24일
- [SPARK-39983] 드라이버에서 비직렬화된 브로드캐스트 관계를 캐시하지 마세요.
- [SPARK-39775] Avro 스키마를 구문 분석할 때 기본값의 유효성 검사를 사용하지 않도록 설정합니다.
- [SPARK-39962] 그룹 특성이 비어 있는 경우 프로젝션 적용
- [SPARK-37643] charVarcharAsString이 true이면 char datatype 조건자 쿼리의 경우 rpadding 규칙을 건너뛰어야 합니다.
- 운영 체제 보안 업데이트.
- 2022년 8월 9일
- [SPARK-39847] 호출자 스레드가 중단된 경우 RocksDBLoader.loadLibrary()의 경합 상태 수정
- [SPARK-39731] "yyyyMMdd" 형식의 날짜를 CORRECTED 시간 파서 정책을 사용하여 구문 분석할 때 CSV 및 JSON 데이터 원본의 문제 해결
- 운영 체제 보안 업데이트.
- 2022년 7월 27일
- [SPARK-39625] Dataset.as(StructType)를 추가합니다.
- [SPARK-39689]CSV 데이터 원본에서 2차원
lineSep
을 지원합니다. - [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded는 스레드로부터 안전해야 합니다.
- [SPARK-39570] 인라인 테이블은 별칭이 있는 식을 허용해야 합니다.
- [SPARK-39702] 공유 byteRawChannel을 사용하여 TransportCipher$EncryptedMessage의 메모리 오버헤드를 줄입니다.
- [SPARK-39575] AvroDeserializer에서 ByteBuffer#get 후에 ByteBuffer#rewind를 추가합니다.
- [SPARK-39476] Long에서 Float/Double으로 또는 정수에서 Float로 캐스팅할 때 래프 해제 캐스트 최적화를 사용하지 않도록 설정합니다.
- [SPARK-38868] 외부 조인을 최적화할 때 필터 조건자의 예외를 전파하지 마세요.
- 운영 체제 보안 업데이트.
- 2022년 7월 20일
- 원본이 비결정적일 때 델타 MERGE 작업 결과를 일관성 있게 만듭니다.
- [SPARK-39355] 단일 열은 quoted를 사용하여 UnresolvedAttribute를 생성합니다.
- [SPARK-39548] 창 절 쿼리가 있는 CreateView 명령에서 잘못된 창 정의를 찾을 수 없는 문제를 누릅니다.
- [SPARK-39419] 비교자가 null을 반환할 때 예외를 throw하도록 ArraySort를 수정합니다.
- Azure에서 디렉터리 목록에 대한 기본 제공 클라우드 API의 자동 로더 사용을 해제했습니다.
- 운영 체제 보안 업데이트.
- 2022년 7월 5일
- [SPARK-39376] NATURAL/USING JOIN에서 하위 쿼리 별칭의 별 확장에서 중복 열 숨기기
- 운영 체제 보안 업데이트.
- 2022년 6월 15일
- [SPARK-39283] TaskMemoryManager와 UnsafeExternalSorter.SpillableIterator 간의 교착 상태를 수정합니다.
- [SPARK-39285] Spark는 파일을 읽을 때 필드 이름을 검사 안 됩니다.
- [SPARK-34096] 오프셋 창에서 null을 무시하지 nth_value 성능을 향상시킵니다.
- [SPARK-36718] CollapseProject에서
isExtractOnly
검사 수정합니다.
- 2022년 6월 2일
- [SPARK-39093] 연도/월 간격 또는 일별 간격을 정수로 나눌 때 codegen 컴파일 오류를 방지합니다.
- [SPARK-38990] date_trunc/trunc 형식을 바인딩된 참조로 평가할 때 NullPointerException을 방지합니다.
- 운영 체제 보안 업데이트.
- 2022년 5월 18일
- 자동 로더에서 잠재적인 기본 제공 메모리 누수 문제를 해결합니다.
- [SPARK-38918] 중첩 열 정리는 현재 관계로 속하지 않는 특성을 필터링해야 합니다.
- [SPARK-37593] G1GC 및 ON_HEAP 사용되는 경우 기본 페이지 크기를 LONG_ARRAY_OFFSET 줄입니다.
- [SPARK-39084] TaskContext를 사용하여 작업 완료 시 반복기를 중지하여 df.rdd.isEmpty()를 수정합니다.
- [SPARK-32268] injectBloomFilter에 ColumnPruning을 추가합니다.
- [SPARK-38974] 목록 함수에서 지정된 데이터베이스 이름을 사용하여 등록된 함수를 필터링합니다.
- [SPARK-38931] 첫 번째 검사point에서 알 수 없는 수의 키를 사용하여 RocksDBFileManager에 대한 루트 dfs 디렉터리를 만듭니다.
- 운영 체제 보안 업데이트.
- 2022년 4월 19일
- Java AWS SDK를 버전 1.11.655에서 1.12.1899로 업그레이드했습니다.
- 일괄 스트리밍 작업에서 Notebook 범위 라이브러리가 작동하지 않는 문제를 해결했습니다.
- [SPARK-38616] Catalyst TreeNode에서 SQL 쿼리 텍스트 추적
- 운영 체제 보안 업데이트.
- 2022년 4월 6일
- 이제 이 릴리스에서 다음 Spark SQL 함수를 사용할 수 있습니다.
timestampadd()
및dateadd()
: 지정된 단위의 시간 기간을 타임스탬프를 식에 추가합니다.timestampdiff()
및datediff()
: 지정된 단위에서 두 개의 타임스탬프를 사용하는 식 간의 시간 차이를 계산합니다.
- Parquet-MR이 1.12.2로 업그레이드되었습니다.
- parquet 파일의 포괄적인 스키마에 대한 지원 향상
- [SPARK-38631] Utils.unpack에서 타링 해제를 위해 Java 기반 구현을 사용합니다.
- [SPARK-38509][SPARK-38481] 체리 픽 세
timestmapadd/diff
가지 변경 내용. - [SPARK-38523] CSV에서 손상된 레코드 열을 참조하는 문제를 해결합니다.
- [SPARK-38237]
ClusteredDistribution
전체 클러스터링 키를 요구할 수 있습니다. - [SPARK-38437] 데이터 원본에서 datetime을 관대하게 serialization합니다.
- [SPARK-38180] 상관 관계가 있는 같음 조건자에서 안전한 업캐스트 식을 허용합니다.
- [SPARK-38155] 지원되지 않는 조건자를 사용하여 횡적 하위 쿼리에서 고유 집계를 허용하지 않습니다.
- 운영 체제 보안 업데이트.
- 이제 이 릴리스에서 다음 Spark SQL 함수를 사용할 수 있습니다.
Databricks Runtime 9.1 LTS
Databricks Runtime 9.1 LTS를 참조하세요.
- 2024년 2월 13일
- [SPARK-46861] DAGScheduler에서 교착 상태를 방지합니다.
- 운영 체제 보안 업데이트.
- 2024년 1월 31일
- 운영 체제 보안 업데이트.
- 2023년 12월 25일
- TLSv1.3을 통해 통신할 때 대기 시간이 증가하지 않도록 하기 위해 이 기본 테넌스 릴리스에는 JDK 버그 JDK-8293562를 수정하기 위한 JDK 8 설치 패치가 포함되어 있습니다.
- [SPARK-46058] privateKeyPassword에 별도의 플래그를 추가합니다.
- [SPARK-39440] 구성을 추가하여 이벤트 타임라인 사용하지 않도록 설정합니다.
- [SPARK-46132] RPC SSL에 대한 JKS 키에 대한 키 암호를 지원합니다.
- 2023년 12월 14일
- 운영 체제 보안 업데이트.
- 2023년 11월 29일
- PyArrow RCE 취약성을 수정하기 위해 새 패키지를
pyarrow-hotfix
설치했습니다. - [SPARK-45859] UDF 개체를 지연으로
ml.functions
만들었습니다. - [SPARK-45544] 에 대한 통합 SSL 지원
TransportContext
- [SPARK-45730] 에 대한
ReloadingX509TrustManagerSuite
시간 제약 조건이 개선되었습니다. - 운영 체제 보안 업데이트.
- PyArrow RCE 취약성을 수정하기 위해 새 패키지를
- 2023년 11월 14일
- [SPARK-45545]
SparkTransportConf
는 생성 시 상속됩니다SSLOptions
. - [SPARK-45429] SSL RPC 통신을 위한 도우미 클래스가 추가되었습니다.
- [SPARK-45427] 에 RPC SSL 설정이
SSLOptions
추가되었습니다.SparkTransportConf
- [SPARK-45584] 를 사용하여 하위 쿼리 실행 실패를
TakeOrderedAndProjectExec
수정했습니다. - [SPARK-45541] 추가되었습니다
SSLFactory
. - [SPARK-42205] 스테이지 및 작업 시작 이벤트에서 로깅 계산이 제거되었습니다.
- 운영 체제 보안 업데이트.
- [SPARK-45545]
- 2023년 10월 24일
- [SPARK-45426] 에 대한
ReloadingX509TrustManager
지원이 추가되었습니다. - 운영 체제 보안 업데이트.
- [SPARK-45426] 에 대한
- 2023년 10월 13일
- 운영 체제 보안 업데이트.
- 2023년 9월 10일
- 기타 수정.
- 2023년 8월 30일
- 운영 체제 보안 업데이트.
- 2023년 8월 15일
- 운영 체제 보안 업데이트.
- 2023년 6월 23일
- Snowflake-jdbc 라이브러리는 보안 문제를 해결하기 위해 3.13.29로 업그레이드됩니다.
- 운영 체제 보안 업데이트.
- 2023년 6월 15일
- [SPARK-43098] 스칼라 하위 쿼리에 group by 절이 있는 경우 정확성 COUNT 버그를 수정합니다.
- [SPARK-43156][SPARK-43098] 꺼진 스칼라 하위 쿼리 수 버그 테스트를
decorrelateInnerQuery
확장합니다. - [SPARK-40862] RewriteCorrelatedScalarSubquery에서 집계되지 않은 하위 쿼리를 지원합니다.
- 운영 체제 보안 업데이트.
- 2023년 6월 2일
- 모드의
failOnUnknownFields
JSON 파서는 모드에서 레코드를 삭제하고 모드에서DROPMALFORMED
FAILFAST
직접 실패합니다. - JSON에서 데이터를 구문 분석하여 방지
UnknownFieldException
할 수 있는 문제를 해결했습니다. - 제공된 스키마에 유추 파티션이 포함되지 않은 경우 다른 원본 파일 형식이 일치하지 않는 자동 로더의 문제가 해결되었습니다. 이 문제로 인해 유추된 파티션 스키마에 열이 없는 파일을 읽을 때 예기치 않은 오류가 발생할 수 있습니다.
- [SPARK-37520]
startswith()
및endswith()
문자열 함수 추가 - [SPARK-43413] 하위 쿼리
ListQuery
null 허용 여부가 수정되었습니다IN
. - 운영 체제 보안 업데이트.
- 모드의
- 2023년 5월 17일
- 운영 체제 보안 업데이트.
- 2023년 4월 25일
- 운영 체제 보안 업데이트.
- 2023년 4월 11일
- 중첩된 JSON 개체의 스키마에서 새 열이 검색될 때 자동 로더 스키마 진화가 무한 장애 루프로 전환될 수 있는 문제를 해결했습니다.
- [SPARK-42967] 스테이지가 취소된 후 작업이 시작될 때 SparkListenerTaskStart.stageAttemptId를 수정합니다.
- 2023년 3월 29일
- 운영 체제 보안 업데이트.
- 2023년 3월 14일
- [SPARK-42484] 에 대한
UnsafeRowUtils
오류 메시지가 개선되었습니다. - 기타 수정.
- [SPARK-42484] 에 대한
- 2023년 2월 28일
- 이제 사용자는 Databricks Runtime 9.1 LTS 이상을 사용하여 판독기 버전 3 및 기록기 버전 7이 필요한 특정 델타 테이블을 읽고 쓸 수 있습니다. 성공하려면 테이블 프로토콜에 나열된 테이블 기능이 현재 버전의 Databricks 런타임에서 지원되어야 합니다.
- 운영 체제 보안 업데이트.
- 2023년 2월 16일
- 운영 체제 보안 업데이트.
- 2023년 1월 31일
- JDBC 테이블의 테이블 형식은 이제 기본적으로 EXTERNAL입니다.
- 2023년 1월 18일
- 운영 체제 보안 업데이트.
- 2022년 11월 29일
- 모든 열이 문자열
cloudFiles.inferColumnTypes
(설정 또는 설정false
되지 않음)으로 남아 있고 JSON에 중첩된 개체가 포함된 경우 자동 로더에서 JSON 구문 분석과 관련된 문제가 해결되었습니다. - 운영 체제 보안 업데이트.
- 모든 열이 문자열
- 2022년 11월 15일
- Apache commons-text를 1.10.0으로 업그레이드했습니다.
- 운영 체제 보안 업데이트.
- 기타 수정.
- 2022년 11월 1일
- Delta 테이블에 이름이 사용자
_change_type
정의 열이 있지만 해당 테이블에서 변경 데이터 피드 가 꺼져 있는 경우 실행 시MERGE
해당 열의 데이터가 NULL 값으로 잘못 채워지는 문제를 해결했습니다. allowOverwrites
가 사용하도록 설정된 경우 동일한 마이크로 일괄 처리에서 파일을 복제할 수 있는 자동 로더 문제를 해결했습니다.- [SPARK-40596] ExecutorDecommissionInfo의 메시지로 ExecutorDecommission 채우기
- 운영 체제 보안 업데이트.
- Delta 테이블에 이름이 사용자
- 2022년 10월 18일
- 운영 체제 보안 업데이트.
- 2022년 10월 5일
- 기타 수정.
- 운영 체제 보안 업데이트.
- 2022년 9월 22일
- 사용자는 spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true")을 설정하여 ADLS Gen2에서 자동 로더에 대한 기본 제공 목록을 다시 사용하도록 설정할 수 있습니다. 이전에는 성능 문제로 인해 기본 제공 목록이 꺼졌지만 고객의 스토리지 비용이 증가할 수 있습니다.
- [SPARK-40315] ArrayBasedMapData의 리터럴에 대해 hashCode() 추가
- [SPARK-40089] 일부 10진수 형식에 대한 정렬 수정
- [SPARK-39887] RemoveRedundantAliases는 프로젝션 노드의 출력을 고유하게 만드는 별칭을 유지해야 합니다.
- 2022년 9월 6일
- [SPARK-40235] Executor.updateDependencies()에서 동기화되는 대신 인터럽트 가능한 잠금 사용
- [SPARK-35542] 수정: 매개 변수 splitsArray, inputCols 및 outputCols를 저장한 후에는 여러 열에 대해 만든 버킷타이저를 로드할 수 없습니다.
- [SPARK-40079] 빈 입력 사례에 대한 Imputer inputCols 유효성 검사 추가
- 2022년 8월 24일
- [SPARK-39666] ExpressionEncoder에서 UnsafeProjection.create를 사용하여 존중
spark.sql.codegen.factoryMode
- [SPARK-39962] 그룹 특성이 비어 있는 경우 프로젝션 적용
- 운영 체제 보안 업데이트.
- [SPARK-39666] ExpressionEncoder에서 UnsafeProjection.create를 사용하여 존중
- 2022년 8월 9일
- 운영 체제 보안 업데이트.
- 2022년 7월 27일
- 원본이 비결정적일 때 델타 MERGE 작업 결과를 일관성 있게 만듭니다.
- [SPARK-39689] CSV 데이터 원본에서 2자
lineSep
지원 - [SPARK-39575] 에 추가
ByteBuffer#rewind
된AvroDeserializer
후ByteBuffer#get
- [SPARK-37392] 촉매 최적화 프로그램의 성능 오류를 수정했습니다.
- 운영 체제 보안 업데이트.
- 2022년 7월 13일
- [SPARK-39419]
ArraySort
는 비교자가 null을 반환할 때 예외를 throw합니다. - Azure에서 디렉터리 목록에 대한 기본 제공 클라우드 API의 자동 로더 사용을 해제했습니다.
- 운영 체제 보안 업데이트.
- [SPARK-39419]
- 2022년 7월 5일
- 운영 체제 보안 업데이트.
- 기타 수정.
- 2022년 6월 15일
- [SPARK-39283] 와 . 사이의
TaskMemoryManager
UnsafeExternalSorter.SpillableIterator
교착 상태 수정
- [SPARK-39283] 와 . 사이의
- 2022년 6월 2일
- [SPARK-34554] 에서 메서드를
copy()
구현합니다ColumnarMap
. - 운영 체제 보안 업데이트.
- [SPARK-34554] 에서 메서드를
- 2022년 5월 18일
- 자동 로더에서 잠재적인 기본 제공 메모리 누수 수정
- AWS SDK 버전을 1.11.655에서 1.11.678로 업그레이드합니다.
- [SPARK-38918] 중첩 열 정리는 현재 관계로 속하지 않는 특성을 필터링해야 합니다.
- [SPARK-39084] 작업 완료 시 반복기를 중지하는 방법을 사용하여
TaskContext
수정df.rdd.isEmpty()
- 운영 체제 보안 업데이트.
- 2022년 4월 19일
- 운영 체제 보안 업데이트.
- 기타 수정.
- 2022년 4월 6일
- [SPARK-38631] Utils.unpack에서 타링 해제를 위해 Java 기반 구현을 사용합니다.
- 운영 체제 보안 업데이트.
- 2022년 3월 22일
- 테이블 액세스 제어 또는 자격 증명 통과를 사용하도록 설정한 높은 동시성 클러스터에서 Notebook의 현재 작업 디렉터리는 이제 사용자의 홈 디렉터리입니다. 이전에는 Active Directory가 .였습니다
/databricks/driver
. - [SPARK-38437] 데이터 원본에서 datetime의 관대한 직렬화
- [SPARK-38180] 상관 관계가 있는 같음 조건자에서 안전한 업캐스트 식 허용
- [SPARK-38155] 지원되지 않는 조건자를 사용하여 횡적 하위 쿼리에서 고유 집계 허용 안 함
- [SPARK-27442] parquet에서 데이터를 읽거나 쓸 때 검사 필드가 제거되었습니다.
- 테이블 액세스 제어 또는 자격 증명 통과를 사용하도록 설정한 높은 동시성 클러스터에서 Notebook의 현재 작업 디렉터리는 이제 사용자의 홈 디렉터리입니다. 이전에는 Active Directory가 .였습니다
- 2022년 3월 14일
- [SPARK-38236] create/alter 테이블에 지정된 절대 파일 경로는 상대 파일 경로로 처리됩니다.
- [SPARK-34069] 로컬 속성
SPARK_JOB_INTERRUPT_ON_CANCEL
이 true로 설정된 경우 작업 스레드를 중단합니다.
- 2022년 2월 23일
- [SPARK-37859] Spark 3.1을 사용하여 JDBC로 만든 SQL 테이블은 Spark 3.2에서 읽을 수 없습니다.
- 2022년 2월 8일
- [SPARK-27442] parquet에서 데이터를 읽거나 쓸 때 검사 필드가 제거되었습니다.
- 운영 체제 보안 업데이트.
- 2022년 2월 1일
- 운영 체제 보안 업데이트.
- 2022년 1월 26일
- 델타 테이블의 동시 트랜잭션이 특정 드문 조건에서 직렬화할 수 없는 순서로 커밋될 수 있는 문제를 해결했습니다.
- ANSI SQL 방언을
OPTIMIZE
사용할 때 명령이 실패할 수 있는 문제를 해결했습니다.
- 2022년 1월 19일
- 사소한 수정 및 보안 향상.
- 운영 체제 보안 업데이트.
- 2021년 11월 4일
- 구조적 스트리밍 스트림이 실패할 수 있는 문제를 해결했습니다
ArrayIndexOutOfBoundsException
. java.io.IOException: No FileSystem for scheme
과 같은 IOException으로 쿼리 실패를 일으키거나sparkContext.hadoopConfiguration
에 대한 수정 사항이 쿼리에 적용되지 않을 수 있는 경합 상태가 수정되었습니다.- Delta 공유용 Apache Spark 커넥터가 0.2.0으로 업그레이드되었습니다.
- 구조적 스트리밍 스트림이 실패할 수 있는 문제를 해결했습니다
- 2021년 10월 20일
- BigQuery 커넥터가 0.18.1에서 0.22.2로 업그레이드되었습니다. 이렇게 하면 BigNumeric 형식에 대한 지원이 추가되었습니다.