Apache Hive の互換性

適用対象: check marked yes Databricks Runtime

Azure Databricks の Apache Spark SQL は、メタストア接続性、SerDes、UDF など、Apache Hive と互換性を持つように設計されています。

SerDes と UDF

Hive SerDes と UDF は、Hive 1.2.1 に基づきます。

Azure Databricks を外部的にホストされた Hive メタストアに接続する方法については、外部 Apache Hive メタストア (レガシ) に関するページを参照してください。

Spark SQL は、次のような Hive 機能の大部分をサポートしています。

次のセクションには、Spark SQL でサポートされていない Hive の機能の一覧が含まれます。これらの機能の大部分は、Hive デプロイではほとんど使用されません。

共用体型
一意の結合
列統計の収集: Spark SQL では、現時点では列統計を収集するピギーバック方式のスキャンは実行されません。Hive メタストアの sizeInBytes フィールドの読み込みのみをサポートします

Spark には、一部の Hive 最適化は含まれていません。これらの一部 (インデックスなど) は、Spark SQL がメモリ内計算モデルであるため、それほど重要ではありません。

ブロックレベルのビットマップインデックスと仮想列 (インデックスの作成に使用されます)。
結合と groupbys の Reducer の数を自動的に決定する: Spark SQL では、SET spark.sql.shuffle.partitions=[num_tasks]; を使用して、シャッフル後の並列処理の次数を制御する必要があります。
傾斜データフラグ: Spark SQL は Hive の傾斜データフラグに従いません。
結合内の STREAMTABLE ヒント: Spark SQL は STREAMTABLE ヒントに従いません。
クエリ結果に対して複数の小さなファイルをマージする: 結果出力に複数の小さなファイルが含まれている場合、Hive では、必要に応じて HDFS メタデータのオーバーフローを回避するために、小さいファイルを少数の大きなファイルにマージできます。 Spark SQL ではサポートされません。