Delta Lake で生成された列

[アーティクル]
04/18/2024

重要

Delta Lake では、生成された列がサポートされています。これは、Delta テーブル内の他の列に対するユーザー指定の関数に基づいて値が自動的に生成される、特殊なタイプの列です。生成された列を含むテーブルに書き込み、その値を明示的に指定していない場合、Delta Lake が自動的に値を計算します。たとえば、テーブルを日付でパーティション分割するために、タイムスタンプ列から日付列を自動的に生成できます。テーブルへ書き込みするとき必要なのは、タイムスタンプ列のデータを指定するだけです。ただし、明示的にそれらの値を指定する場合、値は制約(<value> <=> <generation expression>) IS TRUE を満たさなければならず、そうでなければ書き込みは失敗して、エラーになります。

重要

生成された列を使用して作成されたテーブルでは、テーブルライタープロトコルのバージョンは既定より上位になります。テーブルプロトコルのバージョン管理と、テーブルプロトコルのバージョンを上位のバージョンにする意味については、「Azure Databricks で Delta Lake 機能の互換性を管理する方法」を参照してください。

生成された列を含むテーブルを作成する

次の例では、列が生成されたテーブルの作成方法を示しています。

SQL

CREATE TABLE default.people10m (
  id INT,
  firstName STRING,
  middleName STRING,
  lastName STRING,
  gender STRING,
  birthDate TIMESTAMP,
  dateOfBirth DATE GENERATED ALWAYS AS (CAST(birthDate AS DATE)),
  ssn STRING,
  salary INT
)

Python

DeltaTable.create(spark) \
  .tableName("default.people10m") \
  .addColumn("id", "INT") \
  .addColumn("firstName", "STRING") \
  .addColumn("middleName", "STRING") \
  .addColumn("lastName", "STRING", comment = "surname") \
  .addColumn("gender", "STRING") \
  .addColumn("birthDate", "TIMESTAMP") \
  .addColumn("dateOfBirth", DateType(), generatedAlwaysAs="CAST(birthDate AS DATE)") \
  .addColumn("ssn", "STRING") \
  .addColumn("salary", "INT") \
  .execute()

Scala

DeltaTable.create(spark)
  .tableName("default.people10m")
  .addColumn("id", "INT")
  .addColumn("firstName", "STRING")
  .addColumn("middleName", "STRING")
  .addColumn(
    DeltaTable.columnBuilder("lastName")
      .dataType("STRING")
      .comment("surname")
      .build())
  .addColumn("lastName", "STRING", comment = "surname")
  .addColumn("gender", "STRING")
  .addColumn("birthDate", "TIMESTAMP")
  .addColumn(
    DeltaTable.columnBuilder("dateOfBirth")
     .dataType(DateType)
     .generatedAlwaysAs("CAST(dateOfBirth AS DATE)")
     .build())
  .addColumn("ssn", "STRING")
  .addColumn("salary", "INT")
  .execute()

生成された列は、通常の列と同じように格納されます。つまり、ストレージを占有します。

生成される列には、次の制限が適用されます。

生成式が使用できる Spark のあらゆる SQL 関数が、同じ引数値が指定された時、常に同じ結果を返します。ただし、次の種類の関数は除きます。
- ユーザー定義関数。
- 集計関数。
- ウィンドウ関数。
- 複数の行を返す関数。

パーティション列が次のいずれかの式で定義されている場合は常に、Delta Lake でクエリのパーティションフィルターを生成できます。

Note

Databricks Runtime 10.4 LTS 以下では Photon が必要です。 Databricks Runtime 11.3 LTS 以降では Photon は不要です。

CAST(col AS DATE) で col の型が TIMESTAMP。
YEAR(col) で col の型が TIMESTAMP。
YEAR(col), MONTH(col) によって 2 つのパーティション列が定義され、col の型が TIMESTAMP。
YEAR(col), MONTH(col), DAY(col) によって 3 つのパーティション列が定義され、col の型が TIMESTAMP。
YEAR(col), MONTH(col), DAY(col), HOUR(col) によって 4 つのパーティション列が定義され、col の型が TIMESTAMP。
SUBSTRING(col, pos, len) で col の型が STRING。
DATE_FORMAT(col, format) で col の型が TIMESTAMP。
- 日付形式は、yyyy-MM と yyyy-MM-dd-HH のパターンのみ使用できます。
- Databricks Runtime 10.4 LTS 以降では、yyyy-MM-dd のパターンを使用することもできます。

パーティション列が上記のいずれかの式で定義され、基になる生成式のベース列を使用してクエリでデータがフィルター処理される場合、Delta Lake ではベース列と生成された列の関係を確認し、可能であれば、生成されたパーティション列に基づいてパーティションフィルターを設定します。たとえば、次のようなテーブルがあるとします。

CREATE TABLE events(
eventId BIGINT,
data STRING,
eventType STRING,
eventTime TIMESTAMP,
eventDate date GENERATED ALWAYS AS (CAST(eventTime AS DATE))
)
PARTITIONED BY (eventType, eventDate)

その後、次のクエリを実行します。

SELECT * FROM events
WHERE eventTime >= "2020-10-01 00:00:00" <= "2020-10-01 12:00:00"

Delta Lake ではパーティションフィルターが自動的に生成されるため、パーティションフィルターが指定されていない場合でも、上記のクエリではパーティション date=2020-10-01 内のデータのみを読み取ります。

別の例として、次のようなテーブルがあるとします。

CREATE TABLE events(
eventId BIGINT,
data STRING,
eventType STRING,
eventTime TIMESTAMP,
year INT GENERATED ALWAYS AS (YEAR(eventTime)),
month INT GENERATED ALWAYS AS (MONTH(eventTime)),
day INT GENERATED ALWAYS AS (DAY(eventTime))
)
PARTITIONED BY (eventType, year, month, day)

その後、次のクエリを実行します。

SELECT * FROM events
WHERE eventTime >= "2020-10-01 00:00:00" <= "2020-10-01 12:00:00"

Delta Lake ではパーティションフィルターが自動的に生成されるため、パーティションフィルターが指定されていない場合でも、上記のクエリではパーティション year=2020/month=10/day=01 内のデータのみを読み取ります。

EXPLAIN 句を使用して指定されたプランを確認すると、Delta Lake でパーティションフィルターが自動的に生成されるかどうかを確認できます。

Delta Lake で ID 列を使用する

重要

Delta テーブルで ID 列を宣言すると、同時実行トランザクションが無効になります。 ID 列は、ターゲットテーブルへの同時書き込みが不要なユースケースでのみ使用してください。

Delta Lake ID 列は、テーブルに挿入された各レコードに一意の値を割り当てる、生成された列の一種です。次の例は、create table ステートメント中に ID 列を宣言するための基本的な構文を示しています。

CREATE TABLE table_name (
  identity_col BIGINT GENERATED BY DEFAULT AS IDENTITY,
  other_column ...)

ID 列を含むテーブルを作成する構文オプションをすべて確認するには、「CREATE TABLE [USING]」を参照してください。

必要に応じて、次の内容を指定できます。

開始値。
正または負のステップサイズ。

ID 列によって割り当てられる値は、一意であり、指定したステップの方向と、指定したステップサイズの倍数で増加しますが、連続する保証はありません。たとえば、開始値が 0 でステップサイズが 2の場合、すべての値は正の偶数ですが、一部の偶数はスキップされる可能性があります。

句 GENERATED BY DEFAULT AS IDENTITYを使用する場合、挿入操作で ID 列の値を指定できます。手動で値を設定する機能をオーバーライドするように句を GENERATED ALWAYS AS IDENTITY に変更します。

ID 列では BIGINT 型のみがサポートされ、割り当てられた値が BIGINT でサポートされている範囲を超えた場合に操作は失敗します。

ID 列の値とデータを同期する方法については、「ALTER TABLE」を参照してください。

ID 列の制限事項

ID 列を操作する場合、次の制限があります。

ID 列が有効になっているテーブルでは、同時実行トランザクションはサポートされていません。
ID 列でテーブルをパーティション分割することはできません。
ALTER TABLE は、ID 列の ADD、REPLACE、CHANGE に使用できません。
既存のレコードの ID 列の値を更新することはできません。