Delta Lake の概要 Introduction to Delta Lake

デルタレイクは、データ湖に信頼性をもたらすオープンソースのストレージ層です。Delta Lake is an open source storage layer that brings reliability to data lakes. Delta Lake は、ACID トランザクションとスケーラブルなメタデータ処理を提供し、ストリーミングとバッチデータ処理を統合します。Delta Lake provides ACID transactions, scalable metadata handling, and unifies streaming and batch data processing. デルタレイクは、既存の data Lake 上で実行され、Apache Spark Api と完全に互換性があります。Delta Lake runs on top of your existing data lake and is fully compatible with Apache Spark APIs.

具体的には、Delta Lake は次の機能を提供します。Specifically, Delta Lake offers:

  • Spark での ACID トランザクション: Serializable 分離レベルでは、リーダーが不整合なデータを表示しないようにします。ACID transactions on Spark: Serializable isolation levels ensure that readers never see inconsistent data.
  • スケーラブルなメタデータ処理: Spark の分散処理能力を活用して、数十億規模のファイルを含むペタバイト規模のテーブルのすべてのメタデータを簡単に処理できます。Scalable metadata handling: Leverages Spark’s distributed processing power to handle all the metadata for petabyte-scale tables with billions of files at ease.
  • ストリーミングとバッチの統合: デルタレイク内のテーブルは、バッチテーブルだけでなく、ストリーミングソースとシンクです。Streaming and batch unification: A table in Delta Lake is a batch table as well as a streaming source and sink. ストリーミングデータインジェスト、バッチ履歴バックフィル、対話型クエリはすべて、すぐに使用できます。Streaming data ingest, batch historic backfill, interactive queries all just work out of the box.
  • スキーマの適用: 取り込み中に無効なレコードが挿入されないように、スキーマのバリエーションを自動的に処理します。Schema enforcement: Automatically handles schema variations to prevent insertion of bad records during ingestion.
  • タイムトラベル: データのバージョン管理により、ロールバック、完全な履歴監査証跡、および再現可能な機械学習の実験が可能になります。Time travel: Data versioning enables rollbacks, full historical audit trails, and reproducible machine learning experiments.
  • Upserts と delete: マージ、更新、および削除操作をサポートして、変更データキャプチャ、緩やかに変化するディメンション (SCD) 操作、ストリーミング upserts などの複雑な usecases を実現します。Upserts and deletes: Supports merge, update and delete operations to enable complex usecases like change-data-capture, slowly-changing-dimension (SCD) operations, streaming upserts, and so on.

デルタレイク on Azure Databricks を使用すると、ワークロードパターンに基づいてデルタレイクを構成し、高速な対話型クエリ用に最適化されたレイアウトとインデックスを提供できます。Delta Lake on Azure Databricks allows you to configure Delta Lake based on your workload patterns and provides optimized layouts and indexes for fast interactive queries. Azure Databricks のデルタレイクの詳細については、「最適化」を参照してください。For information on Delta Lake on Azure Databricks, see Optimizations.

クイック スタートQuickstart

Delta Lake クイックスタートでは、Delta Lake の基本的な使用方法の概要を説明します。The Delta Lake Quickstart provides an overview of the basics of working with Delta Lake.

このクイックスタートでは、JSON データをデルタテーブルに読み込んだり、テーブルを変更したり、テーブルを読み取り、テーブル履歴を表示したり、テーブルを最適化したりするパイプラインを構築する方法について説明します。The Quickstart shows how to build pipeline that reads JSON data into a Delta table, modify the table, read the table, display table history, and optimize the table. これらの機能を示す実行可能なノートブックについては、「入門 notebook」を参照してください。For runnable notebooks that demonstrate these features, see Introductory Notebooks.

Delta Lake を試すには、「 try Azure Databricks」を参照してください。To try out Delta Lake, see Try Azure Databricks.

これらの機能を示す実行可能なノートブックについては、「入門 notebook」を参照してください。For runnable notebooks that demonstrate these features, see Introductory Notebooks.

関連資料Resources