はじめにIntroduction

デルタレイクは、データ湖に信頼性をもたらすオープンソースのストレージ層です。Delta Lake is an open source storage layer that brings reliability to data lakes. Delta Lake は、ACID トランザクションとスケーラブルなメタデータ処理を提供し、ストリーミングとバッチ データ処理を統合します。Delta Lake provides ACID transactions, scalable metadata handling, and unifies streaming and batch data processing. デルタレイクは、既存の data Lake 上で実行され、Apache Spark Api と完全に互換性があります。Delta Lake runs on top of your existing data lake and is fully compatible with Apache Spark APIs.

具体的には、Delta Lake は次の機能を提供します。Specifically, Delta Lake offers:

  • Spark での ACID トランザクション: Serializable 分離レベルでは、リーダーが不整合なデータを表示しないようにします。ACID transactions on Spark: Serializable isolation levels ensure that readers never see inconsistent data.
  • スケーラブルなメタデータ処理: Spark の分散処理能力を活用して、数十億規模のファイルを含むペタバイト規模のテーブルのすべてのメタデータを簡単に処理できます。Scalable metadata handling: Leverages Spark’s distributed processing power to handle all the metadata for petabyte-scale tables with billions of files at ease.
  • ストリーミングとバッチの統合: デルタレイク内のテーブルは、バッチテーブルだけでなく、ストリーミングソースとシンクです。Streaming and batch unification: A table in Delta Lake is a batch table as well as a streaming source and sink. ストリーミングデータインジェスト、バッチ履歴バックフィル、対話型クエリはすべて、すぐに使用できます。Streaming data ingest, batch historic backfill, interactive queries all just work out of the box.
  • スキーマの適用: 取り込み中に無効なレコードが挿入されないように、スキーマのバリエーションを自動的に処理します。Schema enforcement: Automatically handles schema variations to prevent insertion of bad records during ingestion.
  • タイムトラベル: データのバージョン管理により、ロールバック、完全な履歴監査証跡、および再現可能な機械学習の実験が可能になります。Time travel: Data versioning enables rollbacks, full historical audit trails, and reproducible machine learning experiments.
  • Upserts と delete: マージ、更新、および削除操作をサポートして、変更データキャプチャ、緩やかに変化するディメンション (SCD) 操作、ストリーミング upserts などの複雑なユースケースを実現します。Upserts and deletes: Supports merge, update and delete operations to enable complex use cases like change-data-capture, slowly-changing-dimension (SCD) operations, streaming upserts, and so on.

デルタエンジンの最適化により、デルタレイク操作のパフォーマンスが向上し、大規模な ETL 処理からアドホックな対話型クエリまで、さまざまなワークロードがサポートされるようになります。Delta Engine optimizations make Delta Lake operations highly performant, supporting a variety of workloads ranging from large-scale ETL processing to ad-hoc, interactive queries. デルタエンジンの詳細については、「 デルタエンジン」を参照してください。For information on Delta Engine, see Delta Engine.

クイック スタートQuickstart

Delta Lake クイックスタートでは、Delta Lake の基本的な使用方法の概要を説明します。The Delta Lake quickstart provides an overview of the basics of working with Delta Lake. この クイックスタート では、JSON データをデルタテーブルに読み込んだり、テーブルを変更したり、テーブルを読み取り、テーブル履歴を表示したり、テーブルを最適化したりするパイプラインを構築する方法について説明します。The quickstart shows how to build pipeline that reads JSON data into a Delta table, modify the table, read the table, display table history, and optimize the table.

これらの機能を示す Azure Databricks notebook については、「 入門 notebook」を参照してください。For Azure Databricks notebooks that demonstrate these features, see Introductory notebooks.

Delta Lake を試すには、「 Azure Databricks へのサインアップ」を参照してください。To try out Delta Lake, see Sign up for Azure Databricks.

リソースResources