自動ローダー

[アーティクル]
03/01/2024

自動ローダーでは、追加の設定を行わなくても、クラウドストレージに到着した新しいデータファイルが段階的かつ効率的に処理されます。

自動ローダーのしくみはどのようなものですか?

自動ローダーは、新しいデータファイルがクラウドストレージに到着すると、それらを段階的かつ効率的に処理します。自動ローダーは、AWS S3 (s3://)、Azure Data Lake Storage Gen2 (ADLS Gen2、abfss://)、Google Cloud Storage (GCS、gs://)、Azure Blob Storage (wasbs://)、ADLS Gen1 (adl://)、および Databricks ファイルシステム (DBFS, dbfs:/) からデータファイルを読み込めます。自動ローダーは、JSON、CSV、XML、PARQUET、AVRO、ORC、TEXT、および BINARYFILE のファイル形式を取り込めます。

Note

従来の Windows Azure Storage (WASB) ドライバーは非推奨になっています。 ABFS には WASB よりも多くの利点があります。 ABFS に関する Azure ドキュメントを参照してください。従来の WASB ドライバーの使用に関するドキュメントについては、「WASB で Azure Blob Storage に接続する (レガシ)」をご覧ください。
Azure では、Azure Data Lake Storage Gen1 の保留中の提供終了が発表されています。 Databricks は、Azure Data Lake Storage Gen1 から Azure Data Lake Storage Gen2 にすべてのデータを移行することを推奨しています。まだ移行していない場合は、「Azure Databricks から Azure Data Lake Storage Gen1 にアクセスする」をご覧ください。

自動ローダーは、cloudFiles と呼ばれる構造化ストリーミングソースを提供します。クラウドファイルストレージ上に入力ディレクトリパスを指定すると、cloudFiles ソースでは、新しいファイルが到着したときにそれらが自動的に処理されます。また、そのディレクトリ内の既存のファイルも処理できます。自動ローダーでは、Delta Live Tables で Python と SQL の両方がサポートされています。

自動ローダーを使用して、移行する数十億個のファイルを処理したり、テーブルをバックフィルしたりできます。自動ローダーは、1 時間あたり数百万個のファイルの、ほぼリアルタイムのインジェストをサポートするようにスケーリングされます。

自動ローダーでは、インジェストの進行状況はどのように追跡されますか?

ファイルが検出されると、そのメタデータは、自動ローダーパイプラインのチェックポイントの場所にあるスケーラブルなキー/値ストア (RocksDB) に保持されます。このキー/値ストアにより、データは厳密に 1 回だけ処理されます。

エラーが発生した場合、自動ローダーではチェックポイントの場所に格納されている情報に基づいて中断された場所から再開でき、Delta Lake にデータを書き込むときに厳密に 1 回だけという保証を提供し続けられます。フォールトトレランスや厳密に 1 回だけというセマンティクスを実現するために、状態を自分で維持したり管理したりする必要はありません。

Delta Live Tables で自動ローダーを使用した増分取り込み

Databricks では、増分データインジェストに Delta Live Tables で自動ローダーを使用することが推奨されています。 Delta Live Tables は、Apache Spark Structured Streaming の機能を拡張し、数行の宣言型 Python または SQL を記述するだけで、次のような実稼働品質のデータパイプラインをデプロイできるようにします。

コスト削減のためのコンピューティングインフラストラクチャの自動スケーリング
期待値を使用したデータ品質チェック
自動的なスキーマ展開処理
イベントログのメトリック経由での監視

スキーマまたはチェックポイントの場所を指定する必要はありません。Delta Live Tables ではパイプラインのこれらの設定が自動的に管理されるためです。「Delta Live Tables を使用してデータを読み込む」を参照してください。

また、Databricks では、Apache Spark Structured Streaming を使用してクラウドオブジェクトストレージからデータを取り込むときはいつでも自動ローダーが推奨されます。 API は Python と Scala で使用可能です。

Databricks 自動ローダーを使ってみる

Delta Live Tables で自動ローダーを使用した増分データ取り込みを開始するには、次の記事を参照してください。

例: 一般的な自動ローダーのパターン

一般的な自動ローダーパターンの例については、「一般的なデータ読み込みパターン」を参照してください。

自動ローダーのオプションを構成する

データの量、種類、速度に基づいて自動ローダーを調整できます。

自動ローダーオプションの完全な一覧については、次を参照してください。

自動ローダーのオプション

予期しないパフォーマンスが発生した場合は、FAQ を参照してください。

自動ローダーファイル検出モードを構成する

自動ローダーでは、2 つのファイル検出モードがサポートされています。参照トピック

ファイルでの構造化ストリーミングの直接使用より、自動ローダーが優位な点

Apache Spark では、spark.readStream.format(fileFormat).load(directory) を使用してファイルを増分方式で読み取りできます。自動ローダーには、ファイルソースに対して次のベネフィットがあります。

スケーラビリティ: 自動ローダーでは、数十億のファイルを効率的に検出できます。コンピューティングリソースの無駄を回避するために、バックフィルを非同期的に実行できます。
パフォーマンス: 自動ローダーを使用してファイルを検出するコストは、ファイルが格納されている可能性のあるディレクトリの数ではなく、取り込まれているファイルの数に応じて増減します。自動ローダーディレクトリリスト表示モードとはを参照してください。
スキーマの推論と展開のサポート: 自動ローダーでは、スキーマドリフトを検出し、スキーマの変更が発生した場合に通知して、通知されなかった場合は無視または失われていたはずのデータを保護できます。自動ローダースキーマ推論のしくみを参照してください。
コスト: 自動ローダーでは、ネイティブクラウド API を使用して、ストレージに存在するファイルの一覧を取得します。さらに、自動ローダーのファイル通知モードは、ディレクトリ一覧を完全に回避することで、クラウドコストをさらに削減するのに役立ちます。自動ローダーを使用すると、ストレージにファイル通知サービスを自動的に設定して、ファイル検出のコストを大幅に削減できます。