Databricks レイクハウスにデータを取り込む

[アーティクル]
03/01/2024

Azure Databricks には、Delta Lake によってサポートされるレイクハウスにデータを取り込むためのさまざまな方法が用意されています。 Databricks では、クラウドオブジェクトストレージからの増分データインジェストに自動ローダーの使用が推奨されています。データの追加 UI には、ローカルファイルをすばやくアップロードしたり、外部データソースに接続したりするためのさまざまなオプションが用意されています。

最初の ETL ワークロードを実行する

Azure Databricks で自動ローダーを使用したことがない場合は、チュートリアルから始めます。「Azure Databricks で最初の ETL ワークロードを実行する」を参照してください。

自動ローダー

自動ローダーでは、追加の設定を行わなくても、クラウドストレージに到着した新しいデータファイルが段階的かつ効率的に処理されます。自動ローダーは、cloudFiles と呼ばれる構造化ストリーミングソースを提供します。クラウドファイルストレージ上に入力ディレクトリパスを指定すると、cloudFiles ソースでは、新しいファイルが到着したときにそれらが自動的に処理されます。また、そのディレクトリ内の既存のファイルも処理できます。

Delta Live Tables と自動ローダーを使用して ETL を自動化する

自動ローダーと Delta Live Tables を使用すると、スケーラブルな増分インジェストインフラストラクチャのデプロイを簡略化できます。 Delta Live Tables では、ノートブックに含まれる標準の対話型実行は使用されず、代わりに運用環境に対応したインフラストラクチャのデプロイが重視されます。

ローカルデータファイルのアップロードまたは外部データソースの接続

ローカルデータファイルを安全にアップロードしたり、外部ソースからデータを取り込んでテーブルを作成したりできます。データの追加 UI を使用してデータを読み込むを参照してください。

サードパーティ製ツールを使用して Azure Databricks にデータを取り込む

Azure Databricks は、Azure Databricks にデータを取り込むためのテクノロジパートナー統合を検証します。これらの統合により、さまざまなソースから Azure Databricks へ、少量のコードでスケーラブルなデータインジェストが可能になります。「テクノロジパートナー」を参照してください。一部のテクノロジパートナーは Databricks Partner Connect で紹介されており、サードパーティ製ツールをレイクハウスデータに簡単に接続できる UI が提供されます。

COPY INTO

COPY INTO により、SQL ユーザーは、クラウドオブジェクトストレージから Delta テーブルにデータをべき等で、かつ増分的に取り込むことができます。 Databricks SQL、ノートブック、Databricks ジョブで使用できます。

COPY INTO を使用する場合と自動ローダーを使用する場合

自動ローダーか COPY INTO かを選択するときに考慮すべきいくつかの点を次に示します。

数千の順序でファイルを取り込む場合は、COPY INTO を使用できます。時間の経過とともに数百万以上の順序のファイルが予想される場合は、自動ローダーを使用します。自動ローダーでは、COPY INTO と比較してファイルを検出する操作の合計が少なくて済み、処理を複数のバッチに分割できます。つまり、自動ローダーの方がコストが低く、大規模で効率が高くなります。
データスキーマが頻繁に展開する予定の場合は、自動ローダーにより、スキーマの推論と展開に関してより適切なプリミティブが得られます。詳細については、「自動ローダーでのスキーマの推論と展開の構成」を参照してください。
再アップロードされたファイルのサブセットの読み込みは、COPY INTO のほうが少し簡単に管理できます。自動ローダーでは、選択したファイルのサブセットの再処理が難しくなります。ただし、自動ローダーストリームを同時に実行しながら、COPY INTO を使用して、ファイルのサブセットを再度読み込むことは可能です。
ファイル取り込みの拡張性と堅牢度を上げるため、自動ローダーでは、SQL ユーザーはストリーミングテーブルを活用できます。「Databricks SQL でストリーミングテーブルを使用してデータを読み込む」を参照してください。

自動ローダーと COPY INTO の概要とデモについては、次の YouTube 動画 (2 分) をご覧ください。

データインジェスト中にキャプチャされたファイルメタデータを確認する

Apache Spark は、データの読み込み中にソースファイルに関するデータを自動的にキャプチャします。 Azure Databricks では、ファイルメタデータ列を使用してこのデータにアクセスできます。

スプレッドシートのエクスポートを Azure Databricks にアップロードする

[ファイルのアップロードからテーブルを作成または変更する] ページを使用して、CSV、TSV、JSON ファイルをアップロードします。「ファイルのアップロードを使用してテーブルを作成または変更する」を参照してください。

データアプリケーションを Azure Databricks に移行する

既存のデータアプリケーションを Azure Databricks に移行して、多くのソースシステムからのデータを 1 つのプラットフォームで操作できるようにします。「データアプリケーションを Azure Databricks に移行する」を参照してください。

Databricks レイクハウスにデータを取り込む

最初の ETL ワークロードを実行する

自動ローダー

Delta Live Tables と自動ローダーを使用して ETL を自動化する

ローカル データ ファイルのアップロードまたは外部データ ソースの接続

サード パーティ製ツールを使用して Azure Databricks にデータを取り込む