はじめに

完了

Apache Spark によって、大量のデータに対してデータ クレンジングと変換タスクを実行するための強力なプラットフォームが提供されます。 Spark "データフレーム" オブジェクトを使用すると、データ レイク内のファイルからデータを簡単に読み込み、複雑な変更を実行できます。 その後、変換されたデータをデータ レイクに保存して、ダウンストリーム処理またはデータ ウェアハウスへのインジェストを行うことができます。

Azure Synapse Analytics には、データ インジェストと準備ワークロードの一部としてデータを変換するために、Spark ワークロードを実行するために使用できる Apache Spark プールが用意されています。 ネイティブでサポートされているノートブックを使用して、Spark プールでコードを記述して実行し、分析用のデータを準備できます。 その後、SQL プールなどの他の Azure Synapse Analytics 機能を使用して、変換されたデータを操作できます。