Azure Databricks を使用して Data Engineering を実行する

中級
データ サイエンティスト
データ エンジニア
Azure
Databricks

Azure Databricks を使用して Azure での Databricks のセットアップを高速化する方法について説明します。 組み込みコネクタ サービスと Azure SQL Data Warehouse でデータを操作します。 Azure Data Factory で使用可能なデータ サービスについて説明します。 合理化されたワークフローをビルドし、Apache Spark を利用した対話型分析ワークスペースを使用します。

前提条件

Azure サブスクリプションが必要です。 Azure サブスクリプションをお持ちでない場合は、開始する前に無料アカウントを作成し、サブスクリプションを追加してください。

このラーニング パス内のモジュール

Azure Databricks と Apache Spark のノートブックについて学習します。

SQL Data Warehouse コネクタを使用して Azure Databricks から Azure SQL Data Warehouse にアクセスする方法について学習します。 これにより、SQL Data Warehouse で Apache Spark と共に Azure Blob Storage と PolyBase を利用し、Databricks クラスターと SQL Data Warehouse インスタンスの間で大量のデータを効率的に転送できます。

このモジュールでは、Azure Databricks を使用して複数のデータ ソースを操作します。 ファイルやデータ ストア (Azure SQL Database など) からの入力を結合して、高度な分析のためにそのデータを変換し格納する方法について説明します。

Azure Databricks を使用して複数のデータ ソースを操作し、Azure SQL Database などのファイルおよびデータ ストアからの入力を結合し、そのデータを高度な分析向けに変換して格納します。

Azure Databricks で基本的なデータ変換を行うためのツールと手法について説明します。

Azure Databricks で高度なデータ変換を実行し、ユーザー定義関数 (UDF) とライブラリを使用して変換ロジックをカプセル化する方法について説明します。

Azure で Databricks Delta を使用し、データ レイクを出入りするデータの流れ (データ パイプライン) を管理する方法を学習します。 このシステムには、信頼性および最適化が組み込まれた Apache Spark テーブルを活用した、データの作成、追加、およびアップサートのメカニズムも含まれます。 Databricks Delta のアーキテクチャは読み取り速度の向上にどのように役立つのか、またこのアーキテクチャでは複数のライターがどのようにしてデータセットを同時に変更し、整合性の取れたビューを表示できるのかについて学習します。 最後に、Delta を使用してデータのバッチ処理およびストリーム処理を行うことで、ラムダ アーキテクチャを実装します。

Azure Event Hubs、Spark Structured Streaming、および Databricks Delta を使用して、ストリーミング データの分析と処理の方法について学習します。

Azure Databricks を使用して、組み込みのグラフや Matplotlib などのサード パーティ製ライブラリを使用することで、基本的なものから高度なものまでさまざまな視覚エフェクトを作成します。 Azure Databricks のデータを Power BI に接続し、他のユーザーと共有できるビジネス インテリジェンス ダッシュボードを作成します。