Azure Synapse Analytics の用語

[アーティクル]
03/25/2023

このドキュメントでは、Azure Synapse Analytics の基本的な概念を紹介します。

Synapse ワークスペース

Synapse ワークスペースは、Azure でクラウドベースのエンタープライズ分析を行うための、セキュリティ保護可能なコラボレーション境界です。ワークスペースは、特定のリージョンにデプロイされ、関連付けられた ADLS Gen2 アカウントと (一時データを格納するための) ファイルシステムを持ちます。ワークスペースは、リソースグループに属します。

ワークスペースを使用すると、SQL および Apache Spark で分析できます。 SQL および Spark の分析に利用できるリソースは SQL および Spark プールにまとめられます。

リンクされたサービス

ワークスペースには、任意の数のリンクされたサービスを含めることができます。これは、基本的には、ワークスペースが外部リソースに接続するために必要な接続情報を定義する接続文字列です。

Synapse SQL

Synapse SQL は、Synapse ワークスペースで T-SQL に基づいて分析するための機能です。 Synapse SQL には、専用とサーバーレスという 2 つの消費モデルがあります。専用モデルの場合、専用の SQL プールを使用します。ワークスペースには、このようなプールをいくらでも与えることができます。サーバーレスモデルを使用するには、サーバーレス SQL プールを使用します。ワークスペースごとにこのようなプールが 1 つ与えられます。

Synapse Studio 内で、SQL スクリプトを実行することによって、SQL プールを操作できます。

注意

Azure Synapse の専用 SQL プールは、専用 SQL プール (旧称 SQL DW) とは異なります。 Azure Synapse ワークスペース内の専用 SQL プールのすべての機能が専用 SQL プール (旧称 SQL DW) に適用されるわけではなく、その逆も同様です。既存の専用 SQL プール (旧称 SQL DW) のワークスペース機能を有効にするには、専用の SQL プール (旧称 SQL DW) 用のワークスペースを有効にする方法に関するページを参照してください。

Synapse 用の Apache Spark

Spark 分析を使用するには、Synapse ワークスペースでサーバーレス Apache Spark プールを作成し、使用します。 Spark プールの使用を開始すると、ワークスペースによって Spark セッションが作成され、そのセッションに関連付けられているリソースが処理されます。

Synapse では、次の 2 とおりの方法で Spark を使用できます。

Spark Notebooks。データサイエンスやエンジニアリングを行う用途で、Scala、PySpark、C#、SparkSQL が使用されます
Spark ジョブ定義。jar ファイルを使用したバッチ Spark ジョブの実行に使用されます。

SynapseML

SynapseML (旧称 MMLSpark) は、大規模スケーラブルな機械学習 (ML) パイプラインの作成を簡略化するオープンソースライブラリです。これは、Apache Spark フレームワークをいくつかの新しい方向へ拡張するために使われるツールのエコシステムです。 SynapseML は、いくつかの既存の機械学習フレームワークと新しい Microsoft アルゴリズムを、Python、R、Scala、.NET、Java で使用できる単一のスケーラブルな API に統合します。詳細については、SynapseML の主要な機能に関する記事を参照してください。

パイプライン

Azure Synapse では、パイプラインを使用してデータ統合を提供します。これにより、サービス間でデータを移動したり、アクティビティを調整したりすることができます。

パイプラインは、1 つのタスクを連携して実行するアクティビティの論理的なグループです。
アクティビティは、データのコピー、ノートブックや SQL スクリプトの実行など、データに対して実行する、パイプライン内のアクションを定義します。
データフローは、内部的に Synapse Spark を使用するデータ変換を実行するための、ノーコードのエクスペリエンスを提供する、特定の種類のアクティビティです。
トリガー - パイプラインを実行します。手動または自動で実行できます (スケジュール、タンブリングウィンドウ、またはイベントベース)
統合データセット - アクティビティで入力および出力として使用されるデータを単にポイントまたは参照する、データの名前付きビュー。リンクされたサービスに属します。

Data Explorer (プレビュー)

Azure Synapse Data Explorer は、ログとテレメトリデータから分析情報を引き出すための対話型クエリエクスペリエンスをお客様に提供します。

Data Explorer プールは、クエリのパフォーマンスを最適化するためのローカル SSD ストレージ (ホットキャッシュ) と、永続化のための複数の BLOB ストレージ (コールドキャッシュ) を備えた 2 つ以上のコンピューティングノードを含む専用クラスターです。
Data Explorer データベースは、Data Explorer プール上でホストされ、テーブルなどのデータベースオブジェクトのコレクションで構成される論理エンティティです。プールごとに複数のデータベースを使用できます。
テーブルは、従来のリレーショナルデータモデルを使用して整理されたデータを格納するデータベースオブジェクトです。データは、Data Explorer の明確に定義されたテーブルスキーマに準拠したレコードに格納されます。スキーマでは、列の順序指定済みリストが定義されています。各列には、名前とスカラーデータ型が含まれます。スカラーデータ型は、構造化 (int、real、datetime、または timespan)、半構造化 (dynamic)、フリーテキスト (string) のいずれかになります。 dynamic 型は、単一のスカラー値、配列、またはそのような値の辞書を保持できるという点で、JSON に似ています。
外部テーブルは、Data Explorer データベースの外部にあるストレージまたは SQL データソースを参照するテーブルです。外部テーブルには、テーブルと同じように、明確に定義されたスキーマ (列名とデータ型のペアの順序指定済みリスト) があります。 Data Explorer プールにデータが取り込まれる Data Explorer テーブルとは異なり、外部テーブルは、プールの外部に格納され、管理されているデータに対して動作します。外部テーブルにはデータは保持されず、データのクエリや、外部データストアへのエクスポートに使用されます。