Azure Synapse Analytics の Azure AI サービス

Azure AI サービスからの事前トレーニング済みモデルを使用すると、Azure Synapse Analytics の人工知能 (AI) でご利用のデータを強化できます。

Azure AI サービスは、開発者と組織が、すぐに使用できる事前構築済みのカスタマイズ可能な API とモデルを使用して、インテリジェントで最先端の市場対応の責任あるアプリケーションを迅速に作成するのに役立ちます。

Synapse Analytics でご利用のデータに対して Azure AI サービスのサブセットを使用する方法はいくつかあります。

  • Synapse Analytics の "Azure AI サービス" ウィザードを使用すると、Spark テーブルのデータを使用して Azure AI サービスに接続する PySpark コードが Synapse ノートブック内に生成されます。 その後、そのサービスでは、トレーニング済みの機械学習モデルを使用して、データに AI を追加するための処理をお客様に代わって行います。 詳細については、感情分析ウィザード異常検出ウィザードについて確認してください。

  • Synapse Machine Learning (SynapseML) を使用すると、効果的で拡張性の高い予測と分析のモデルをさまざまな Spark データ ソースから構築できます。 Synapse Spark には、 などの組み込みの SynapseML ライブラリが用意されています。

  • ウィザードによって生成された PySpark コード、またはチュートリアルで用意されているサンプル SynapseML コードから始めることで、ご利用のデータに対して他の Azure AI サービスを使用するための独自のコードを作成できます。 利用可能なサービスの詳細については、「Azure AI サービスとは」を参照してください。


チュートリアル「Azure Synapse で Azure AI サービスを使用するための前提条件」では、Synapse Analytics で Azure AI サービスを使用する前に行う必要があるいくつかの手順について説明しています。



Computer Vision

  • 説明: 人間が判読できる言語で画像の説明を提供します (ScalaPython)
  • 分析 (色、画像の種類、顔、成人向け/わいせつなコンテンツ): 画像の視覚的特徴を分析します (ScalaPython)
  • OCR: 画像からテキストを読み取ります (ScalaPython)
  • テキスト認識: 画像からテキストを読み取ります (ScalaPython)
  • サムネイル: 画像からユーザー指定のサイズのサムネイルを生成します (ScalaPython)
  • ドメイン固有のコンテンツの認識: ドメイン固有のコンテンツ (有名人、ランドマーク) を認識します (ScalaPython)
  • タグ: 入力画像に関連する単語の一覧を識別します (ScalaPython)


  • 検出: 画像内の人間の顔を検出します (ScalaPython)
  • 検証: 2 つの顔が同じ人物のものであるか、顔がある人物のものであるかを確認します (ScalaPython)
  • 識別: 人物のグループから特定のクエリ対象の顔に最も近い一致を見つけます (ScalaPython)
  • 類似検索: 顔リスト内でクエリの顔と似ている顔を見つけます (ScalaPython)
  • グループ: 顔のグループを類似性に基づいて別々のグループに分割します (ScalaPython)



  • 音声テキスト変換: 音声ストリームを文字に起こします (ScalaPython)
  • 会話の文字起こし: 音声ストリームを、識別された話者のライブ音声テキストに文字起こしします。 (ScalaPython)
  • テキスト読み上げ: テキストをリアルな音声に変換します (ScalaPython)


Text Analytics

  • 言語検出: 入力テキストの言語を検出します (ScalaPython)
  • キー フレーズ抽出: 入力テキスト内の主な話の要点を識別します (ScalaPython)
  • 名前付きエンティティ認識: 入力テキスト内の既知のエンティティと一般的な名前付きエンティティを識別します (ScalaPython)
  • 感情分析: 入力テキスト内のセンチメントを示す 0 から 1 のスコアを返します (ScalaPython)
  • 医療エンティティ抽出: テキストから医療エンティティとリレーションシップを抽出します。 (ScalaPython)



  • 翻訳: テキストを翻訳します。 (ScalaPython)
  • 文字変換: ある言語のテキストをあるスクリプトから別のスクリプトに変換します。 (ScalaPython)
  • 検出: テキストの一部の言語を識別します。 (ScalaPython)
  • 文の分割: 文章内で文の境界の位置を識別します。 (ScalaPython)
  • 辞書検索: 単語や少数の慣用句に対して代替の翻訳を提供します。 (ScalaPython)
  • 辞書の例: 辞書内の用語がコンテキストで使用される方法を示す例を提供します。 (ScalaPython)
  • ドキュメント翻訳: ドキュメントの構造とデータ形式を維持しながら、サポートされているすべての言語および方言との間でドキュメントを翻訳します。 (ScalaPython)

Document Intelligence

Document Intelligence (旧称 Azure AI Document Intelligence)

  • レイアウト分析: 指定したドキュメントからテキストとレイアウトの情報を抽出します。 (ScalaPython)
  • 領収書分析: 光学式文字認識 (OCR) と領収書モデルを使用して領収書からデータを検出して抽出します。これらを使用すると、業者名、業者の電話番号、取引日、取引合計など、領収書から構造化データを簡単に抽出できます。 (ScalaPython)
  • 名刺分析: 光学式文字認識 (OCR) と名刺モデルを使用して名刺からデータを検出して抽出します。これらを使用すると、連絡先の名前、会社名、電話番号、メールアドレスなど、名刺から構造化データを簡単に抽出できます。 (ScalaPython)
  • 請求書分析: 光学式文字認識 (OCR) と請求書を解釈するディープ ラーニング モデルを使用して、請求書からデータを検出して抽出します。これらを使用すると、顧客、ベンダー、請求書 ID、請求書の期限、合計、請求金額の期限、税額、出荷先、請求先、明細項目など、請求書から構造化データを簡単に抽出できます。 (ScalaPython)
  • 身分証明書分析: 光学式文字認識 (OCR) と身分証明書モデルを使用して識別ドキュメントからデータを検出して抽出します。これらを使用すると、姓、名、生年月日、ドキュメント番号など、身分証明書から構造化データを簡単に抽出できます。 (ScalaPython)
  • カスタム フォーム分析: 一連の代表的なトレーニング フォームから作成されたモデルに基づいて、フォーム (PDF と画像) から構造化データに情報を抽出します。 (ScalaPython)
  • カスタム モデルの取得: カスタム モデルに関する詳細情報を取得します。 (ScalaPython)
  • カスタム モデルの一覧表示: すべてのカスタム モデルに関する情報を取得します。 (ScalaPython)


Anomaly Detector

  • 最新のポイントの異常状態: 前のポイントを使用してモデルを生成し、最新のポイントが異常であるかどうかを判断します (ScalaPython)
  • 異常の検出: 系列全体を使用してモデルを生成し、系列内の異常を見つけます (ScalaPython)


  1. Azure AI サービスの環境のセットアップ」の手順に従って、Azure Databricks と Azure AI サービス環境を設定します。 このチュートリアルでは、SynapseML をインストールする方法と、Databricks で Spark クラスターを作成する方法について説明しています。
  2. Azure Databricks で新しいノートブックを作成した後、次の共有コードをコピーし、ノートブックの新しいセルに貼り付けます。
  3. 次のサービス サンプルのいずれかを選択し、コピーしてノートブックの 2 番目の新しいセルに貼り付けます。
  4. サービス サブスクリプション キーのプレースホルダーをすべて実際のキーに置き換えます。
  5. セルの右上隅にある実行ボタン (三角形のアイコン) を選択し、 [セルの実行] を選択します。
  6. セルの下の表で結果を確認します。



from pyspark.sql.functions import udf, col
from import HTTPTransformer, http_udf
from requests import Request
from pyspark.sql.functions import lit
from import PipelineModel
from pyspark.sql.functions import col
import os
from pyspark.sql import SparkSession
from import *

# Bootstrap Spark Session
spark = SparkSession.builder.getOrCreate()

from import materializing_display as display
from import *

# A multi-service resource key for Text Analytics, Computer Vision and Document Intelligence (or use separate keys that belong to each service)
service_key = find_secret("cognitive-api-key")
service_loc = "eastus"

# A Bing Search v7 subscription key
bing_search_key = find_secret("bing-search-key")

# An Anomaly Detector subscription key
anomaly_key = find_secret("anomaly-api-key")
anomaly_loc = "westus2"

# A Translator subscription key
translator_key = find_secret("translator-key")
translator_loc = "eastus"

# An Azure search key
search_key = find_secret("azure-search-key")

Text Analytics のサンプル

Text Analytics サービスには、テキストからインテリジェントな分析情報を抽出するためのアルゴリズムがいくつか用意されています。 たとえば、指定された入力テキストのセンチメントを見つけることができます。 このサービスでは、0.0 と 1.0 の間のスコアが返されます。低いスコアは否定的なセンチメントを示し、高いスコアは肯定的なセンチメントを示します。 このサンプルでは、3 つの単純な文を使用し、それぞれのセンチメントを返します。

# Create a dataframe that's tied to it's column names
df = spark.createDataFrame(
        ("I am so happy today, its sunny!", "en-US"),
        ("I am frustrated by this rush hour traffic", "en-US"),
        ("The Azure AI services on spark aint bad", "en-US"),
    ["text", "language"],

# Run the Text Analytics service with options
sentiment = (

# Show the results of your text query in a table format
        "text", col("sentiment.document.sentiment").alias("sentiment")

Text Analytics for Health のサンプル

Text Analytics for Health サービスにより、医師のメモ、退院要約、臨床ドキュメント、電子健康記録などの非構造化テキストから関連する医療情報が抽出されて、ラベルが付けられます。

df = spark.createDataFrame(
        ("20mg of ibuprofen twice a day",),
        ("1tsp of Tylenol every 4 hours",),
        ("6-drops of Vitamin B-12 every evening",),

healthcare = (


Translator のサンプル

Translator はクラウドベースの機械翻訳サービスであり、インテリジェント アプリを構築するたに使用される API の Azure AI サービス ファミリの一部です。 Translator は、皆さんのアプリケーションや Web サイト、ツール、ソリューションに簡単に統合することができます。 これを使用すると、90 の言語と方言での多言語ユーザー エクスペリエンスを追加できます。また、どのオペレーティング システムでのテキスト翻訳にも使用できます。 このサンプルでは、翻訳する文と翻訳先の言語を指定して、簡単なテキスト翻訳を行います。

from pyspark.sql.functions import col, flatten

# Create a dataframe including sentences you want to translate
df = spark.createDataFrame(
    [(["Hello, what is your name?", "Bye"],)],

# Run the Translator service with options
translate = (

# Show the results of the translation.
    .withColumn("translation", flatten(col("translation.translations")))
    .withColumn("translation", col("translation.text"))

Document Intelligence のサンプル

Document Intelligence (旧称 "Azure AI Document Intelligence") は、機械学習テクノロジを利用して自動データ処理ソフトウェアを構築ことを可能にする Azure AI サービスの一部です。 ドキュメントに存在するテキスト、キーと値の組み合わせ、選択マーク、表、構造を特定、抽出します。 このサービスは、ファイル、バウンディング ボックス、機密情報などの元データの要素同士の関係を含む、構造化されたデータを出力します。 このサンプルでは、名刺の画像を分析して、その情報を構造化データに抽出します。

from pyspark.sql.functions import col, explode

# Create a dataframe containing the source files
imageDf = spark.createDataFrame(

# Run the Document Intelligence service
analyzeBusinessCards = (

# Show the results of recognition.
        "documents", explode(col("businessCards.analyzeResult.documentResults.fields"))
    .select("source", "documents")

Computer Vision のサンプル

Computer Vision は、画像を分析して、顔、物体、自然言語による記述などの構造を識別します。 このサンプルでは、一連の画像にタグを付けます。 タグは、認識可能な物体、人物、風景、アクションなど、画像内のものを 1 単語で表したものです。

# Create a dataframe with the image URLs
base_url = ""
df = spark.createDataFrame(
        (base_url + "objects.jpg",),
        (base_url + "dog.jpg",),
        (base_url + "house.jpg",),

# Run the Computer Vision service. Analyze Image extracts information from/about the images.
analysis = (
        ["Categories", "Color", "Description", "Faces", "Objects", "Tags"]

# Show the results of what you wanted to pull out of the images.
display(analysis.transform(df).select("image", "analysis_results.description.tags"))

Bing Image Search のサンプル

Bing Image Search では、Web を検索して、ユーザーの自然言語クエリに関連する画像を取得します。 このサンプルでは、引用付きの画像を検索するテキスト クエリを使用しています。 クエリに関連する写真を含む画像 URL のリストが返されます。

# Number of images Bing will return per query
imgsPerBatch = 10
# A list of offsets, used to page into the search results
offsets = [(i * imgsPerBatch,) for i in range(100)]
# Since web content is our data, we create a dataframe with options on that data: offsets
bingParameters = spark.createDataFrame(offsets, ["offset"])

# Run the Bing Image Search service with our text query
bingSearch = (
    .setQuery("Martin Luther King Jr. quotes")

# Transformer that extracts and flattens the richly structured output of Bing Image Search into a simple URL column
getUrls = BingImageSearch.getUrlTransformer("images", "url")

# This displays the full results returned, uncomment to use
# display(bingSearch.transform(bingParameters))

# Since we have two services, they are put into a pipeline
pipeline = PipelineModel(stages=[bingSearch, getUrls])

# Show the results of your search: image URLs


音声テキスト変換サービスでは、音声のストリームまたはファイルをテキストに変換します。 この例では、1 つの音声ファイルを文字に起こします。

# Create a dataframe with our audio URLs, tied to the column called "url"
df = spark.createDataFrame(
    [("",)], ["url"]

# Run the Speech-to-text service to translate the audio into text
speech_to_text = (

# Show the results of the translation
display(speech_to_text.transform(df).select("url", "text.DisplayText"))


テキスト読み上げは、119 の言語と言語変種の 270 を超えるニューラル音声から選択して、自然に話すアプリとサービスを構築できるサービスです。

from import TextToSpeech

fs = ""
if running_on_databricks():
    fs = "dbfs:"
elif running_on_synapse_internal():
    fs = "Files"

# Create a dataframe with text and an output file location
df = spark.createDataFrame(
            "Reading out loud is fun! Check out for more information",
            fs + "/output.mp3",
    ["text", "output_file"],

tts = (

# Check to make sure there were no errors during audio creation

Anomaly Detector のサンプル

Anomaly Detector は、時系列データ内の不規則性を検出するのに適しています。 このサンプルでは、このサービスを使用して、時系列全体での異常を検出します。

# Create a dataframe with the point data that Anomaly Detector requires
df = spark.createDataFrame(
        ("1972-01-01T00:00:00Z", 826.0),
        ("1972-02-01T00:00:00Z", 799.0),
        ("1972-03-01T00:00:00Z", 890.0),
        ("1972-04-01T00:00:00Z", 900.0),
        ("1972-05-01T00:00:00Z", 766.0),
        ("1972-06-01T00:00:00Z", 805.0),
        ("1972-07-01T00:00:00Z", 821.0),
        ("1972-08-01T00:00:00Z", 20000.0),
        ("1972-09-01T00:00:00Z", 883.0),
        ("1972-10-01T00:00:00Z", 898.0),
        ("1972-11-01T00:00:00Z", 957.0),
        ("1972-12-01T00:00:00Z", 924.0),
        ("1973-01-01T00:00:00Z", 881.0),
        ("1973-02-01T00:00:00Z", 837.0),
        ("1973-03-01T00:00:00Z", 9000.0),
    ["timestamp", "value"],
).withColumn("group", lit("series1"))

# Run the Anomaly Detector service to look for irregular data
anomaly_detector = (

# Show the full results of the analysis with the anomalies marked as "True"
    anomaly_detector.transform(df).select("timestamp", "value", "anomalies.isAnomaly")

任意の Web API

HTTP on Spark を使用すると、任意の Web サービスを自分のビッグ データ パイプラインで使用することができます。 この例では、World Bank API を使用して、世界のさまざまな国やリージョンに関する情報を取得します。

# Use any requests from the python requests library

def world_bank_request(country):
    return Request(
        "GET", "{}?format=json".format(country)

# Create a dataframe with specifies which countries/regions we want data on
df = spark.createDataFrame([("br",), ("usa",)], ["country"]).withColumn(
    "request", http_udf(world_bank_request)(col("country"))

# Much faster for big data because of the concurrency :)
client = (

# Get the body of the response

def get_response_body(resp):
    return resp.entity.content.decode()

# Show the details of the country data returned
        "country", udf(get_response_body)(col("response")).alias("response")

Azure AI Search サンプル

この例では、コグニティブ スキルを使用してデータをエンリッチし、SynapseML を使用して Azure Search インデックスに書き込む方法を示します。

search_service = "mmlspark-azure-search"
search_index = "test-33467690"

df = spark.createDataFrame(
    ["searchAction", "id", "url"],

tdf = (
        ["Categories", "Tags", "Description", "Faces", "ImageType", "Color", "Adult"]
    .select("*", "analyzed.*")
    .drop("errors", "analyzed")



次のチュートリアルでは、Synapse Analytics で Azure AI サービスを使用する完全な例を示します。

利用可能な Azure AI サービス API

API の種類 SynapseML API Azure AI サービス API (バージョン) DEP VNet のサポート
Bing Image Search BingImageSearch 画像 - Visual Search V7.0 サポートされていません

Anomaly Detector

API の種類 SynapseML API Azure AI サービス API (バージョン) DEP VNet のサポート
前回の異常の検出 DetectLastAnomaly Detect Last Point V1.0 サポートされています
異常の検出 DetectAnomalies Detect Entire Series V1.0 サポートされています
単純な検出の異常 SimpleDetectAnomalies Detect Entire Series V1.0 サポートされています

Computer Vision

API の種類 SynapseML API Azure AI サービス API (バージョン) DEP VNet のサポート
OCR OCR Recognize Printed Text V2.0 サポートされています
テキスト認識 RecognizeText Recognize Text V2.0 サポートされています
画像の読み取り ReadImage Read V3.1 サポートされています
サムネイルの生成 GenerateThumbnails Generate Thumbnail V2.0 サポートされています
Analyze Image (画像を分析する) AnalyzeImage Analyze Image V2.0 サポートされています
ドメイン固有のコンテンツの認識 RecognizeDomainSpecificContent Analyze Image By Domain V2.0 サポートされています
タグ イメージ TagImage Tag Image V2.0 サポートされています
Describe Image (画像を説明する) DescribeImage Describe Image V2.0 サポートされています


API の種類 SynapseML API Azure AI サービス API (バージョン) DEP VNet のサポート
テキストの翻訳 Translate Translate V3.0 サポートされていません
テキストの表記変換 Transliterate Transliterate V3.0 サポートされていません
言語の検出 Detect Detect V3.0 サポートされていません
文の分割 BreakSentence Break Sentence V3.0 サポートされていません
辞書検索 (翻訳の代替候補) DictionaryLookup Dictionary Lookup V3.0 サポートされていません
ドキュメント変換 DocumentTranslator Document Translation V1.0 サポートされていません


API の種類 SynapseML API Azure AI サービス API (バージョン) DEP VNet のサポート
顔の検出 DetectFace Detect With Url V1.0 サポートされています
似た顔の検索 FindSimilarFace Find Similar V1.0 サポートされています
顔のグループ化 GroupFaces Group V1.0 サポートされています
顔の識別 IdentifyFaces Identify V1.0 サポートされています
顔の確認 VerifyFaces Verify Face To Face V1.0 サポートされています

Document Intelligence

API の種類 SynapseML API Azure AI サービス API (バージョン) DEP VNet のサポート
Analyze Layout AnalyzeLayout Analyze Layout Async V2.1 サポートされています
領収書の分析 AnalyzeReceipts Analyze Receipt Async V2.1 サポートされています
名刺の分析 AnalyzeBusinessCards Analyze Business Card Async V2.1 サポートされています
請求書の分析 AnalyzeInvoices Analyze Invoice Async V2.1 サポートされています
身分証明書の分析 AnalyzeIDDocuments identification (ID) document model V2.1 サポートされています
カスタム モデルの一覧表示 ListCustomModels List Custom Models V2.1 サポートされています
カスタム モデルの取得 GetCustomModel Get Custom Models V2.1 サポートされています
カスタム モデルの分析 AnalyzeCustomModel Analyze With Custom Model V2.1 サポートされています


API の種類 SynapseML API Azure AI サービス API (バージョン) DEP VNet のサポート
音声テキスト変換 SpeechToText SpeechToText V1.0 サポートされていません
音声テキスト変換 SDK SpeechToTextSDK Using Speech SDK Version 1.14.0 サポートされていません

Text Analytics

API の種類 SynapseML API Azure AI サービス API (バージョン) DEP VNet のサポート
テキスト センチメント V2 TextSentimentV2 Sentiment V2.0 サポートされています
Language Detector V2 LanguageDetectorV2 Languages V2.0 サポートされています
Entity Detector V2 EntityDetectorV2 Entities Linking V2.0 サポートされています
NER V2 NERV2 Entities Recognition General V2.0 サポートされています
Key Phrase Extractor V2 KeyPhraseExtractorV2 Key Phrases V2.0 サポートされています
テキスト センチメント TextSentiment Sentiment V3.1 サポートされています
Key Phrase Extractor KeyPhraseExtractor Key Phrases V3.1 サポートされています
PII PII Entities Recognition Pii V3.1 サポートされています
NER NER Entities Recognition General V3.1 サポートされています
Language Detector LanguageDetector Languages V3.1 サポートされています
Entity Detector EntityDetector Entities Linking V3.1 サポートされています
