Microsoft Purview での光学式文字認識について説明します

[アーティクル]
04/03/2024

光学式文字認識 (OCR) スキャンを使用すると、Microsoft Purview は画像内のコンテンツで機密情報をスキャンできます。オプションの機能である OCR スキャンは、最初にテナントレベルで有効になります。有効にしたら、画像をスキャンする場所を選択します。イメージスキャンは、Exchange、SharePoint、OneDrive、Teams、および Windows デバイスで使用できます。 OCR 設定が構成されると、データ損失防止 (DLP)、レコード管理、およびインサイダーリスク管理 (IRM) の既存のポリシーが画像とテキストベースのコンテンツに適用されます。たとえば、DLP 条件 コンテンツに機密情報が含まれ 、"クレジットカード" 機密情報の種類 (SIT) などのデータ分類子が含まれているとします。この場合、Microsoft Purview は、選択したすべての場所のテキストと画像の両方でクレジットカード番号をスキャンします。

ワークフローの概要

フェーズ	前提条件
フェーズ 1: 必要に応じて Azure サブスクリプションを作成する	organizationにテナントの従量課金制サブスクリプションがまだない場合は、グローバル管理者が Azure アカウントを作成することから始める必要があります。
フェーズ 2: OCR を有効にするために従量課金制を設定します。	グローバル管理者または SharePoint 管理者は、「Azure で課金Microsoft Syntex設定する」の手順に従って、OCR のサブスクリプションを追加する必要があります。
フェーズ 3: OCR スキャン設定を構成する	organizationのコンプライアンス管理者は、テナントの OCR 設定を構成します。

フェーズ 1: 前提条件

OCR スキャンを使用するには、organizationのグローバル管理者が、Azure 従量課金制サブスクリプションが実施されていることを確認する必要があります。そうでない場合は、「最初の Azure サブスクリプションを作成する」の手順に従って設定する必要があります。

フェーズ 2: 課金を構成する

OCR を有効にすると、すべての機密情報の種類とトレーニング可能な分類子で、画像内の文字を検出できます。

これはオプションの機能であるため、グローバル管理者は、OCR を有効にするために従量課金制を設定する必要があります。 OCR のサブスクリプションを追加するには、「Azure で課金Microsoft Syntex設定する」の手順を参照してください。

注:

Microsoft Syntexに課金情報を入力すると、コンプライアンス管理者は、追加のセットアップやライセンス要件なしで、Microsoft Purview で OCR を構成できます。

OCR 従量課金制の価格情報については、「Azure での課金Microsoft Syntex設定」ページを参照してください。

料金

OCR の使用料金は、スキャンされた 1,000 項目ごとに $1.00 です。スキャンされた各イメージは、1 つのトランザクションとしてカウントされます。つまり、スタンドアロンイメージ (JPEG、JPG、PNG、BMP、TIFF) はそれぞれ 1 つのトランザクションとしてカウントされます。また、PDF ファイル内の 各ページ は個別に課金されます。たとえば、PDF ファイルに 10 ページがある場合、PDF ファイルの OCR スキャンは 10 個の個別スキャンとしてカウントされます。

注:

OCR コストを削減するために、一意の各画像をスキャンするための料金は 1 回だけ発生します。

Microsoft Exchange 経由で電子メールで送信されるロゴや署名などの小さな画像は、テナントのすべてのユーザーの一意の画像ごとに 1 回だけスキャンおよび課金されます。後続のすべてのインスタンスでは、前のスキャンの結果が再利用されます。

さらに、スキャンされた各イメージは、データ損失防止、インサイダーリスク管理、自動ラベル付け、レコード管理に関する任意の数のポリシーで追加料金なしで使用できます。

重要

PDF ファイルでMicrosoft Purview データ損失防止 (DLP) 機能を使用するための Adobe の要件については、Adobe: Microsoft Purview 情報保護サポートの記事を参照してください。

請求書を表示するには、「従量課金制の使用状況をMicrosoft Syntex監視する」で説明されている手順に従います。

請求書の見積もり

OCR の使用を初めて開始するときは、使用量を少数のユーザーと該当するワークロードのみに制限します。しばらくすると、Azure で請求書を表示し、毎日の使用量統計 & 料金を確認できます。そこから、ユーザーの完全なセットのコストを推定できます。さらに、Azure コスト管理の "ワークロード" タグを使用して、ワークロードごとの使用状況の内訳を確認できます。

フェーズ 3: OCR 設定を構成する

Microsoft Purview コンプライアンスポータルで、[設定] に移動します。
OCR 構成設定を入力するには、[ 光学式文字認識 (OCR)] を選択します。
画像をスキャンする場所を選択します。
OCR スキャンに含めたり、OCR スキャンから除外したりする配布グループを選択します。
[ 完了] を選択します

サポートされている場所とソリューションを次の表に示します。

アクセス許可

ポリシーの作成と展開に使用するアカウントは、これらのロールグループの 1 つのメンバーである必要があります

コンプライアンス管理者
コンプライアンスデータ管理者
グローバル管理者
情報保護
Information Protection 管理者

注:

一般に、OCR 設定はオンになってから約 1 時間後に有効になります。
Microsoft Purview コミュニケーションコンプライアンスの OCR 機能の詳細については、「コミュニケーションコンプライアンスポリシーの作成と管理」を参照してください。

サポートされている場所とソリューション

場所	サポートされているソリューション
Exchange	データ損失防止情報保護: 自動ラベル付けポリシーレコード管理: 保持ラベルポリシーを自動適用する¹
SharePoint サイト	データ損失防止インサイダーリスク管理² レコード管理: 保持ラベルポリシーを自動適用する¹
OneDrive アカウント	データ損失防止レコード管理: 保持ラベルポリシーを自動適用する¹
Teams チャットおよびチャネルメッセージ	データ損失防止インサイダーリスク管理²
デバイス	データ損失防止インサイダーリスク管理²

¹ キーワードと機密情報の種類をサポートします。
² リスクスコアリングのために、画像に存在する機密情報の種類とトレーニング可能な分類子を考慮します。

サポートされているファイルの種類は何ですか?

この機能では、次のファイルの種類の画像のスキャンがサポートされています。特に説明されている要件があります。

サポートされているファイルの種類	イメージの要件
JPEG、JPG、PNG、BMP、TIFF、PDF (画像のみ)	ファイルサイズ: Exchange および Teams のイメージファイルは、20 MB 以下にする必要があります。 SharePoint、OneDrive、および Windows エンドポイントの場合、最大イメージファイルサイズは 50 MB です。画像の解像度: 画像の解像度は 50 x 50 ピクセル以上で、16,000 x 16,000 ピクセル以下である必要があります。

サポートされているファイルの種類

イメージの要件

JPEG、JPG、PNG、BMP、TIFF、PDF (画像のみ)

ファイルサイズ: Exchange および Teams のイメージファイルは、20 MB 以下にする必要があります。 SharePoint、OneDrive、および Windows エンドポイントの場合、最大イメージファイルサイズは 50 MB です。

画像の解像度: 画像の解像度は 50 x 50 ピクセル以上で、16,000 x 16,000 ピクセル以下である必要があります。

重要

OCR が有効になった後にアップロードされた画像のみがスキャンされます。
受信メール (organization外のユーザーからの電子メール) と送信メール (organization内のユーザーから送信された電子メール) の両方が OCR スキャンの対象となります。 OCR スキャンを送信メールのみに制限するには、[ すべての配布グループ ] の既定のスコープから特定の配布グループに OCR 設定を変更し、OCR でスキャンする内部配布グループを指定します。この構成の変更については、「フェーズ 3: OCR 設定を構成する」を参照してください。
Exchange のイメージでは、データ損失防止ポリシーのヒントはサポートされていません。
エンドポイントデータ損失防止設定でパスを除外した場合、OCR はそれらのフォルダー内の画像をスキャンしません。
Windows デバイスで OCR が有効になっていると、デバイスはスキャンのためにクラウドへのメッセージの送信を開始します。既定の帯域幅制限は、デバイスあたり 1 日あたり 1024 MB のデータです。 OCR は、この 1 日の制限に達すると画像のスキャンを停止します。画像のスキャンを続行する場合は、帯域幅の制限を増やすことができます。

サポートされている言語は何ですか?

OCR スキャンでは、150 を超える言語がサポートされています。

概要

OCR を使用するには、従量課金制Microsoft Syntex設定する必要があります。 (Microsoft Syntex自体を設定する必要はありません)。
OCR の構成はテナントレベルで行われるため、OCR が構成されると、Microsoft Purview スタック全体で使用できます。
OCR 用に個別のデータ分類子を作成する必要はありません。 OCR を構成すると、既存の機密情報の種類、正確なデータ一致に基づく機密情報の種類、トレーニング可能な分類子、指紋の SID によって、画像とドキュメントと電子メールがスキャンされます。