OCR アクション

完了

デスクトップ用 Power Automate には、さまざまな光学式文字認識 (OCR) アクションが用意されており、これを使用してアプリケーションまたはファイルからテキストを検索または抽出できます。

OCR エンジンの作成

OCR 操作を実行するには、OCR エンジンを初期化する必要があります。 OCR エンジンは、タイピングや手書きされた内容を、コンピューターで読み取りや編集ができる形式に変換するために使用するソフトウェア ツールです。

デスクトップ用 Power Automate は、Windows および Google Tesseract エンジンをサポートしており、すべての OCR アクションで Google Tesseract エンジンを初期化できます。 エンジンを初期化するには、その言語を指定して、画像の幅と高さの乗数を設定する必要があります。

画像の乗数は画像のサイズを大きくし、テキストの抽出や検索をより効果的に行います。 乗数は便利なメカニズムですが、大きな値を設定すると失敗する可能性があるため、3 より大きい値は設定しないでください。

OCR を使ってテキストを抽出アクションの Tesseract のオプションのスクリーンショット。

また、他の言語を使うオプションを有効にすると、Tesseract エンジンの使用中に表示される一覧以外の言語を使用できます。 別の言語を使用するには、言語の略語と、各データ ファイルのパスを入力する必要があります。

画面または画像からのテキストの抽出

画面または画像からデータを抽出するには、OCR を使ってテキストを抽出アクションを使用します。 このアクションには、テキストを画面全体、フォアグラウンド ウィンドウ、または画像ファイルから抽出するオプションが用意されています。

画面からテキストを抽出する機能は強力な概念であり、Windows プラットフォーム全体への OCR の適用を可能にします。 抽出はファイルの一覧に限定されませんが、画面に表示される任意のテキストを抽出できます。

アクションのプロパティでは、選択したソース全体、特定のサブ領域、またはイメージに関連するサブ領域からテキストを抽出するかどうかを指定できます。

“OCR でテキストを抽出” アクションのスクリーンショット。

画面またはウィンドウにテキストが表示されるかの確認

OCR アクションを使用すると、テキスト抽出を除き、指定したテキストが画面上またはフォアグラウンド ウィンドウに表示されるかどうかを確認できます。

このツールを使用すると、既存のテキストに基づいて異なる実行パスを適用できます。 たとえば、スキャンされた請求書のクライアント名を確認し、その結果に基づいて特定のアクションを実行できます。

この条件を実装するには、テキストが画面に表示される場合 (OCR) アクションを展開します。 アクションのプロパティで、検索するテキストとそのソースを指定する必要があります。 テキストには、リテラル値または正規表現を使用できます。

また、アクションのプロパティでは、選択したソース全体、特定のサブ領域、またはイメージに関連するサブ領域からテキストを抽出するかどうかを指定できます。

「テキストが画面に表示される場合」アクションのスクリーンショット。

画面にテキストが表示されるまで待機

業務手順を自動化するフローを作成する場合、他のアクションを実行する前にアプリケーションまたは Web ページが読み込まれるまで待機が必要な場合があります。 適切な情報が読み込まれたことを確認せずにアクションを実行すると、フローが失敗する原因となります。

必要な情報が確実に読み込まれるには、テキストが画面に表示されるまで待機 (OCR) アクションを使用できます。

アクションのプロパティでは、定義されたテキストが表示または非表示になるまで待機するかどうかを選択できます。 テキストには、リテラル値または正規表現を使用できます。また、ソースは画面全体またはフォアグラウンド ウィンドウにできます。

「テキストが画面に表示されるまで待機」アクションのスクリーンショット。

また、アクションのプロパティでは、選択したソース全体、特定のサブ領域、またはイメージに関連するサブ領域からテキストを抽出するかどうかを指定できます。

出力として、このアクションは、検出されたテキストの正確な位置を記述する 2 つの変数を生成します。

「テキストが画面に表示されるまで待機」アクションの生成された変数のスクリーンショット。

画面上の定義されたテキストにカーソルを移動

デスクトップ用 Power Automate は、マウスとキーボードのアクションにより、UI アクションに対応していないアプリケーションを自動化できます。 これらのアクションは、厳格なセキュリティ制限を適用するレガシー アプリケーションまたはアプリケーションを自動化するのに役立ちます。

このような状況では、画面上のテキストにマウスを移動するアクションを使用して、カーソルを画面上に移動できます。

アクションのプロパティで、検索するテキストとそのソースを入力する必要があります。 テキストには、リテラル値または正規表現を使用できます。また、ソースは画面全体またはフォアグラウンド ウィンドウにできます。

また、アクションのプロパティでは、選択したソース全体、特定のサブ領域、またはイメージに関連するサブ領域からテキストを抽出するかどうかを指定できます。

「画面上のテキストにマウスを移動」アクションのスクリーンショット。

定義されたソースに同じテキストが複数存在する場合は、発生回数フィールドでどれを選択するかを指定できます。 また、カーソルをすぐに移動するか、アニメーションで移動するかを選択できます。

出力として、このアクションは、検出されたテキストの正確な位置とサイズを記述する 4 つの変数を生成します。