多言語ドキュメントに OCR を実行する

光学式文字認識 (OCR) を使用すると、画像または画面からテキストを見つけて抽出できます。

ほとんどのシナリオでは特定の言語でテキストを処理する必要がありますが、ソースが多言語である場合もあります。

これらのソースで OCR を実行するには、それぞれの OCR アクションで Tesseract エンジンを使用し、エンジン設定の他の言語を使用するオプションを有効にします。

[OCR を使ってテキストを抽出] アクションの [他の言語を使用する] オプションのスクリーンショット。

他の言語を使用するオプションが有効になっている場合、アクションには、言語の略語フィールドと言語データ パスフィールド 2 つの追加設定が表示されます。

言語の略語フィールドは、OCR 中に検索する言語をエンジンに示します。 言語データ パスフィールドには、OCR エンジンのトレーニングに使用される言語データ ファイル (.traineddata) が含まれます。

[OCR を使ってテキストを抽出] アクションの [言語コード] および [言語データ パス] フィールドのスクリーンショット。

必要な言語のデータ ファイルをダウンロードしたら、それらを共通のフォルダーに移動して、同じパスで使用できるようにします。

次に、言語データ パス フィールドで作成したフォルダーを選択し、対応する言語コードを言語の略語フィールドに入力します。 言語コードを区切るには、プラス文字 (+) を使用します。

Note

利用可能なすべての言語コードは、言語データ ファイルのソースにあります。 次の例では、使用されているコードはテルグ語、ヒンディー語、および英語を表しています。

[OCR を使ってテキストを抽出] アクションの入力された [言語コード] および [言語データ パス] フィールドのスクリーンショット。