インデックス作成中のテキストとイメージの処理用の組み込みのコグニティブ スキル (Azure Cognitive Search)Built-in cognitive skills for text and image processing during indexing (Azure Cognitive Search)

この記事では、Azure Cognitive Search で提供される、コンテンツと構造を抽出するスキルセットに含めることのできるコグニティブ スキルについて説明します。In this article, you learn about the cognitive skills provided with Azure Cognitive Search that you can include in a skillset to extract content and structure. コグニティブ スキルは、なんらかの方法でコンテンツを変換するモジュールまたは操作です。A cognitive skill is a module or operation that transforms content in some way. 多くの場合、これはデータの抽出や構造の推論を行うコンポーネントであるため、入力データの解釈を強化することになります。Often, it is a component that extracts data or infers structure, and therefore augments our understanding of the input data. ほとんどの場合、出力はテキスト ベースです。Almost always, the output is text-based. スキルセットは、エンリッチメント パイプラインを定義するスキルのコレクションです。A skillset is collection of skills that define the enrichment pipeline.


処理の頻度を増やす、ドキュメントを追加する、または AI アルゴリズムを追加することによってスコープを拡大する場合は、課金対象の Cognitive Services リソースをアタッチする必要があります。As you expand scope by increasing the frequency of processing, adding more documents, or adding more AI algorithms, you will need to attach a billable Cognitive Services resource. Cognitive Services の API を呼び出すとき、および Azure Cognitive Search のドキュメント解析段階の一部として画像抽出するときに、料金が発生します。Charges accrue when calling APIs in Cognitive Services, and for image extraction as part of the document-cracking stage in Azure Cognitive Search. ドキュメントからのテキストの抽出には、料金はかかりません。There are no charges for text extraction from documents.

組み込みスキルの実行は、既存の Cognitive Services の従量課金制の価格で課金されます。Execution of built-in skills is charged at the existing Cognitive Services pay-as-you go price. 画像抽出の価格は、Azure Cognitive Search の価格に関するページで説明されています。Image extraction pricing is described on the Azure Cognitive Search pricing page.

インクリメンタル エンリッチメント (プレビュー) 機能を使用するとキャッシュを提供できます。それにより、インデクサーがコグニティブ スキル (将来、スキルセットを変更する場合に必要) のみを効率的に実行できるようになり、時間とコストが節約されます。The incremental enrichment (preview) feature allows you to provide a cache that enables the indexer to be more efficient at running only the cognitive skills that are necessary if you modify your skillset in the future, saving you time and money.

組み込みのスキルBuilt-in skills

いくつかのスキルは、何を消費または生成するかに関して柔軟性があります。Several skills are flexible in what they consume or produce. 通常、ほとんどのスキルはトレーニング済みモデルに基づいています。これは、独自のトレーニング データを使用したモデルのトレーニングはできないことを意味します。In general, most skills are based on pre-trained models, which means you cannot train the model using your own training data. 次の表で、Microsoft が提供するスキルを列挙し、それらについて説明します。The following table enumerates and describes the skills provided by Microsoft.

スキルSkill 説明Description
Microsoft.Skills.Text.CustomEntityLookupSkillMicrosoft.Skills.Text.CustomEntityLookupSkill ユーザーが定義したカスタムの単語と語句のリストからテキストを検索します。Looks for text from a custom, user-defined list of words and phrases.
Microsoft.Skills.Text.KeyPhraseSkillMicrosoft.Skills.Text.KeyPhraseSkill このスキルでは、トレーニング済みモデルを使用し、語句の配置、言語規則、他の語句との近さ、ソース データ内での語句の不自然さの程度に基づいて、重要な語句を検出します。This skill uses a pretrained model to detect important phrases based on term placement, linguistic rules, proximity to other terms, and how unusual the term is within the source data.
Microsoft.Skills.Text.LanguageDetectionSkillMicrosoft.Skills.Text.LanguageDetectionSkill このスキルでは、トレーニング済みモデルを使用し、使用されている言語を検出します (ドキュメントごとに 1 つの言語 ID)。This skill uses a pretrained model to detect which language is used (one language ID per document). 同じテキスト セグメント内で複数の言語が使用されている場合、出力は、主に使用されている言語の LCID になります。When multiple languages are used within the same text segments, the output is the LCID of the predominantly used language.
Microsoft.Skills.Text.MergeSkillMicrosoft.Skills.Text.MergeSkill フィールドのコレクションからのテキストを 1 つのフィールドに統合します。Consolidates text from a collection of fields into a single field.
Microsoft.Skills.Text.EntityRecognitionSkillMicrosoft.Skills.Text.EntityRecognitionSkill このスキルでは、トレーニング済みモデルを使用し、人、場所、組織、メール、URL、日時のフィールドから成るカテゴリの固定したセットに対してエンティティを確立します。This skill uses a pretrained model to establish entities for a fixed set of categories: people, location, organization, emails, URLs, datetime fields.
Microsoft.Skills.Text.PIIDetectionSkillMicrosoft.Skills.Text.PIIDetectionSkill このスキルは、事前トレーニングされたモデルを使用して、特定のテキストから個人情報を抽出します。This skill uses a pretrained model to extract personal information from a given text. また、このスキルには、テキスト内で検出された個人情報エンティティをマスクするためのさまざまなオプションも用意されています。The skill also gives various options for masking the detected personal information entities in the text.
Microsoft.Skills.Text.SentimentSkillMicrosoft.Skills.Text.SentimentSkill このスキルでは、トレーニング済みモデルを使用し、レコード単位で肯定的または否定的センチメントのスコア付けを行います。This skill uses a pretrained model to score positive or negative sentiment on a record by record basis. スコアは 0 と 1 の間です。The score is between 0 and 1. センチメントを検出できない null の場合と、中立と見なさるテキストの両方に対して、中立のスコアが生成されます。Neutral scores occur for both the null case when sentiment cannot be detected, and for text that is considered neutral.
Microsoft.Skills.Text.SplitSkillMicrosoft.Skills.Text.SplitSkill コンテンツを徐々に強化または拡張できるように、テキストをページに分割します。Splits text into pages so that you can enrich or augment content incrementally.
Microsoft.Skills.Text.TranslationSkillMicrosoft.Skills.Text.TranslationSkill このスキルは、正規化やローカライズのユース ケース向けに、トレーニング済みモデルを使用して入力テキストをさまざまな言語に翻訳します。This skill uses a pretrained model to translate the input text into a variety of languages for normalization or localization use cases.
Microsoft.Skills.Vision.ImageAnalysisSkillMicrosoft.Skills.Vision.ImageAnalysisSkill このスキルでは、画像検出アルゴリズムを使用して画像の内容を識別し、テキストの説明を生成します。This skill uses an image detection algorithm to identify the content of an image and generate a text description.
Microsoft.Skills.Vision.OcrSkillMicrosoft.Skills.Vision.OcrSkill 光学式文字認識。Optical character recognition.
Microsoft.Skills.Util.ConditionalSkillMicrosoft.Skills.Util.ConditionalSkill 条件に基づくフィルター処理、既定値の割り当て、データのマージを行うことができます。Allows filtering, assigning a default value, and merging data based on a condition.
Microsoft.Skills.Util.DocumentExtractionSkillMicrosoft.Skills.Util.DocumentExtractionSkill エンリッチメント パイプライン内のファイルからコンテンツを抽出します。Extracts content from a file within the enrichment pipeline.
Microsoft.Skills.Util.ShaperSkillMicrosoft.Skills.Util.ShaperSkill 出力を複合型 (フル ネーム、複数行の住所、または姓と個人識別子の組み合わせに使用される可能性があるマルチパート データ型) にマップします。Maps output to a complex type (a multi-part data type, which might be used for a full name, a multi-line address, or a combination of last name and a personal identifier.)
Microsoft.Skills.Custom.WebApiSkillMicrosoft.Skills.Custom.WebApiSkill カスタム Web API に対して HTTP 呼び出しを行うことで、AI エンリッチメント パイプラインを拡張することができますAllows extensibility of an AI enrichment pipeline by making an HTTP call into a custom Web API
Microsoft.Skills.Custom.AmlSkillMicrosoft.Skills.Custom.AmlSkill Azure Machine Learning モデルで AI エンリッチメント パイプラインを拡張できるようにしますAllows extensibility of an AI enrichment pipeline with an Azure Machine Learning model

カスタム スキル作成のガイダンスについては、カスタム インターフェイスの定義方法AI エンリッチメント用のカスタム スキルを作成する方法に関する記事を参照してください。For guidance on creating a custom skill, see How to define a custom interface and Example: Creating a custom skill for AI enrichment.

関連項目See also