핵심 문구 추출 인식 기술Key Phrase Extraction cognitive skill

핵심 문구 추출 기술은 구조화되지 않은 텍스트를 평가하고 각 레코드에 대해 핵심 문구 목록을 반환합니다.The Key Phrase Extraction skill evaluates unstructured text, and for each record, returns a list of key phrases. 이 기술은 Cognitive Services의 Text Analytics에서 제공하는 기계 학습 모델을 사용합니다.This skill uses the machine learning models provided by Text Analytics in Cognitive Services.

이 기능은 레코드에서 기본 대화 지점을 신속하게 식별해야 하는 경우 유용합니다.This capability is useful if you need to quickly identify the main talking points in the record. 예를 들어 "음식이 맛 있었으며 훌륭한 직원이 있었습니다"라는 입력 텍스트가 있는 경우 서비스는 "음식" 및 "훌륭한 직원"을 반환합니다.For example, given input text "The food was delicious and there were wonderful staff", the service returns "food" and "wonderful staff".

참고

처리 빈도를 늘리거나 문서를 추가하거나 AI 알고리즘을 추가하여 범위를 확장할 때 청구 가능한 Cognitive Services 리소스를 연결해야 합니다.As you expand scope by increasing the frequency of processing, adding more documents, or adding more AI algorithms, you will need to attach a billable Cognitive Services resource. Cognitive Services에서 API를 호출하는 경우와 Azure Cognitiv Search에서 문서 크래킹 단계의 일부로 이미지를 추출하는 경우에는 요금이 부과됩니다.Charges accrue when calling APIs in Cognitive Services, and for image extraction as part of the document-cracking stage in Azure Cognitive Search. 문서에서 텍스트 추출할 때는 요금이 발생하지 않습니다.There are no charges for text extraction from documents.

기본 제공 기술을 실행하는 요금은 기존 Cognitive Services 종량제 가격으로 청구됩니다.Execution of built-in skills is charged at the existing Cognitive Services pay-as-you go price. 이미지 추출 가격 책정은 Azure Cognitiv Search 가격 책정 페이지에 설명되어 있습니다.Image extraction pricing is described on the Azure Cognitive Search pricing page.

@odata.type

Microsoft.Skills.Text.KeyPhraseExtractionSkillMicrosoft.Skills.Text.KeyPhraseExtractionSkill

데이터 제한Data limits

레코드의 최대 크기는 String.Length에 의해 측정된 대로 50,000자여야 합니다.The maximum size of a record should be 50,000 characters as measured by String.Length. 핵심 구문 추출기로 보내기 전에 데이터를 분할해야 할 경우 텍스트 분할 기술 사용을 고려합니다.If you need to break up your data before sending it to the key phrase extractor, consider using the Text Split skill.

기술 매개 변수Skill parameters

매개 변수는 대/소문자를 구분합니다.Parameters are case-sensitive.

입력Inputs DescriptionDescription
defaultLanguageCode (선택 사항) 명시적으로 언어를 지정하지 않은 문서에 적용할 언어 코드입니다.(Optional) The language code to apply to documents that don't specify language explicitly. 기본 언어 코드가 지정되지 않은 경우 영어(en)가 기본 언어 코드로 사용됩니다.If the default language code is not specified, English (en) will be used as the default language code.
지원되는 언어 전체 목록을 참조합니다.See Full list of supported languages.
maxKeyPhraseCount (선택 사항) 생성할 핵심 구문의 최대 수입니다.(Optional) The maximum number of key phrases to produce.

기술 입력Skill inputs

입력Input DescriptionDescription
text 분석할 텍스트입니다.The text to be analyzed.
languageCode 레코드의 언어를 나타내는 문자열입니다.A string indicating the language of the records. 이 매개 변수를 지정하지 않으면 레코드를 분석하는 데 기본 언어 코드가 사용됩니다.If this parameter is not specified, the default language code will be used to analyze the records.
지원되는 언어 전체 목록 참조See Full list of supported languages

기술 출력Skill outputs

출력Output DescriptionDescription
keyPhrases 입력 텍스트에서 추출된 핵심 구문 목록입니다.A list of key phrases extracted from the input text. 핵심 구문은 중요도 순으로 반환됩니다.The key phrases are returned in order of importance.

샘플 정의Sample definition

다음 필드를 포함 하는 SQL 레코드를 고려 하십시오.Consider a SQL record that has the following fields:

{
    "content": "Glaciers are huge rivers of ice that ooze their way over land, powered by gravity and their own sheer weight. They accumulate ice from snowfall and lose it through melting. As global temperatures have risen, many of the world’s glaciers have already started to shrink and retreat. Continued warming could see many iconic landscapes – from the Canadian Rockies to the Mount Everest region of the Himalayas – lose almost all their glaciers by the end of the century.",
    "language": "en"
}

그러면 기술 정의가 다음과 같이 표시 될 수 있습니다.Then your skill definition may look like this:

 {
    "@odata.type": "#Microsoft.Skills.Text.KeyPhraseExtractionSkill",
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      },
      {
        "name": "languageCode",
        "source": "/document/language" 
      }
    ],
    "outputs": [
      {
        "name": "keyPhrases",
        "targetName": "myKeyPhrases"
      }
    ]
  }

샘플 출력Sample output

위의 예제에서 기술 출력은 지정 된 이기 때문에 "document/myKeyPhrases" 라는 보강 트리의 새 노드에 기록 됩니다 targetName .For the example above, the output of your skill will be written to a new node in the enriched tree called "document/myKeyPhrases" since that is the targetName that we specified. 을 지정 하지 않으면 targetName "document/keyPhrases"이 됩니다.If you don’t specify a targetName, then it would be "document/keyPhrases".

문서/myKeyPhrasesdocument/myKeyPhrases

            [
              "world’s glaciers", 
              "huge rivers of ice", 
              "Canadian Rockies", 
              "iconic landscapes",
              "Mount Everest region",
              "Continued warming"
            ]

"Document/myKeyPhrases"를 다른 기술에 대 한 입력으로 사용 하거나 출력 필드 매핑의원본으로 사용할 수 있습니다.You may use "document/myKeyPhrases" as input into other skills, or as a source of an output field mapping.

오류 및 경고Errors and warnings

지원되지 않는 언어 코드를 제공하는 경우 오류가 생성되고 핵심 문구는 추출되지 않습니다.If you provide an unsupported language code, an error is generated and key phrases are not extracted. 텍스트가 비어 있는 경우 경고가 생성됩니다.If your text is empty, a warning will be produced. 텍스트가 50,000자보다 큰 경우 처음 50,000자만 분석하고 경고를 발생합니다.If your text is larger than 50,000 characters, only the first 50,000 characters will be analyzed and a warning will be issued.

참고 항목See also