핵심 구 추출 인지 기술

아티클
11/15/2023

핵심 구 추출 기술은 구조화되지 않은 텍스트를 평가하고 각 레코드에 대해 핵심 구 목록을 반환합니다. 이 기술은 Azure AI Language에서 제공하는 핵심 구 기계 학습 모델을 사용합니다.

이 기능은 레코드에서 기본 대화 지점을 신속하게 식별해야 하는 경우 유용합니다. 예를 들어 "음식이 맛 있었으며 훌륭한 직원이 있었습니다"라는 입력 텍스트가 있는 경우 서비스는 "음식" 및 "훌륭한 직원"을 반환합니다.

참고 항목

이 기술은 Azure AI 서비스에 바인딩되며 하루에 인덱서당 20개의 문서를 초과하는 트랜잭션에 대해 청구 가능한 리소스가 필요합니다. 기본 제공 기술의 실행은 기존 Azure AI 서비스 종량제 가격으로 청구됩니다.

@odata.type

Microsoft.Skills.Text.KeyPhraseExtractionSkill

데이터 제한

레코드의 최대 크기는 String.Length에 의해 측정된 대로 50,000자여야 합니다. 핵심 구 추출기로 보내기 전에 데이터를 분리해야 하는 경우 텍스트 분할 기술을 사용하는 것이 좋습니다. 텍스트 분할 기술을 사용하는 경우 최상의 성능을 위해 페이지 길이를 5000으로 설정합니다.

기술 매개 변수

매개 변수는 대/소문자를 구분합니다.

입력	설명
`defaultLanguageCode`	(선택 사항) 언어를 명시적으로 지정하지 않는 문서에 적용할 언어 코드입니다. 기본 언어 코드를 지정하지 않으면 영어(en)가 기본 언어 코드로 사용됩니다. 지원되는 언어 전체 목록을 참조하세요.
`maxKeyPhraseCount`	(선택 사항) 생성할 키 구의 최대 수입니다.
`modelVersion`	(선택 사항) 핵심 구 API를 호출할 때 사용할 모델의 버전을 지정합니다. 지정하지 않으면 기본적으로 사용 가능한 최신 버전으로 설정됩니다. 필요한 경우가 아니면 이 값을 지정하지 않는 것이 좋습니다.

기술 입력

입력	설명
`text`	분석할 텍스트입니다.
`languageCode`	레코드의 언어를 나타내는 문자열입니다. 이 매개 변수를 지정하지 않으면 기본 언어 코드가 레코드를 분석하는 데 사용됩니다. 지원되는 언어 전체 목록을 참조하세요.

기술 출력

출력	설명
`keyPhrases`	입력 텍스트에서 추출된 핵심 구 목록입니다. 핵심 구는 중요도 순으로 반환됩니다.

샘플 정의

다음 필드가 있는 SQL 레코드를 고려합니다.

{
    "content": "Glaciers are huge rivers of ice that ooze their way over land, powered by gravity and their own sheer weight. They accumulate ice from snowfall and lose it through melting. As global temperatures have risen, many of the world’s glaciers have already started to shrink and retreat. Continued warming could see many iconic landscapes – from the Canadian Rockies to the Mount Everest region of the Himalayas – lose almost all their glaciers by the end of the century.",
    "language": "en"
}

그러면 기술 정의가 다음과 같이 표시될 수 있습니다.

 {
    "@odata.type": "#Microsoft.Skills.Text.KeyPhraseExtractionSkill",
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      },
      {
        "name": "languageCode",
        "source": "/document/language" 
      }
    ],
    "outputs": [
      {
        "name": "keyPhrases",
        "targetName": "myKeyPhrases"
      }
    ]
  }

샘플 출력

이전 예제에서는 기술 출력이 "document/myKeyPhrases" targetName 라는 보강된 트리의 새 노드에 기록됩니다. 지정 targetName하지 않으면 "document/keyPhrases"가 됩니다.

document/myKeyPhrases

[
  "world’s glaciers", 
  "huge rivers of ice", 
  "Canadian Rockies", 
  "iconic landscapes",
  "Mount Everest region",
  "Continued warming"
]

"document/myKeyPhrases"를 다른 기술에 대한 입력으로 사용하거나 출력 필드 매핑의 원본으로 사용할 수 있습니다.

경고

지원되지 않는 언어 코드를 제공하는 경우 경고가 생성되고 핵심 구가 추출되지 않습니다. 텍스트가 비어 있으면 경고가 생성됩니다. 텍스트가 50,000자보다 큰 경우 처음 50,000자만 분석되고 경고가 발생합니다.