텍스트에서 N-Gram 기능 추출

N-영문법 사전 기능을 만들고 기능을 선택 합니다.

범주: Text Analytics

참고

적용 대상: Machine Learning Studio (클래식)

이 콘텐츠는 Studio (클래식)에만 해당 됩니다. Azure Machine Learning 디자이너에는 비슷한 끌어서 놓기 모듈이 추가 되었습니다. 이 문서에서는 두 가지 버전을 비교 하는방법에 대해 자세히 알아보세요.

모듈 개요

이 문서에서는 Azure Machine Learning Studio (클래식)의 텍스트 모듈에서 N-영문법 기능 추출피쳐화 텍스트를 사용 하 고 긴 텍스트 문자열에서 가장 중요 한 정보 부분만 추출 하는 방법을 설명 합니다.

이 모듈은 입력으로 지정 하는 자유 텍스트 열에서 n 그램 사전을 만드는 방식으로 작동 합니다. 이 모듈은 다양 한 정보 메트릭을 n-영문법 목록에 적용 하 여 데이터 차원을 줄이고 대부분의 정보 값이 있는 n-그램을 식별 합니다.

N-그램의 어휘를 이미 만든 경우 해당 통계를 업데이트 하거나 원하는 가중치 알고리즘을 사용 하 여 새 용어로 병합할 수 있습니다.

이 모듈은 n 그램에서 기능화을 지원 하므로 점수를 매길 때에도 사용할 수 있습니다.

텍스트에서 추출 N-영문법 기능을 구성 하는 방법

이러한 모듈은 n-영문법 사전을 생성, 업데이트 또는 적용 하는 다음과 같은 시나리오를 지원 합니다.

  • 자유 텍스트 열의 열을 사용 하 여 새 모델을 개발 하 고 입력 데이터를 기반으로 하는 텍스트 기능을 추출 하려고 합니다. 지침을 참조 하세요.

  • 기존 텍스트 기능 집합이 있고 새 텍스트 입력을 처리 하 여 가중치를 업데이트 하려고 합니다. 지침을 참조 하세요.

  • 예측 모델에서 점수를 생성 하 고 점수 매기기 프로세스의 일부로 n-영문법 사전을 사용 하 여 텍스트 입력을 생성 하 고 사용 해야 합니다. 지침을 참조 하세요.

예제 실험 을 사용 하 여 참조할 수 있습니다.

텍스트 열에서 새 n-영문법 사전 만들기

  1. 텍스트 모듈 의 추출 N-문법 기능 을 실험에 추가 하 고 처리 하려는 텍스트가 포함 된 데이터 집합을 연결 합니다.

  2. 텍스트 열 에서 추출할 텍스트가 포함 된 문자열 형식의 열을 선택 합니다.

    기본적으로 모듈은 모든 문자열 열을 선택 합니다. 그러나 결과가 verbose 이기 때문에 한 번에 하나의 열을 처리 해야 할 수도 있습니다.

  3. 어휘 모드 의 경우 만들기 를 선택 하 여 n-문법 기능의 새 목록을 만들도록 지정 합니다.

    기존 n-영문법 기능 집합을 업데이트 하는 방법에 대 한 자세한 내용은 이 섹션을 참조 하세요.

  4. N 그램 크기 의 경우 추출 하 고 저장할 n 그램의 최대 크기를 나타내는 숫자를 입력 합니다.

    예를 들어,를 입력 하는 경우에는를 입력 3 합니다.

  5. K-Skip 크기 의 경우 n 그램의 변형을 식별할 때 다를 수 있는 최대 문자 수를 입력 합니다. K 값이 0으로 설정 된 경우 n-그램은 연속 된 고유 문자 시퀀스 에서만 만들 수 있습니다.

    예를 들어 사전에 "컴퓨터"가 포함 되어 있다고 가정 합니다. K 값이 0 이면 "computer"가 유일 하 게 유효한 단일 값 인 경우입니다. K 값을 1로 늘리면 더 유사한 시퀀스를 찾을 수 있는 한 가지 문자를 건너뛸 수 있습니다. K 값이 1 인 skip-영문법은 0-k 전체 문법에서 한 문자씩 다릅니다. 따라서 skip-그램 "conputer" 및 "compuuter"는 둘 다 "computer"와 동일한 사전 항목의 일부로 간주 됩니다. K 값을 2로 설정 하면 더 다른 단어와도 일치 하 게 됩니다.

    텍스트 분석에서 생략-그램을 사용 하는 방법에 대 한 자세한 내용은 다음 문서를 참조 하세요. 감독 된 어휘 정규화를 위한 후보 생성 및 기능 엔지니어링

  6. 가중치가 있는 함수 는 어휘를 병합 하거나 업데이트 하는 경우에만 필요 합니다. 두 어휘에 있는 용어와 해당 점수가 서로 가중치를 적용 하는 방법을 지정 합니다.

  7. 최소 단어 길이 에는 분석할 수 있는 문자열의 최소 단어 길이를 입력 합니다.

    예를 들어 최소 단어 길이를 3 (기본값)으로 설정 하 고 한 단어를 포함 하는 한 개의 입력 및 "좋은 장소"와 같은 짧은 텍스트가 있는 다른 입력이 있다고 가정 합니다. 두 행이 모두 무시 됩니다.

  8. 최대 단어 길이 에 대해 n-문법의 한 단어 에 사용할 수 있는 최대 문자 수를 입력 합니다.

    기본적으로 단어 또는 토큰 당 최대 25 자까지 허용 됩니다. 실제 어휘 항목이 아닌 임의의 문자 시퀀스 라고 가정 하면 제거 되는 단어 보다 깁니다.

  9. 최소 n-영문법 문서 절대 빈도 에 대해 임의의 단일 단어 또는 토큰을 n-영문법 사전에 포함 하는 데 필요한 최소 발생 횟수를 나타내는 숫자를 입력 합니다.

    예를 들어 기본값 5를 사용 하는 경우 n-영문법 또는 skip-영문법은 모음에 5 번 이상 표시 되어야 n-영문법 사전에 포함 됩니다.

  10. 최대 n-영문법 문서 비율 에 대해이 비율을 나타내는 숫자를 입력 합니다 .이 비율을 포함 하는 행의 수는 전체 모음의 행 수에 해당 합니다.

    예를 들어 비율 1은 특정 n-영문법이 모든 행에 있는 경우에도 n-영문법을 n-영문법 사전에 추가할 수 있음을 나타냅니다. 일반적으로 모든 행에서 발생 하는 단어는 의미 없는 단어로 간주 되 고 제거 됩니다. 도메인 종속 의미 없는 단어를 필터링 하려면이 비율을 줄여 보세요.

    중요

    특정 단어의 발생 비율은 균일 하지 않지만 문서 마다 다릅니다. 예를 들어 특정 제품에 대 한 고객 의견을 분석 하는 경우 제품 이름은 매우 높은 빈도가 되 고 의미 없는 단어에 근접 하 고 다른 컨텍스트에서는 중요 한 용어가 될 수 있습니다.

  11. N-영문법 어휘에 없는 단어를 포함 하는 모든 행에 대 한 표시기를 생성 하려는 경우 ("어휘 바깥쪽") 단어를 검색 하는 옵션을 선택 합니다.

    모든 lexicons 유한 합니다. 따라서 텍스트 모음는 사전순 또는 n-영문법 사전에 없는 단어를 포함 하도록 거의 보장 됩니다. 그러나 이러한 단어는 언어 모델에 다양 한 영향을 미칠 수 있습니다 (예: 도메인에 따라 이러한 원하는 v 단어는 중요 한 콘텐츠 단어를 나타낼 수 있습니다.

    이러한 단어가 포함 된 행을 식별 하 여 이러한 용어의 효과를 보정 하거나 사용 약관 및 관련 행을 개별적으로 처리할 수 있습니다.

  12. 문장의 시작 표시 옵션을 선택 하 여 n-영문법 사전에서 문장의 시작을 나타내는 특수 문자 시퀀스를 추가 합니다. 특수 문자를 사용 하 여 문장을 시작 하는 접두사 n-그램은 텍스트 분석에서 일반적 이며 discourse 경계를 분석 하는 데 유용할 수 있습니다.

    Azure ML Studio (클래식)은 기호를 삽입 ||| 합니다. 사용자 지정 문자를 지정할 수 없습니다.

  13. 기능 벡터를 정규화 하려면 n-문법 기능 벡터 정규화 옵션을 선택 합니다. 이 작업을 수행 하는 경우 각각의 n-영문법 기능 벡터를 L2로 나눕니다.

    기본적으로 정규화가 사용 됩니다.

  14. 텍스트 기능 벡터의 크기를 관리 하는 추가 옵션을 사용 하도록 설정 하려면 필터 기반 기능 선택 사용True 로 설정 합니다.

    • 기능 선택은 n 그램의 차원을 줄이는 데 도움이 될 수 있습니다.
    • 필터 선택 항목을 적용 하지 않으면 가능한 모든 n 그램이 생성 되 고, 사전을 더 길게 만들고 자주 사용 하지 않는 여러 용어를 포함 하는 비용이 늘어납니다.
    • 작은 모음에서 기능 선택을 사용 하면 생성 되는 용어 수를 크게 줄일 수 있습니다.
    • 자세한 내용은 필터 기반 기능 선택을 참조 하세요.

    기능 선택을 사용 하는 경우 기능 점수 매기기 방법 드롭다운 목록에서 메서드를 선택 해야 합니다.

    • PearsonCorrelation: 레이블 열 값 및 텍스트 벡터에 따라 피어슨 상관 관계를 계산 합니다.
    • MutualInformation: 레이블 열 값 및 텍스트 벡터에 따라 상호 정보 점수를 계산 합니다.
    • Kendallcorrelation 관계: 레이블 열 값 및 텍스트 벡터에 따라 Kendall의 상관 관계를 계산 합니다.
    • SpearmanCorrelation: 레이블 열 값 및 텍스트 벡터에 따라 스페어만 상관 관계를 계산 합니다.
    • ChiSquared: 카이 제곱 메서드를 사용 하 여 레이블 열 값과 텍스트 벡터 간의 상관 관계를 계산 합니다.
    • FisherScore: 레이블 열 값 및 텍스트 벡터의 피셔 점수를 계산 합니다.
    • 개수 기반 기능 선택: 값의 개수를 기준으로 새 기능을 만듭니다. 이 메서드에는 레이블 열이 필요 하지 않습니다.

    선택한 방법에 따라 다음 옵션 중 하나를 설정 합니다.

    • 원하는 기능 수: 개수 기반 기능 선택 이외의 기능 선택 방법을 사용 하는 경우 필요 합니다.

      기능 선택 과정에서 모든 n 그램은 기능 점수를 가져오고 n-그램은 점수를 기준으로 순위가 매겨집니다. 여기서 설정한 값에 따라 가장 많이 순위가 높은 기능 중에서 출력 되는 기능 수가 결정 됩니다. 더 낮은 기능 점수가 있는 N-그램은 무시 됩니다.

    • 0이 아닌 최소 요소 수: 개수 기반 기능 선택을 사용 하는 경우 필요 합니다.

      잠재적 기능에 대해 표로 수를 계산 하는 데 필요한 총 인스턴스 수를 나타내는 정수를 입력 합니다.

  15. 실험을 실행합니다.

    결과 및 해당 형식에 대 한 설명은 이 섹션 을 참조 하세요.

기존 n-영문법 사전을 업데이트 하거나 사전을 병합 합니다.

  1. 텍스트 모듈 의 추출 N-문법 기능 을 실험에 추가 하 고 처리 하려는 텍스트가 포함 된 데이터 집합을 데이터 집합 포트에 연결 합니다.

  2. 텍스트 열 에 대해 피쳐화 할 텍스트가 포함 된 텍스트 열을 선택 합니다. 기본적으로 모듈은 문자열 형식의 모든 열을 선택 합니다. 최상의 결과를 위해 한 번에 하나의 열을 처리 합니다.

  3. 이전에 생성 된 n-영문법 사전을 포함 하는 저장 된 데이터 집합을 추가 하 고 입력 어휘 포트에 연결 합니다. 텍스트 모듈에서 Extract N-문법 기능의 업스트림 인스턴스의 결과 어휘 출력을 연결할 수도 있습니다.

    어휘를 병합 하거나 업데이트 하려면 입력 어휘 스키마가 예상 된 형식과 정확 하 게 일치 해야 합니다. 에서 열을 제거 하거나 입력 어휘에 열을 추가 하지 마십시오.

  4. 어휘 모드 의 경우 드롭다운 목록에서 다음 업데이트 옵션 중 하나를 선택 합니다.

    • ReadOnly: 입력 어휘를 기준으로 입력 모음 나타냅니다. 즉, 새 텍스트 데이터 집합 (왼쪽 입력)에서 용어 빈도를 계산 하는 대신 입력 어휘의 n-영문법 가중치가 그대로 적용 됩니다.

      텍스트 분류자의 점수를 매길 때이 옵션을 사용 합니다.

    • 업데이트: 입력 모음에서 새 n-영문법 용어 모음을 만들고 입력 어휘와 병합 합니다. 즉, 입력 어휘에서 만든 어휘에 새 항목을 추가 하거나 기존 항목을 업데이트할 수 있습니다.

      들어오는 데이터 일괄 처리를 사용 하는 어휘 증분 업데이트의 경우이 옵션을 사용 합니다.

    • Merge: 입력 모음 새 n-영문법 용어 모음을 생성 합니다.

      이 옵션은 백그라운드 어휘를 모듈에 입력으로 전달 하 고 중지 단어의 가중치를 줄이려는 경우에 유용 합니다. 즉, 배경 어휘에 문서 빈도 점수가 높은 각 항목에는 생성 된 어휘에서 낮은 역 문서 빈도 점수가 할당 됩니다.

      입력에서 만든 어휘에 새 항목을 추가 하지 않고 기존 항목의 점수를 조정 하려는 경우에만이 옵션을 사용 합니다.

  5. 어휘를 병합 하거나 업데이트 하는 경우 가중치 함수 선택 옵션이 필요 합니다. 가중치 함수는 두 어휘에서 DF 및 IDF 점수가 서로 가중치를 적용 하는 방법을 지정 합니다.

    • 이진 가중치: 추출 된 n 그램에 이진 상태 값을 할당 합니다. 즉, 각 n-영문법의 값은 지정 된 문서에 있는 경우 1이 고, 그렇지 않으면 0입니다.
    • Tf 가중치: 추출 된 n 그램에 용어-빈도 점수 (TF)를 할당 합니다. 각 n-영문법의 값은 지정 된 문서에서 발생 빈도입니다.
    • IDF 가중치: 추출 된 n 그램에 역 문서 주기 점수 (IDF)를 할당 합니다. 각 n-영문법의 값은 전체 모음의 발생 빈도에 따라 나눈 모음 크기의 로그입니다. 말하자면: IDF = log of corpus_size / document_frequency
    • Tf-Idf 가중치: 추출 된 n 그램에 용어 빈도/역 문서 빈도 점수 (TF/IDF)를 할당 합니다. 각 n-영문법의 값은 해당 TF 점수를 IDF 점수에 곱한 값입니다.
    • 그래프 가중치: TextRank Graph 순위에 따라 추출 된 n 그램에 점수를 할당 합니다. TextRank는 텍스트 처리를 위한 그래프 기반 순위 모델입니다. 그래프 기반 순위 알고리즘은 기본적으로 글로벌 정보를 기준으로 중요도를 결정 하는 방법입니다. 자세한 내용은 TextRank: Rada Mihalcea 및 Paul Tarau를 기준으로 텍스트에 주문 가져오기 를 참조 하세요.
  6. 다른 모든 옵션은 이전 섹션의 속성 설명을 참조 하세요.

  7. 실험을 실행합니다.

    결과 및 해당 형식에 대 한 설명은 이 섹션 을 참조 하세요.

N 그램을 사용 하는 모델 점수 매기기 또는 게시

  1. 텍스트 모듈의 추출 N-문법 기능 을 학습 데이터 흐름에서 점수 흐름 데이터 흐름에 복사 합니다.

  2. 학습 데이터 흐름의 결과 어휘 출력을 점수 흐름 데이터 흐름의 입력 어휘 에 연결 합니다.

  3. 점수 매기기 워크플로에서 텍스트 모듈에서 N-문법 풀기 기능 을 수정 하 고 이러한 변경을 수행 하 여 다른 모든 것을 그대로 둡니다.

    • 어휘 모드 매개 변수를 ReadOnly 로 설정 합니다.

    • 필터 기반 기능 선택 사용 옵션을로 변경 합니다 False .

  4. 실험을 게시 하려면 결과 어휘 를 데이터 집합으로 저장 합니다.

    그런 다음, 점수 매기기 그래프에서 저장 된 데이터 집합을 텍스트 모듈의 추출 N-영문법 기능 에 연결 합니다.

결과

텍스트 모듈에서 N-문법 기능 추출 은 두 가지 유형의 출력을 만듭니다.

  • 결과 데이터 집합: 추출 된 n-그램과 함께 분석 된 텍스트의 요약입니다. 텍스트 열 옵션에서 선택 하지 않은 열은 출력으로 전달 됩니다. 분석 하는 텍스트의 각 열에 대해 모듈은 다음 열을 생성 합니다.

    • NgramsString: 모든 고유 n 그램을 포함 하는 문자열입니다.
    • NumUniqueNgrams: 지정 된 속성을 사용 하 여 추출 된 n 그램의 수입니다.
    • N-영문법 발생의 스파스 행렬: 모듈은 total 모음에서 찾은 각 n-영문법에 대해 열을 생성 하 고 각 열에 점수를 추가 하 여 해당 행에 대 한 n-영문법의 가중치를 표시 합니다.
  • 결과 어휘: 어휘에는 분석의 일부로 생성 되는 용어 빈도 점수와 함께 실제 n-영문법 사전이 포함 되어 있습니다. 다른 입력 집합 또는 나중에 업데이트를 위해 다시 사용 하기 위해 데이터 집합을 저장할 수 있습니다. 점수를 업데이트 하거나 모델링 및 점수 매기기를 위해 어휘를 다시 사용할 수도 있습니다.

샘플 결과

다음의 간단한 예제에서는 결과를 사용 하는 방법을 보여 주기 위해 Studio (클래식)에서 사용할 수 있는 Amazon Book 리뷰 데이터 집합을 사용 합니다. Dataaset은 점수가 4 또는 5 인 리뷰를 표시 하도록 필터링 되었으며 문자열 길이가 300 자 미만으로 검토 합니다.

이 데이터 집합에서 92 단어만 포함 된 간단한 검토가 선택 되었습니다. 여기서 만든이 이름은로 바뀌고 Xxx 책 제목은로 바뀝니다 Yyy .

"Xxx at his best ! Yyy is one of Xxx's best yet! I highly recommend this novel."

샘플 검토 텍스트에 대 한 결과 데이터 집합

이 샘플에서는 모듈이 다음 열을 생성 했습니다.

  • NumUniqueNgrams:이 92 단어 검토의 경우 기본 설정을 사용 하 여 11 n 그램은 샘플 검토에서 추출 되었습니다.

    N-영문법 길이가 3으로 증가 하 고 skip-영문법 값이 1로 설정 된 경우 15 개 그램을 찾았습니다.

    기능 선택이 기본값에 적용 되 면 n-그램은 추출 되지 않습니다.

  • NgramsString: 기본 설정을 사용 하 여 이러한 n-그램은 다음과 같이 반환 됩니다. ["the", "best", "one", "매우", "권장", "this", "novel", "his_best", "highly_recommend", "recommend_this", "this_novel"]

    N-영문법 길이가 3이 고--영문법 값이 1 인 경우 이러한 n 개 그램은 다음과 같이 반환 됩니다. ["the", "best", "one", "novel", "권장", "this", "", "his_best", "highly_recommend", "recommend_this", "this_novel", "best_one", "one_best", "highly_this", "highly_recommend_this"]

  • N-영문법 발생의 스파스 행렬

    이 특정 검토의 경우 결과에는 다음 열이 포함 됩니다.

    ReviewText. 하며 ReviewText. [및 _ 매우] ReviewText. 많은 ReviewText. [매우 _ 권장]
    0 0 0.301511 0.301511

    특정 열을 표시 하는 데 문제가 있으면 데이터 집합의 열 선택 모듈을 출력에 연결한 다음 검색 함수를 사용 하 여 이름별로 열을 필터링 합니다.

샘플 검토 텍스트에 대 한 결과 어휘

어휘에는 분석의 일부로 생성 되는 용어 빈도 점수와 함께 실제 n-영문법 사전이 포함 되어 있습니다. 다른 입력 집합 또는 나중에 업데이트를 위해 다시 사용 하기 위해 데이터 집합을 저장할 수 있습니다. 점수 DFIDF 는 다른 옵션에 관계 없이 생성 됩니다. 어휘를 조합 하는 경우 이러한 저장 된 값은 사용자가 선택한 가중치가 있는 함수에 대 한 입력으로 사용 됩니다.

  • Id: 각각의 고유 n-문법에 대해 생성 되는 식별자입니다.
  • Ngram: n-영문법입니다. 공백이 나 다른 단어 구분 기호는 밑줄 문자로 바뀝니다.
  • DF: 원래 모음의 n-문법에 대 한 용어 빈도 점수입니다.
  • IDF: 원래 모음의 n-문법에 대 한 역 문서 빈도 점수입니다.

이 데이터 집합을 수동으로 업데이트할 수 있습니다. 그러나 오류가 발생할 수 있으므로 주의 해야 합니다. 예를 들면 다음과 같습니다.

  • 모듈이 입력 어휘에서 동일한 키를 가진 중복 행을 찾은 경우 오류가 발생 합니다. 어휘의 두 행이 같은 단어를 포함 하지 않도록 합니다.
  • 어휘 데이터 집합의 입력 스키마는 열 이름과 열 유형을 포함 하 여 정확 하 게 일치 해야 합니다.
  • ID 열 및 DF 점수 열은 정수 유형 이어야 합니다.
  • IDF 열은 FLOAT (부동 소수점) 형식 이어야 합니다.

기술 정보

N-영문법 길이에 대해 다양 한 값 범위를 실험 하는 것이 좋습니다. 즉, 생략 그램의 수와 기능 선택을 사용 하 여 텍스트 모음의 차원과 최적의 기능 비율을 확인 하는 것이 좋습니다.

N 그램 및 skip 그램에 대 한 자세한 내용은 다음 리소스를 참조 하세요.

예상 입력

Name Type 설명
데이터 세트 데이터 테이블 입력 데이터
입력 어휘 데이터 테이블 입력 어휘

모듈 매개 변수

Name Type 범위 선택 사항 기본값 설명
0이 아닌 요소의 최소 수 정수 >= 1 다음 메서드를 사용 하는 경우에만 적용 됩니다.

개수 기반
1 개수 기반 방법에 대해 출력할 기능의 수를 지정합니다.
텍스트 열 열 선택 필수 StringFeature 텍스트 열의 이름 또는 1 기반 인덱스
어휘 모드 어휘 모드 생성

ReadOnly

업데이트

Merge
필수 생성 모음에서 n-영문법 어휘를 만드는 방법을 지정 합니다.
N-그램 크기 정수 >= 1 필수 1 만들 n 그램의 최대 크기를 지정 합니다.
K-크기 건너뛰기 정수 >= 0 필수 0 K-skip 크기를 나타냄
가중치 함수 가중치 함수 이진 가중치

TF 가중치

IDF 무게

TF-IDF 가중치

그래프 두께
필수 이진 가중치 각 n-영문법 값에 적용할 가중치 함수를 선택 합니다.
최소 단어 길이 정수 >= 1 필수 3 N 그램에 포함할 단어의 최소 길이를 지정 합니다.
최대 단어 길이 정수 >= 2 필수 25 N-그램에 포함할 단어의 최대 길이를 지정 합니다.
최소 n-영문법 문서 절대 빈도 Float >= 1.0 필수 5.0 최소 n-영문법 문서 절대 빈도
최대 n-영문법 문서 비율 Float >= 0.0001 필수 1.0 최대 n-영문법 문서 비율
어휘 외부 행 검색 부울 필수 true N-영문법 용어 (예약어)에 없는 단어가 있는 행을 검색 합니다.
문장의 시작을 표시 합니다. 부울 필수 false 시작 문장 표시를 n 그램에 추가할지 여부를 나타냅니다.
N-영문법 기능 벡터 정규화 부울 필수 N-영문법 기능 벡터를 표준화 합니다. True 이면 n문법 기능 벡터가 L2로 나뉩니다.
필터 기반 기능 선택 사용 True False 형식 True

False
필수 True 필터 기반 기능 선택을 사용 하 여 차원 줄이기
기능 점수 매기기 방법 점수 매기기 방법 피어슨 상관 관계

상호 정보

켄들 상관 관계

스페어만 상관 관계

카이 제곱

피셔 점수

개수 기반
필터 기반 기능 선택 사용 옵션이 True 인 경우에만 적용 됩니다. 피셔 점수 점수 매기기를 위해 사용할 방법을 선택합니다.
대상 열 열 선택 다음 방법 중 하나를 사용할 때 적용 됩니다.

피어슨 상관 관계

상호 정보

켄들 상관 관계

스페어만 상관 관계

카이 제곱

피셔 점수
대상 열을 지정합니다.
원하는 기능의 수 정수 >= 1 다음 방법 중 하나를 사용할 때 적용 됩니다.

피어슨 상관 관계

상호 정보

켄들 상관 관계

스페어만 상관 관계

카이 제곱

피셔 점수
1 결과에 출력할 기능의 수를 지정합니다.

출력

Name Type 설명
결과 데이터 집합 데이터 테이블 추출 된 기능
결과 어휘 데이터 테이블 결과 어휘

참고 항목

Text Analytics
Machine Learning 모듈의 A-z 목록