Share via


t-테스트를 사용하여 가설 테스트

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

t-test를 사용하여 두 열의 평균을 비교합니다.

범주: 통계 함수

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

모듈 개요

이 문서에서는 Machine Learning Studio(클래식)에서 t-Test 모듈을 사용하여 테스트 가설을 사용하여 세 가지 유형의 t-테스트에 대한 점수를 생성하는 방법을 설명합니다.

  • 단일 샘플 T-테스트
  • 쌍으로 연결된 T-테스트
  • 쌍으로 연결되지 않은 T-테스트

일반적으로 T-테스트는 두 그룹의 평균이 서로 다른지를 비교하는 데 도움이 됩니다. 예를 들어 A 약을 받은 환자와 B 약을 받은 환자의 시험 데이터를 평가하고 두 그룹의 회복 속도 메트릭을 비교하려고 합니다. Null 가설에서는 회복 속도가 두 그룹에서 동일하고 회복 속도의 값이 두 그룹에서 정규 분포를 따른다고 가정합니다.

t-Test를 사용하여 테스트 가설을 사용하고 복구 속도를 입력으로 포함하는 열을 제공하면 차이가 의미 있는지 여부를 나타내는 점수를 얻을 수 있습니다. 이는 null 가설을 거부해야 함을 의미합니다. 테스트에서는 값 간의 차이, 샘플의 크기(클수록 좋음) 및 표준 편차(작을수록 좋음)와 같은 요인을 고려합니다.

t-Test 모듈을 사용하여 테스트 가설의 결과를 검토하면 null 가설이 TRUE인지 FALSE인지 확인하고 t-test에서 신뢰도(P) 점수를 검토할 수 있습니다.

t-테스트를 선택하는 방법

이러한 조건이 적용되는 경우 단일 샘플 t-테스트를 선택합니다.

  • 단일 점수 샘플이 있습니다.

  • 모든 점수는 서로 독립적입니다.

  • 샘플링 분포 xˉ는 정규 분포입니다.

일반적으로 단일 샘플 T-테스트는 평균 값을 알려진 수와 비교하는 데 사용됩니다.

다음 조건이 적용되는 경우 쌍을 이루는 t-테스트를 선택합니다.

  • 일치하는 점수 쌍이 있는 경우. 사용자당 측정값 2개 또는 남편/부인과 같이 일치하는 개인의 쌍이 있는 경우를 예로 들 수 있습니다.

  • 각 점수 쌍은 서로 독립적입니다.

  • d의 샘플링 분포는 정상입니다.

쌍으로 연결된 T-테스트는 관련된 사례를 비교할 때 유용합니다. 쌍으로 연결된 사례의 점수 간 차이에 대한 평균을 구하여 총 차이가 통계적으로 의미가 있는지 여부를 결정할 수 있습니다.

다음 조건이 적용되는 경우 2차 T 테스트를 선택합니다.

  • 두 가지 독립적인 점수 샘플이 있습니다. 즉, 샘플 1의 점수를 샘플 2의 점수와 쌍으로 연결할 근거가 없습니다.

  • 샘플 내의 모든 점수는 서로 독립적입니다.

  • x1-x2의 샘플링 분포는 정상입니다.

  • 필요에 따라 그룹 간의 차이가 대략적으로 같아야 하는 요구 사항을 충족합니다.

t-Test를 사용하여 테스트 가설을 구성하는 방법

단일 데이터 세트를 입력으로 사용합니다. 비교하는 열은 동일한 데이터 세트에 있어야 합니다.

서로 다른 데이터 세트의 열을 비교해야 하는 경우 데이터 세트에서 열 선택을 사용하여 비교할 각 열을 격리한 다음 열 추가를 사용하여 하나의 데이터 세트에 병합할 수 있습니다.

  1. t-Test 모듈을 사용하여 테스트 가설을 실험에 추가합니다.

    이 모듈은 Studio(클래식)의 통계 함수 범주에서 찾을 수 있습니다.

  2. 분석하려는 열이 포함된 데이터 세트를 추가합니다.

  3. 데이터에 적합한 T 테스트 종류를 결정합니다. t-테스트를 선택하는 방법을 참조하세요.

  4. 단일 샘플: 단일 샘플을 사용하는 경우 다음 매개 변수를 설정합니다.

    • Null 가설 μ: 샘플의 null 가설 평균으로 사용할 값을 입력합니다. 샘플 평균을 테스트할 예상 평균 값을 지정합니다.

    • 대상 열: 열 선택기를 사용하여 테스트할 단일 숫자 열을 선택합니다.

    • 가설 유형: 단측 또는 2-꼬리 테스트를 선택합니다. 기본적으로는 양측 테스트가 사용됩니다. 가장 일반적인 유형의 테스트로, 0을 중심으로 대칭인 분포를 따릅니다.

      One Tail GT 옵션은 테스트보다 큰 단측을 위한 것입니다. 이 테스트는 다른 방향으로 효과를 테스트하지 않음으로써 한 방향으로 효과를 감지하는 데 더 많은 기능을 제공합니다.

      One Tail LT 옵션은 테스트보다 작은 단측을 제공합니다.

    • α: 신뢰도 요소를 지정합니다. 이 값은 P의 값(모듈의 첫 번째 출력)을 평가하는 데 사용됩니다. p가 신뢰도 요소보다 낮으면 null 가설이 거부됩니다.

  5. PairedSamples: 동일한 모집단의 두 샘플을 비교하는 경우 다음 매개 변수를 설정합니다.

    • Null 가설 μ: 샘플 쌍 간의 샘플 차이를 나타내는 값을 입력합니다.

    • 대상 열: 열 선택기를 사용하여 테스트할 두 개의 숫자 열을 선택합니다.

    • 가설 유형: 단측 또는 2-꼬리 테스트를 선택합니다. 기본적으로는 양측 테스트가 사용됩니다.

    • α: 신뢰도 요소를 지정합니다. 이 값은 P(모듈의 첫 번째 출력)의 값을 평가하는 데 사용됩니다.> p가 신뢰도 요소보다 낮으면 null 가설이 거부됩니다.

  6. UnpairedSamples: 두 개의 납작한 샘플을 비교하는 경우 다음 매개 변수를 설정합니다.

    • 동일한 분산 가정: 샘플이 다른 모집단에서 온 경우 이 옵션을 선택 취소합니다.
    • Null 가설 μ1: 첫 번째 열의 평균을 입력합니다.
    • Null 가설 μ2: 두 번째 열의 평균을 입력합니다.
    • 대상 열: 열 선택기를 사용하여 테스트할 두 개의 숫자 열을 선택합니다.
    • 가설 유형: 테스트가 단측인지 아니면 두 꼬리인지를 나타냅니다. 기본적으로는 양측 테스트가 사용됩니다.
    • α: 신뢰도 요소를 지정합니다. 이 값은 P(모듈의 첫 번째 출력)의 값을 평가하는 데 사용됩니다.> p가 신뢰도 요소보다 낮으면 null 가설이 거부됩니다.
  7. 실험을 실행합니다.

결과

모듈의 출력은 t-test 점수를 포함하는 데이터 세트이며, 선택적으로 이 데이터 세트 또는 다른 데이터 세트에 다시 적용하기 위해 저장할 수 있는 변환입니다.

점수의 데이터 세트에는 사용한 t-테스트 유형에 관계없이 다음 값이 포함됩니다.

  • Null 가설 신뢰도를 나타내는 확률 점수입니다.
  • Null 가설을 거부해야 하는지 여부를 나타내는 값입니다.

목표는 null 가설을 거부할 수 있는지 여부를 결정하는 것입니다. 점수가 0이면 null 가설을 수락해야 한다는 의미는 아닙니다. 데이터가 충분하지 않고 추가 조사가 필요하다는 의미입니다.

기술 정보

모듈에서는 선택한 T-테스트의 유형과 결과가 Null 가설 거부인지 아니면 수락인지에 따라 다음 규칙을 준수하여 출력 열의 이름을 자동으로 지정합니다.

이름과 이름을 {0}{1}가진 입력 열이 지정된 모듈은 다음 이름을 만듭니다.

SingleSampleSet PairedSamples UnpairedSamples
출력 열 P P_ss({0}) P_ps({0}, {1}) P_us({0}, {1})
출력 열 RejectH0 RejectH0_ss({0})" RejectH0_ps({0}, {1}) RejectH0_us({0}, {1})

점수 계산 방법

이 모듈은 샘플 표준 편차를 계산하고 사용합니다. 따라서 수식은 분모에 사용됩니다 (n-1) .

단일 샘플 테스트에 대한 컴퓨팅 점수

모두 서로 독립적인 단일 점수 샘플과 정규 분포를 사용하는 경우 점수는 다음과 같이 계산됩니다.

  1. 다음 입력을 가져옵니다.

    • 데이터 집합의 단일 값 열
    • Null 가설(H0) 매개 변수 μ0
    • α로 지정된 신뢰도 점수
  2. 샘플 수(n)를 추출합니다.

  3. 샘플 데이터의 평균을 계산합니다.

  4. 샘플 데이터의 표준 편차를 계산합니다.

  5. t 및 자유도 계산(df):

    Formula for degrees of freedom

  6. t 및 df를 사용하여 배포 테이블 T에서 확률 P를 추출합니다.

쌍을 이루는 t 테스트에 대한 점수 계산

각 쌍이 서로 독립적인 일치하는 점수 집합과 각 집합의 정규 분포를 사용하는 경우 점수는 다음과 같이 계산됩니다.

  1. 다음 입력을 가져옵니다.

    • 데이터 집합의 두 값 열
    • Null 가설(H0) 매개 변수 d0
    • α로 지정된 신뢰도 점수
  2. 몇 가지 샘플 쌍(n)을 추출합니다.

  3. 샘플 데이터 차이의 평균을 계산합니다.

    formula for mean of differences

  4. 차이(sd)의 표준 편차를 계산합니다.

  5. t 및 자유도(df)를 계산합니다.

    Formula for degrees of freedom df

  6. t 및 df를 사용하여 분포 테이블(T)에서 확률(P)을 추출합니다.

납입되지 않은 t 테스트에 대한 컴퓨팅 점수

독립적인 두 점수 샘플과 각 샘플의 값 정규 분포를 사용하는 경우 점수는 다음과 같이 계산됩니다.

  1. 다음 입력을 가져옵니다.

    • doubles 열이 포함된 데이터 집합
    • Null 가설(H0) 매개 변수(d0)
    • α로 지정된 신뢰도 점수
  2. 각 그룹 n1 및 n2에서 여러 샘플을 추출합니다.

  3. 각 샘플 집합의 평균을 계산합니다.

  4. 각 그룹의 표준 편차를 s1 및 s2로 계산합니다.

  5. t 및 자유도 계산(df):

필요에 따라 그룹 간의 차이가 대략적으로 같아야 하는 요구 사항을 다음과 같이 충족합니다.

  1. 먼저 풀링된 표준 편차를 계산합니다.

    formula for pooled standard distribution

  2. 차이 일치에 대한 가정이 없는 경우 다음과 같이 계산합니다.

    formula for pooled standard deviation

  3. t 및 df를 사용하여 배포 테이블(T)에서 P를 추출합니다.

null 가설 계산

P로 지정된 null 가설의 확률은 다음과 같이 계산됩니다.

  • P < 가 α 경우 거부 플래그를 True로 설정합니다.

  • P가 ≥ α 경우 거부 플래그를 False로 설정합니다.

예상 입력

Name Type Description
데이터 세트 데이터 테이블 입력 데이터 세트

모듈 매개 변수

Name 범위 Type 기본값 Description
가설 유형 모두 Hypothesis 양측 스튜던트의 T-테스트 Null 가설 유형입니다.
Null 가설 μ 모두 Float 0.0 단일 샘플 T-테스트의 경우 샘플에 대한 Null 가설 평균입니다.

쌍으로 연결된 T-테스트의 경우에는 샘플 차이입니다.
대상 열 모두 ColumnSelection 없음 대상 열 선택 패턴입니다.
동일 차이 가정 모두 부울 True 두 샘플의 차이가 같다고 가정합니다.

쌍으로 연결되지 않은 샘플에만 적용됩니다.
Null 가설 μ1 모두 Float 0.0 첫 번째 샘플에 대한 Null 가설 평균입니다.
α [0.0;1.0] Float 0.95 신뢰 인수입니다. P가 신뢰 인수보다 작으면 Null 가설은 거부됩니다.

출력

Name Type Description
P 데이터 테이블 Null 가설 신뢰도를 나타내는 확률 점수입니다.
거부 H0 데이터 테이블 Null 가설을 거부해야 하는지 여부를 나타내는 값입니다.

예외

예외 설명
오류 0003 하나 이상의 입력이 null이거나 비어 있으면 예외가 발생합니다.
오류 0008 매개 변수가 범위 내에 있지 않으면 예외가 발생합니다.
오류 0017 하나 이상의 지정된 열에 현재 모듈에서 지원되지 않는 유형이 있으면 예외가 발생합니다.
오류 0020 모듈로 전달된 데이터 집합 중 일부의 열 수가 너무 적으면 예외가 발생합니다.
오류 0021 모듈로 전달된 데이터 집합 중 일부의 행 수가 너무 적으면 예외가 발생합니다.
오류 0031 열 집합의 열 수가 필요한 수보다 적으면 예외가 발생합니다.
오류 0032 인수가 숫자가 아니면 예외가 발생합니다.
오류 0033 인수가 무한대이면 예외가 발생합니다.

Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.

API 예외 목록은 MACHINE LEARNING REST API 오류 코드를 참조하세요.

추가 정보

통계 함수