Проверка гипотезы с помощью t-Test

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Сравнивает значения из двух столбцов с помощью t-теста

Категория: статистические функции

Примечание

Область применения: только Машинное обучение Studio (классическая версия)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

В этой статье описывается использование тестовой гипотезы с помощью модуля t-Test в Машинное обучение Studio (классическая модель) для создания оценок для трех типов t-тестов:

  • Одновыборочный t-тест
  • Парный t-тест
  • Непарный t-тест

Обычно T-тест помогает определить, отличаются ли средние значения двух определенных групп. Предположим, например, что вам нужно оценить проверочные данные для пациентов, которые принимали лекарство A, и для пациентов, которые принимали лекарство B, а также сравнить метрику скорости выздоровления в обеих группах. Согласно нулевой гипотезе скорость выздоровления одинакова в обеих группах, а значения скорости выздоровления в них имеют нормальное распределение.

С помощью тестовой гипотезы с помощью t-test и предоставления столбцов, содержащих коэффициенты восстановления в качестве входных данных, можно получить оценки, указывающие, является ли разница значимой, что означает, что пустая гипотеза должна быть отклонена. В тесте учитываются такие факторы, как разница между значениями, размер выборки (чем больше, тем лучше) и стандартное отклонение (чем меньше, тем лучше).

Просмотрив результаты тестовой гипотезы с помощью модуля t-Test , вы можете определить, является ли пустая гипотеза истинной или ЛОЖНОй, и проверить оценки достоверности (P) из t-теста.

Выбор t-теста

Выберите один пример t-теста при применении следующих условий:

  • Имеется одна выборка показателей.

  • Все показатели не зависят друг от друга.

  • Выборочное распределение xˉ является нормальным.

Как правило, T-тест с одной выборкой используется для сравнения среднего значения и известного количества.

Выберите парный t-тест при применении следующих условий:

  • Имеется совпадение пар оценок. Например, это могут быть два разных показателя одного человека или совпадение показателей двух человек (например, мужа и жены).

  • Каждая пара показателей независима от любой другой пары.

  • Распределение выборки d является нормальным.

Парный Т-тест подходит для сравнения связанных случаев. Средняя разница между оценками парных случаев позволяет определить, насколько статистически значима общая разница.

Выберите непарный t-тест при применении следующих условий:

  • Имеется две независимых выборки показателей. То есть нет оснований для установления парности оценок в выборке 1 и в выборке 2.

  • Любые показатели в выборке не зависят от всех остальных показателей в той же выборке.

  • Распределение выборки x1–x2 является нормальным.

  • Кроме того, может соблюдаться дополнительное требование приблизительного совпадения дисперсии в группах.

Настройка тестовой гипотезы с помощью t-test

Используйте один набор данных в качестве входных данных. Сравниваемые столбцы должны находиться в одном наборе данных.

Если необходимо сравнить столбцы из разных наборов данных, можно изолировать каждый столбец для сравнения с помощью команды Select Columns в наборе данных, а затем объединить их в один набор данных с помощью команды "Добавить столбцы".

  1. Добавьте тестовую гипотезу с помощью модуля t-Test в эксперимент.

    Этот модуль можно найти в категории статистических функций в Студии (классической).

  2. Добавьте набор данных, содержащий столбец или столбцы, которые требуется проанализировать.

  3. Определите, какой тип t-теста подходит для ваших данных. Узнайте , как выбрать t-test.

  4. Один пример: если вы используете один пример, задайте следующие параметры:

    • Нулевая гипотеза μ: введите значение, которое будет использоваться в качестве значения, предполагающего значение NULL для примера. Это указывает ожидаемое среднее значение, по которому будет проверено среднее значение выборки.

    • Целевой столбец: используйте селектор столбцов, чтобы выбрать один числовый столбец для тестирования.

    • Тип гипотезы: выберите тест с одним или двумя хвостами. Значение по умолчанию — двусторонний тест. Это наиболее распространенный тип теста, в котором ожидаемое распределение симметрично относительно нуля.

      Параметр One Tail GT предназначен для одного хвоста больше, чем тест. Этот тест дает больше возможностей для обнаружения эффекта в одном направлении, не проверяя эффект в другом направлении.

      Параметр One Tail LT дает одностороннее , чем тест.

    • α. Укажите коэффициент достоверности. Это значение используется для оценки значения P (первого вывода модуля). Если значение p меньше коэффициента достоверности, то отклонена пустая гипотеза.

  5. PairedSamples: при сравнении двух выборок из одной совокупности задайте следующие параметры:

    • Нулевая гипотеза μ: введите значение, представляющее разницу выборки между парой образцов.

    • Целевой столбец: используйте селектор столбцов, чтобы выбрать два числовых столбца для тестирования.

    • Тип гипотезы: выберите одностороннюю или двухстороннюю проверку. Значение по умолчанию — двусторонний тест.

    • α. Укажите коэффициент достоверности. Это значение используется для оценки значения P (первый вывод модуля)> Если p меньше коэффициента достоверности, то отклонена пустая гипотеза.

  6. НепараныеSamples: при сравнении двух неспарных выборок задайте следующие параметры:

    • Предположим, что одинаковое отклонение: отмените выборку, если выборки из разных групп населения.
    • Нулевая гипотеза μ1: введите среднее значение для первого столбца.
    • Нулевая гипотеза μ2: введите среднее значение для второго столбца.
    • Целевые столбцы: используйте селектор столбцов, чтобы выбрать два числовых столбца для тестирования.
    • Тип гипотезы: указывает, является ли тест одним или двумя хвостами. Значение по умолчанию — двусторонний тест.
    • α. Укажите коэффициент достоверности. Это значение используется для оценки значения P (первый вывод модуля)> Если p меньше коэффициента достоверности, то отклонена пустая гипотеза.
  7. Запустите эксперимент.

Результаты

Выходные данные модуля — это набор данных, содержащий оценки t-тестов, и преобразование, которое можно дополнительно сохранить для повторного применения к этому или другому набору данных с помощью метода Apply Transformation.

Набор данных оценок содержит эти значения независимо от типа используемого t-теста:

  • Оценка вероятности, указывающая на достоверность нулевой гипотезы
  • Значение, указывающее, должна ли быть отклонена нулевая гипотеза.

Совет

Помните, что цель — определить, можно ли отклонить пустую гипотезу. Оценка 0 не означает, что вы должны принять пустую гипотезу: это означает, что у вас недостаточно данных и требуется дальнейшее исследование.

Технические примечания

Модуль автоматически именует выходные столбцы в соответствии со следующими соглашениями в зависимости от выбранного типа t-теста и от отклонения или принятия нулевой гипотезы.

При использовании входных столбцов с именами {0} и {1}модуль создает следующие имена:

Столбцы SingleSampleSet PairedSamples UnpairedSamples
Выходной столбец P P_ss({0}) P_ps({0}, {1}) P_us({0}, {1})
Выходной столбец RejectH0 RejectH0_ss({0})" RejectH0_ps({0}, {1}) RejectH0_us({0}, {1})

Как вычисляются оценки

Этот модуль вычисляет и использует стандартное отклонение выборки; таким образом, уравнение используется (n-1) в знаменателе.

Оценки вычислений для одно примерного теста

При условии одной выборки оценок, не зависящих друг от друга, и нормального распределения, оценка вычисляется следующим образом.

  1. Примите следующие входные данные:

    • Один столбец значений из набора данных
    • Параметр μ0 нулевой гипотезы (H0)
    • Показатель достоверности, заданный значением α
  2. Извлеките количество выборок (n).

  3. Вычислите среднее значение для выборочных данных.

  4. Вычислите стандартное отклонение (s) данных выборки.

  5. Вычисление t и степеней свободы (df):

    Formula for degrees of freedom

  6. Извлечение вероятности P из таблицы распределения T с помощью t и df.

Оценки вычислений для парного t-теста

С учетом сопоставленного набора оценок, где каждая пара независима от другой, и нормального распределения в каждом наборе, оценка вычисляется следующим образом.

  1. Примите следующие входные данные:

    • Два столбца значений из набора данных
    • Параметр нулевой гипотезы (H0) d0
    • Показатель достоверности, заданный значением α
  2. Извлеките несколько примеров пар (n).

  3. Вычислите среднее значение разностей для выборочных данных.

    formula for mean of differences

  4. Вычислите стандартное отклонение различий (sd).

  5. Вычисление t и степени свободы (df):

    Formula for degrees of freedom df

  6. Извлеките вероятность (P) из таблицы распределения (T) с помощью t и df.

Оценки вычислений для непарного t-теста

При условии двух независимых выборок оценок с нормальным распределением значений в каждой выборке оценка вычисляется следующим образом.

  1. Примите следующие входные данные:

    • Набор данных, содержащий два столбца doubles
    • Параметр нулевой гипотезы (H0) (d0)
    • Показатель достоверности, заданный значением α
  2. Извлеките несколько примеров в каждой группе, n1 и n2.

  3. Вычислите средние значения для каждого набора выборок.

  4. Вычислите стандартное отклонение для каждой группы как s1 и s2.

  5. Вычисление t и степеней свободы (df):

Кроме того, может быть соблюдено дополнительное требование приблизительного совпадения значений дисперсии в группах, как показано ниже.

  1. Сначала вычислите общее среднеквадратичное отклонение:

    formula for pooled standard distribution

  2. Если не предполагается, что дисперсии равны, используйте для вычисления следующую формулу.

    formula for pooled standard deviation

  3. Извлеките P из таблицы распределения (T) с помощью t и df.

Вычисление нулевой гипотезы

Вероятность нулевой гипотезы, обозначенной как P, вычисляется следующим образом:

  • Если P < α, установите для флага "Отклонить" значение True.

  • Если P ≥ α, установите для флага "Отклонить" значение False.

Ожидаемые входные данные

Имя Тип Описание
Dataset Таблица данных Входной набор данных

Параметры модуля

Имя Диапазон Тип По умолчанию Описание
Тип гипотезы Любой Гипотеза Двусторонний Тип нулевой гипотезы t-теста Стьюдента
Значение μ для нулевой гипотезы Любой Float 0,0 Для одновыборочного t-теста — выборочное среднее при нулевой гипотезе.

Для парного t-теста — выборочная разность.
Целевые столбцы Любой Выбор столбцов Нет Шаблон выбора целевых столбцов
Предположение равных дисперсий Любой Логическое значение True Предполагается, что дисперсии двух выборок равны.

Применяется только к непарным выборкам.
μ1 для нулевой гипотезы Любой Float 0,0 Среднее арифметическое значение первой выборки для нулевой гипотезы
α [0.0;1.0] Float 0,95 Показатель достоверности (если P меньше показателя достоверности, нулевая гипотеза отклоняется)

Выходные данные

Имя Тип Описание
P Таблица данных Оценка вероятности, указывающая на достоверность нулевой гипотезы
Reject H0 Таблица данных Значение, указывающее, должна ли быть отклонена нулевая гипотеза

Исключения

Исключение Описание
Ошибка 0003 Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты.
Ошибка 0008 Исключение возникает, если параметр находится за пределами диапазона.
Ошибка 0017 Исключение возникает, если один или несколько указанных столбцов относятся к типу, который не поддерживается в текущем модуле.
Ошибка 0020 Исключение возникает, если количество столбцов в некоторых наборах данных, переданных модулю, слишком мало.
Ошибка 0021 Исключение возникает, если количество строк в некоторых наборах данных, переданных модулю, слишком мало.
Ошибка 0031 Исключение возникает, если количество столбцов в наборе столбцов меньше, чем требуется.
Ошибка 0032 Исключение возникает, если аргумент не является числом.
Ошибка 0033 Исключение возникает, если аргумент — бесконечность.

Список ошибок, относящихся к модулям Студии (классическая модель), см. в Машинное обучение кодах ошибок.

Список исключений API см. в разделе Машинное обучение коды ошибок REST API.

См. также раздел

Статистические функции