Хи-квадрат тест (χ²-тест) — это статистический метод, используемый для проверки гипотезы о независимости или связи между двумя категориальными переменными. Для проведения χ²-теста необходимо построить таблицу сопряженности, которая содержит частоты наблюдаемых значений для каждой комбинации категорий.
Предположим, у нас есть две категориальные переменные: переменная X с i уровнями (i = 1, 2, …, I) и переменная Y с j уровнями (j = 1, 2, …, J). Мы хотим проверить гипотезу о независимости между этими переменными.
Формулировка гипотезы:
Нулевая гипотеза (H0): Переменные X и Y независимы.
Альтернативная гипотеза (H1): Существует связь между переменными X и Y.
Построение таблицы сопряженности:
Построим таблицу сопряженности, в которой каждая ячейка (i, j) содержит наблюдаемую частоту (oij) — количество наблюдений, где переменная X принимает значение i, а переменная Y принимает значение j.
Таблица сопряженности:
Y1 Y2 ... YJ
X1 o11 o12 … o1J
X2 o21 o22 … o2J
… … … … …
XI oI1 oI2 … oIJ
Расчет ожидаемых частот:
Для проверки гипотезы о независимости переменных X и Y необходимо рассчитать ожидаемые частоты (eij), которые представляют собой значения, которые ожидаются при условии, что переменные X и Y независимы.Ожидаемые частоты рассчитываются по формуле:
eij = (ri * cj) / n,
где ri — сумма наблюдаемых частот по строке i, cj — сумма наблюдаемых частот по столбцу j, n — общее количество наблюдений.
Расчет статистики χ²:
Статистика χ² вычисляется с использованием наблюдаемых (oij) и ожидаемых (eij) частот:
χ² = Σ ((oij — eij)² / eij),
где сумма проходит по всем ячейкам таблицы сопряженности.
Определение степеней свободы:
Количество степеней свободы (df) в χ²-тесте равно (I — 1) * (J — 1), где I — количество уровней переменной X, J — количество уровней переменной Y.
Определение критической области и принятие решения:
Значение статистики χ² сравнивается с критическим значением χ² для заданного уровня значимости и числа степеней свободы. Если значение статистики χ² попадает в критическую область, то нулевая гипотеза отвергается в пользу альтернативной гипотезы.
Расчет p-значения:
Можно также вычислить p-значение, которое представляет собой вероятность получить такие же или более экстремальные результаты, как наблюдаемые, при условии верности нулевой гипотезы. P-значение можно рассчитать с использованием таблицы распределения χ². Это позволяет оценить статистическую значимость результатов и принять решение об отклонении или принятии нулевой гипотезы.
Это описание математических выкладок χ²-теста, который позволяет проверить гипотезу о независимости или связи между двумя категориальными переменными.