Двухфакторный дисперсионный анализ.
Лекция 4
В общем случае задача двухфакторного дисперсионного анализа формулируется следующим образом (Юсупов).
Имеются два фактора х1 и х2, каждый из которых имеет соответственно m1 и m2 уровней. Для каждого из m1×m2 сочетаний уровней проводится n – одинаковое число наблюдений (в общем случае – разное), k = 1… n – номера наблюдений.
Общее число наблюдений N = m1×m2×n дают N значений наблюдаемой величины y ().
Например: х1 – наблюдатели, а i = 1…m1 – отдельные лица, обладающие различной квалификацией; х2 – приборы (j = 1…m2), обладающие различной точностью. По результатам наблюдений {yijk} требуется определить, что является причиной их отличия друг от друга – действие фактора х1 (квалификация наблюдателя), фактора х2 (различия в приборах), взаимное влияние факторов х1 и х2 или другие неучтенные факторы.
В соответствии с моделью двухфакторного анализа каждый результат наблюдения можно представить в виде
, где
- общее математическое ожидание наблюдаемой величины у;
- эффект, обусловленный влиянием i-го уровня фактора х1;
- эффект, обусловленный взаимным влиянием j-го уровня фактора х2;
- эффект, обусловленный взаимным влиянием i-го уровня фактора х1 и j-го уровня фактора х2 (эффект взаимодействия);
- ошибка за счет влияния других неучтенных факторов.
Эффекты от соответствующих факторов или их взаимодействий определяются как:
, i = 1…m1
, j = 1…m2
,
i = 1…m1, j = 1…m2
Здесь:
- групповое математическое ожидание выходной переменной у на i-м уровне фактора х1 (в i-й группе);
- групповое математическое ожидание выходной переменной у на j-м уровне фактора х2;
- математическое ожидание выходной переменной у при фиксированных уровнях i и j факторов х1 и х2 соответственно;
- математическое ожидание выходной переменной у в генеральной совокупности;
ошибка - независимые случайные величины, распределенные по нормальному закону с нулевым математическим ожиданием (me = 0) и дисперсией De = s2, одинаковой для всех i, j уровней факторов.
Пусть для каждого сочетания уровней факторов проводится одинаковое число наблюдений n (n > 1).
Представим отклонение результата наблюдения от общего среднего в следующем виде:
Здесь вместо математических ожиданий выходной переменой у взяты их оценки, вычисляемые по результатам наблюдений.
, i = 1…m1
, j = 1…m2
, i = 1…m1, j = 1…m2
Возведем обе части в квадрат и просуммируем по всем уровням i, j и наблюдениям k.
Учитывая, что суммы эффектов по всем уровням равны нулю, т.е. ; ; , кроме того - средняя ошибка на фиксированном уровне.
Можно показать, что в результате получим следующее выражение, являющееся основным тождеством вариаций дисперсионного анализа:
Или иначе
- разложение общей вариации результатов наблюдений, где
, - факторные вариации (за счет действия факторов х1 и х2);
- вариация взаимодействия;
- остаточная вариация;
- общая вариация.
(фактор 1)
(фактор 2)
(взаимодействие)
(остаток)
Можно показать, что в результате получим следующее выражение , являющееся основным тождеством вариаций дисперсионного анализа :
Или иначе :
S2o=S21+S22+S212+S2ост
– разложение общей вариации результатов наблюдений , где :
S21 , S22 – факторные вариации ( за счет действия факторов х1 и х2 ) ;
S212 – факторные взаимодействия ;
S2ост – остаточная вариация ;
S2общ – общая вариация ;