Дисперсионный анализ

Источник вариации Сумма квадратов SS Степени свободы df Оценка дисперсии MS Расчетное F Значение P Критическое F
Между группами 220,19 73,40 22,44 0,000033 3,49
Внутри групп 39,25 3,27      
Общая 259,44        

Здесь фактором является Бригада (4 градации). Процедура дисперсионного анализа проводится следующим образом. Определяются средние по группам (бригадам) и общее среднее. Затем рассчитываются:

- сумма квадратов отклонений средних по группам от общего среднего – межгрупповая сумма квадратов (равна 220,19);

- сумма квадратов отклонений единичных наблюдений от общего среднего – общая сумма квадратов (равна 259,44);

- разность общей и межгрупповой сумм квадратов – внутригрупповая сумма квадратов (39,25);

Общее число наблюдений равно 16, число уровней фактора – 4. Число степеней свободы для общей, межгрупповой и внутригрупповой дисперсий соответственно равно 15, 3, и 12. В результате получаем, что дисперсия, основанная на внутригрупповой изменчивости, значительно меньше, чем межгрупповая. Расчетное значение критерия Фишера 24,44 существенно превышает критическое значение = 3,49 для уровня значимости 0,05, что позволяет сделать вывод о значимом различии в производительности бригад (значимо на уровне P = 0,000033).

Степень влияния фактора можно измерить с помощью выборочного коэффициента детерминации

Выборочный коэффициент детерминации показывает, какую часть общей дисперсии можно объяснить зависимостью Y от фактора . В нашем примере выборочный коэффициент детерминации равен:

.

Многофакторный дисперсионный анализ

При проведении статистических исследований обычно приходится иметь дело с большим количеством факторов. Увеличение числа факторов принципиально не изменяет процедуру дисперсионного анализа, однако вычисления значительно усложняются.

Без ограничения на общность для простоты рассмотрим анализ влияния нескольких факторов на примере двухфакторного анализа.

Пусть изучается влияние на среднее значение анализируемой случайной величины двух факторов – и Фактор имеет уровней, фактор уровней. Для анализа влияния на результативный признак факторов и следует проверить нулевые гипотезы:

HА : a1 = a2 =... = (6.15)

HВ : a1 = a2 =... = (6.16)

Так же как и в случае однофакторного дисперсионного анализа, должны быть соблюдены следующие требования:

1) наблюдения независимы при различных сочетаниях уровней факторов

2) результативный признак Y имеет нормальный закон распределения с постоянной генеральной дисперсией σ2 для любых сочетаний уровней факторов А и В.

Двухфакторный дисперсионный анализ может иметь два варианта: без повторных измерений и с повторными измерениями.

В первом варианте для каждой пары уровней факторов существует только одно наблюдение. Исходные данные должны представлять собой матрицу размером , в которой столбцы отвечают различным уровням первого фактора j = 1,..., m, а строки – различным уровням второго фактора i = 1,..., n. Каждая ячейка содержит одно значение результативного признака, измеренного при соответствующем сочетании уровней исследуемых факторов.

Во втором варианте определенным сочетаниям уровней факторов соответствует несколько наблюдений (анализ с повторениями).

Рассмотрим сначала двухфакторный дисперсионный анализ без повторений.

По аналогии со схемой однофакторного анализа получаем для суммы квадратов отклонений всех наблюдений от их общего выборочного среднего следующее выражение:

, (6.17)

Здесь и – взвешенные суммы квадратов отклонений выборочных средних по каждому уровню фактора A(i) и фактора В(i) соответственно от общего выборочного среднего, – среднее значение квадратов отклонений внутри уровней.

Для проверки нулевых гипотез HА и HВ вычисляются статистики дисперсионного анализа

Проверка выдвинутых гипотез осуществляется так же как и при однофакторном дисперсионном анализе.

В качестве примера рассмотрим влияние на объем продаж ряда товаров двух факторов: товарной марки (3 градации) и торговой точки (4 градации) (табл.6.3).

Таблица 6.3 ⎼ Данные для анализа по двум факторам

Марка товара Торговая точка Продажи

В этом примере существует три источника общей дисперсии: случайная ошибка (внутригрупповая дисперсия), изменчивость, связанная с торговой маркой товара, и изменчивость, обусловленная наличием нескольких торговых точек. Результат дисперсионного анализа, проведенного в пакете STATISTICA, приведен в таблице 6.4.

Таблица 6.4 - Двухфакторный дисперсионный анализ без повторений

  SS Степени свободы MS F p
Между группами Марка товара 10,50 5,25 0,69 0,5400
Между группами Торговая точка 308,25 102,75 13,55 0,0044
Внутри групп 45,50 7,58    
Общая 364,25 33,11    

Поясним результаты расчета. По фактору А (Марка товара) имеется три группы наблюдений, число степеней свободы равно 2, по фактору В (Торговая точка) имеется 4 группы наблюдений, число степеней свободы равно 3. Всего имеем 12 наблюдений, общее число степеней свободы 11. Для внутригрупповой изменчивости получаем 12-2-3=6 степеней свободы. Рассчитанные оценки дисперсий (MS) дают значения F-критерия, соответствующие Р-значениям 0,54 для фактора А и 0,0044 для фактора В. Р-значение представляет собой вероятность того, что значение дисперсионного отношения попадет в область (0, Fр). Отсюда можно сделать вывод, что для фактора А нулевая гипотеза принимается, а для фактора В – отвергается. Таким образом, проведенное исследование показало, что наблюдается значимое влияние фактора Торговая точка на объем продаж на уровне значимости 0, 0044, а влияние марки товара не подтвердилось.

Выборочный коэффициент детерминации

показывает, что 85% общей выборочной вариации объема продаж связано с торговой точкой.

Если в двухфакторном анализе количество выборочных значений для каждой пары уровней (i, j) не менее двух, то речь идет об анализе с повторными измерениями. В этом случае имеется возможность оценить эффект взаимодействия между уровнями исследуемых факторов А и В. О существовании взаимодействия между факторами можно говорить, если влияние одного из факторов на результативный признак зависит от значения другого фактора. В этом случае приведенная сумма квадратов отклонений всех наблюдений от их общего выборочного среднего

, (6.18)

где, как и выше, и - взвешенные суммы квадратов отклонений выборочных средних по каждому уровню фактора A(i) и фактора В(j) соответственно от общего выборочного среднего, - среднее значение квадратов отклонений внутри уровней. Случайная величина является взвешенной суммой отклонений выборочных средних по ячейкам от общего выборочного среднего всей совокупности данных. Она характеризует влияние выборочных средних по парам уровней (i, j) факторов А и В на общее выборочное среднее по всем данным.

Таким образом, обобщенно задача дисперсионного анализа состоит в том, чтобы из общей вариативности признака выделить три частные вариативности:

- Вариативность, обусловленную действием каждого из факторов

- Вариативность, обусловленную взаимодействием исследуемых факторов.

- Вариативность случайную, обусловленную всеми неучтенными обстоятельствами.

Ковариационный анализ (ANCOVA)

Если в дисперсионном анализе используется в качестве фактора независимая переменная, относящаяся к интервальной шкале или к шкале отношений (метрической) (непрерывная переменная), то говорят не о факторе, а о ковариации [36].

В качестве примера можно привести анализ математических знаний двух групп студентов, которые обучались по двум различным учебникам. Для каждого студента имеются дополнительные данные о коэффициенте интеллекта (IQ). Если рассматривать коэффициент интеллекта как фактор, влияющий на математические способности, то для каждой из двух групп студентов можно вычислить коэффициент корреляции между IQ и математическими знаниями. Учитывая полученный коэффициент корреляции, можно выделить в каждой группе долю дисперсии, объясняемую IQ, и использовать оставшуюся долю дисперсии в качестве дисперсии ошибки. Это позволяет значительно снизить дисперсию ошибки.