Метод дисперсионного анализа
Как было уже отмечено, дисперсионный метод тесно связан со статистическими группировками и предполагает, что изучаемая совокупность подразделена на группы по факторным признакам, влияние которых должно быть изучено.
На основе дисперсионного анализа производится:
1.оценка достоверности различий в групповых средних по одному факторному признаку или нескольким;
2.оценка достоверности взаимодействий факторов;
3.оценка частных различий между парами средних.
В основе применения дисперсионного анализа лежит закон разложения дисперсий (вариаций) признака на составляющие.
Общая вариация Dо результативного признака при группировке может быть разложена на следующие составные части:
1.на межгрупповую Dм связанную с группировочным признаком;
2.на остаточную (внутригрупповую) DB, не связанную с группировочным признаком.
Соотношение между этими показателями выражается следующим образом:
Dо = Dм + Dв. (1.30)
Рассмотрим применение дисперсионного анализа на примере.
Допустим, требуется доказать, влияют ли сроки посева на урожайность пшеницы. Исходные опытные данные для дисперсионного анализа представлены в табл. 8.
Таблица 8
В данном примере N = 32, K = 4, l = 8.
Определим общую суммарную вариацию урожайности, которая представляет собой сумму квадратов отклонений индивидуальных значений признака от общей средней:
где N – число единиц совокупности; Yi – индивидуальные значения урожайности; Yo – общая средняя урожайности по всей совокупности.
Для определения межгрупповой суммарной вариации, определяющей вариацию результативного признака за счет изучаемого фактора, необходимо знать средние значения результативного признака по каждой группе. Эта суммарная вариация равна сумме квадратов отклонений групповых средних величин от общей средней величины признака, взвешенной на число единиц совокупности в каждой из групп:
Внутригрупповая суммарная вариация равна сумме квадратов отклонений индивидуальных значений признака от групповых средних по каждой группе, суммированной по всем группам совокупности.
Влияние фактора на результативный признак проявляется в соотношении между Dм и Dв : чем сильнее влияние фактора на величину изучаемого признака, тем больше Dм и меньше Dв.
Для проведения дисперсионного анализа нужно установить источники варьирования признака, объем вариации по источникам, определить число степеней свободы для каждой компоненты вариации.
Объем вариации уже установлен, теперь необходимо определить число степеней свободы вариации. Число степеней свободы – это число независимых отклонений индивидуальных значений признака от его среднего значения. Общее число степеней свободы, соответствующее общей сумме квадратов отклонений в дисперсионном анализе, разлагается по составляющим вариации. Так, общей сумме квадратов отклонений Dо соответствует число степеней свободы вариации, равное N – 1 = 31. Групповой вариации Dм соответствует число степеней свободы вариации, равное K – 1 = 3. Внутригрупповой остаточной вариации соответствует число степеней свободы вариации, равное N – K = 28.
Теперь, зная суммы квадратов отклонений и число степеней свободы, можно определить дисперсии для каждой составляющей. Обозначим эти дисперсии: dм– групповые и dв – внутригрупповые.
После вычисления этих дисперсий приступим к установлению значимости влияния фактора на результативный признак. Для этого находим отношение: dM /dB = Fф,
Величина Fф, называемая критерием Фишера, сравнивается с табличным, Fтабл. Как уже было отмечено, если Fф > Fтабл, то влияние фактора на результативный признак доказано. Если Fф < Fтабл то можно утверждать, что различие между дисперсиями находится в пределах возможных случайных колебаний и, следовательно, не доказывает с достаточной вероятностью влияние изучаемого фактора.
Теоретическая величина связана с вероятностью, и в таблице ее значение приводится при определенном уровне вероятности суждения. В приложении имеется таблица, позволяющая установить возможную величину F при вероятности суждения, наиболее часто используемой: уровень вероятности «нулевой гипотезы» – 0,05. Вместо вероятностей «нулевой гипотезы» таблица может быть названа таблицей для вероятности 0,95 существенности влияния фактора. Повышение уровня вероятности требует для сравнения более высокого значения Fтабл.
Величина Fтабл зависит также от числа степеней свободы двух сравниваемых дисперсий. Если число степеней свободы стремится к бесконечности, то Fтабл стремится к единице.
Таблица значений Fтабл построена следующим образом: в столбцах таблицы указаны степени свободы вариации для большей дисперсии, а в строках – степени свободы для меньшей (внутригрупповой) дисперсии. Величина F находится на пересечении столбца и строки соответствующих степеней свободы вариации.
Так, в нашем примере Fф = 21,3/3,8 = 5,6. Табличное же значение Fтабл для вероятности 0,95 и степеней свободы, соответственно равных 3 и 28, Fтабл = 2,95.
Значение Fф полученное в опыте, превышает теоретическое значение даже для вероятности 0,99. Следовательно, опыт с вероятностью более 0,99 доказывает влияние изучаемого фактора на урожайность, т. е. опыт можно считать надежным, доказанным, а значит, сроки посева оказывают существенное влияние на урожайность пшеницы. Оптимальным сроком посева следует считать период с 10 по 15 мая, так как именно при этом сроке посева получены наилучшие результаты урожайности.
Нами рассмотрена методика дисперсионного анализа при группировке по одному признаку и случайному распределению повторностей внутри группы. Однако часто бывает так, что опытный участок имеет какие-то различия в плодородии почвы и т. д. Поэтому может возникнуть такая ситуация, что большее число делянок одного из вариантов попадет на лучшую часть, и его показатели будут завышены, а другого варианта – на худшую часть, и результаты в этом случае, естественно, будут хуже, т. е. занижены.
Чтобы исключить варьирование, которое вызывается не относящимися к опыту причинами, надо из внутригрупповой (остаточной) дисперсии вычленить дисперсию, рассчитанную по повторностям (блокам).
Общая сумма квадратов отклонений подразделяется в этом случае уже на 3 составляющие:
Dо = Dм + Dповт + Dост. (1.33)
Для нашего примера сумма квадратов отклонений, вызванная повторностями, будет равна:
Стало быть, собственно случайная сумма квадратов отклонений будет равна:
Dост = Dв – Dповт; Dост= 106 – 44 = 62.
Для остаточной дисперсии число степеней свободы будет равно 28 – 7 = 21. Результаты дисперсионного анализа представлены в табл. 9.
Таблица 9
Поскольку фактические значения F-критерия для вероятности 0,95 превышают табличные, то влияние сроков посева и повторностей на урожайность пшеницы следует считать существенным. Рассмотренный способ построения опыта, когда участок предварительно делится на блоки с относительно выровненными условиями, а проверяемые варианты распределяются внутри блока в случайном порядке, называется способом рендомизированных блоков.
С помощью анализа дисперсионным методом можно изучить влияние не только одного фактора на результат, а двух и более. Дисперсионный анализ в этом случае будет называться многофакторным дисперсионным анализом.
Двухфакторный дисперсионный анализ отличается от двух однофакторных тем, что он может ответить на следующие вопросы:
1.1каково влияние обоих факторов вместе?
2.какова роль сочетания этих факторов?
Рассмотрим дисперсионный анализ опыта, в котором следует выявить влияние не только сроков посева, но и сортов на урожайность пшеницы (табл. 10).
Таблица 10. Данные опыта по влиянию сроков посева и сортов на урожайность пшеницы
– это сумма квадратов отклонений индивидуальных значений от общей средней.
Вариация по совместному влиянию сроков посева и сорта
– это сумма квадратов отклонений средних по подгруппам от общей средней, взвешенных на число повторностей, т. е. на 4.
Вычисление вариации по влиянию только сроков посева:
Остаточная вариация определяется как разность между общей вариацией и вариацией по совместному влиянию изучаемых факторов:
Dост = Dо – Dпс = 170 – 96 = 74.
Все расчеты можно оформить в виде таблицы (табл. 11).
Таблица 11. Результаты дисперсионного анализа
Результаты дисперсионного анализа показывают, что влияние изучаемых факторов, т. е. сроков посева и сорта, на урожайность пшеницы существенно, так как F-критерии фактические по каждому из факторов значительно превышают табличные, найденные для соответствующих степеней свободы, и при этом с достаточно высокой вероятностью (р = 0,99). Влияние же сочетания факторов в данном случае отсутствует, так как факторы независимы друг от друга.
Анализ влияния трех факторов на результат ведется по такому же принципу, что и для двух факторов, только в этом случае будет три дисперсии по факторам и четыре дисперсии по сочетанию факторов. С увеличением числа факторов резко увеличивается объем расчетных работ и, кроме того, становится затруднительно оформлять исходную информацию в комбинационную таблицу. Поэтому вряд ли целесообразно изучать влияние многих факторов на результат с использованием дисперсионного анализа; лучше взять меньшее их число, но выбрать наиболее существенные факторы с точки зрения экономического анализа.
Нередко исследователю приходится иметь дело с так называемыми непропорциональными дисперсионными комплексами, т. е. такими, в которых не соблюдается пропорциональность численностей вариантов.
В таких комплексах вариация суммарного действия факторов не равна сумме вариации по факторам и вариации сочетания факторов. Она отличается на величину, зависящую от степени связей между отдельными факторами, возникающих вследствие нарушения пропорциональности.
В этом случае возникают трудности при определении степени влияния каждого фактора, так как сумма частных влияний не равна суммарному влиянию.
Одним из способов приведения непропорционального комплекса к единой структуре является способ его замены пропорциональным комплексом, в котором частоты усреднены по группам. Когда такая замена произведена, задача решается по принципам пропорциональных комплексов.