Проверка адекватности модели

 

Первый вопрос, который нас интересует после вычис­ления коэффициентов модели, это проверка ее пригод­ности. Мы будем называть такую проверку провер­кой адекватности модели.

Для характеристики среднего разброса относительно линии регрессии вполне подходит остаточная сумма квад­ратов. Неудобство состоит в том, чтоона зависит от чис­ла коэффициентов в уравнении: введите столько коэф­фициентов, сколько вы провели независимых опытов, и получите остаточную сумму, равную нулю. Поэтому предпочитают относить ее на один «свободный» опыт. Число таких опытов называется числом степеней свобо­дыf.

Числом степеней свободы в статистике называется разность между числом опытов и числом коэффициентов (констант), которые уже вычислены по результатам этих опытов независимо друг от друга.

Остаточная сумма квадратов, деленная на число сте­пеней свободы, называется остаточной диспер­сией, или дисперсией адекватности

.

В статистике разработан критерий, который очень удобен для проверки гипотезы об адекватности модели. Он называется F-критерием Фишера и определяется сле­дующей формулой:

.

– это дисперсия воспроизводимости со своим числом степеней свободы.

Удобство использования критерия Фишера состоит в том, что проверку гипотезы можно свести к сравнению с табличным значением.

Если рассчитанное значение F-критерия не превы­шает табличного, то, с соответствующей доверительной вероятностью, модель можно считать адекватной. При превышении табличного значения эту приятную гипотезу приходится отвергать.

Этот способ расчета дисперсии адекватности, подходит, если опыты в матрице планирования не дублируются, а информация о дисперсии воспроизводимости извлекается из параллельных опытов в нулевой точке или из предварительных экспериментов.

Важны два случая: 1) опыты во всех точках плана дублируются одинаковое число раз (равномерное дублирование), 2) число параллельных опытов не одинаково (неравномерное дублирование).

В первом случае дисперсию адекватности нужно умножать на n, где n – число повторных опытов

.

Такое видоизменение формулы вполне естественно. Чем больше число параллельных опытов, тем с большей достоверностью оцени­ваются средние значения. Поэтому требования к различиям между экспериментальными и расчетными значениями становятся более жесткими, что отражается в увеличении F-критерия.

Во втором случае, когда приходится иметь дело с неравномер­ным дублированием, положение усложняется. Даже когда экспе­риментатор задумал провести равное число параллельных опытов, часто не удается по тем или иным причинам все их реализовать. Кроме того, иногда приходится отбрасывать отдельные опыты как выпадающие наблюдения.

При неравномерном дублировании нарушается ортогональность матрицы планирования и, как следствие, изменяются расчетные фор­мулы для коэффициентов регрессии и их ошибок, а также для дис­персии адекватности.

Для дисперсии адекватности можно записать общую формулу

,

где N – число различных опытов (число строк матрицы);

ni – число параллельных опытов в i-й строке матрицы;

– среднее арифметическое из ni параллельных опытов;

– предсказанное по уравнению значение в этом опыте.

Смысл этой формулы очень прост: различию между эксперимен­тальным и расчетным значением придается тем больший вес, чем больше число повторных опытов.

Для b-коэффициентов нельзя записать универсальную рас­четную формулу. Все зависит от того, какой был план и как дубли­ровались опыты. Всякий раз приходится делать специальные рас­четы, пользуясь методом наименьших квадратов.