Лекция 8. ЛИНЕЙНЫЙ РЕГРЕССИОНЫЙ АНАЛИЗ. МНОГОМЕРНЫЕ ФИЗИЧЕСКИЕ ПОСТРАНСТВА

Корреляционный анализ (дисперсионный анализ) означает нахождение уравнения и статистических характеристик, описывающих зависимость параметров. Параметры могут быть приняты как аргументы или иначе - факторы (фундаментальные параметры) и как функции (параметры зависящие от аргумента). Корреляционный анализ изначально предполагает значимость погрешностей всех параметров. В обратном случае необходимо называть процесс исследования взаимосвязи параметров регрессионным анализом. Таким образом, регрессионный анализ является частным случаем корреляционного анализа. В дальнейшем рассмотрим частный случай корреляционного анализа – линейный регрессионный анализ (имеет место линейная зависимость функции от аргумента и погрешность аргумента незначима по сравнению с погрешностью функции).

При линейном регрессионном анализе зависимости двух параметров решаются следующие вопросы: Нахождение уравнения, оптимально описывающего зависимость параметров (нахождение уравнения регрессии). Нахождение показателя, характеризующего связь между двумя параметрами (соответствующий коэффициент называется коэффициентом корреляции). Оценка статистических характеристик полученного уравнения.

Нахождение коэффициентов линейного уравнения регрессии методом наименьших квадратов(МНК) определяется проведением прямой линии охватывающей экспериментальные данные таким образом, чтобы сумма квадратов отклонений экспериментальных данных от линии регресии была наименьшей.

Алгоритм обработки данных: В базе данных имеются n значениq двух параметров (xi, yi). Аргументу присваивается символ Х, а функции – Y. Для наглядности зависимость нужно отобразить графически: Y=f(X).Находят угловой коэффициент уравнения регрессии: b=å(x_i-X)_*(y_i-Y)/å(x_i-X)², и свободный член уравнения регрессии: a=Y-bX,составляют уравнение регрессии: Y=a+bX.Угловой коэффициент b может быть интерпретирован как величина изменения результативного признака (Y) при изменении факторного признака (X) на единицу. Минимизация суммы квадратов отклонений точек по оси Y не означает одновременно, что аналогичная сумма квадратов по оси X тоже будет минимальной.

Вычисление коэффициента корреляции.Количественной статистической мерой линейной зависимости между признаками, имеющими количественное выражение, является коэффициент корреляции r:

r=[å(x_i-X)_*(y_i-Y)]/SQR(å(x_i-X)² å(y_i-Y)²), r=(nåx_i y_i-åx_i åy_i)/SQR([nåx_i²-(åx_i)²]_*[nåy_i²- åy_i)²]

Формулы равнозначны, но вторая более удобна для программирования. r может принимать значения от 0 до 1. При r = 0 связь между факторами отсутствует, при r = 1 связь однозначная. Однако r не является показателем точности прогноза, его можно использовать только для решения вопроса о том, в каком случае взаимная связь факторов больше или меньше. r можно рассматривать как среднее геометрическое из угловых коэффициентов двух линий регрессий Y по X и X по Y: êr_xyê=SQR(b_*b`).

Для метрологической проработки результатов измеренийкроме расчета параметров регрессии необходима оценка всех видов погрешностей, сравнение с технологическими и другими видами оценок, вычисление рабочей области измерений. Эти вопросы решаются в ходе практических работ. При проведении измерений необходимо стремиться к обеспечению оптимальной точности результата измерений. При этом следует помнить, что низкая точность измерений приводит к получению ошибочной информации о состоянии измеряемого объекта. Необоснованно высокая точность измерения может быть экономически неоправданной. Поэтому при решении вопроса о выборе средств и методов измерений следует помнить следующие основные положения: 1. Средства измерений не должны оказывать значимое влияние на физическое состояние измеряемого объекта. 2. Когда абсолютные измерения не позволяют получить результаты с необходимой точностью, следует перейти к относительным измерениям как одному из способов получения результата измерений с более высокой точностью. 3.Повышение точности результата измерений может быть достигнуто исключением грубых и систематических погрешностей из результатов измерений и уменьшением влияния случайных погрешностей. При этом во всех случаях грубые погрешности (промахи) следует исключать из результатов измерений. Систематические погрешности следует исключать тогда, когда это обеспечивает заметное повышение точности. Необходимо иметь в виду, что, если принять за результат измерений среднее арифметическое из ряда n-измерений, точность повышается в n^0.5 раз. Зависимость между s_х и s единичных измерений определяется равенством s_о=s_х/Ön. 4.Неоднородность измеряемого объекта не должна оказывать влияние на результат его измерений. 5. Необходимо помнить, что порог чувствительности средств измерений ограничена. Точность результата измерений никогда не может быть выше порога чувствительности средств измерений.

Ограничения в линейном регрессионном анализе: 1. Факторы и функции известны и детерминированы. 2. Нет ограничений на параметры. 3. Нет значимой систематической погрешности. 4. Σε(t)=0 – выполняется условие несмещенности случайной погрешности. t – k-мерный вектор факторов.

Регрессионный анализ модели включает этапы: 1. Точечная оценка параметров и самой функции, оценка σ². При этом используется метод МНК, не требующий знания типа распределения вероятностей случайных погрешностей. Другие методы, требующие знания типа распределения: МНСП (метод наибольшего статистического правдоподобия), метод максимизации апостериорной плотности распределения параметров (оценивание по Байесу). 2. Оценка точности. Геометрические характеристики элипсоида рассеяния параметров (ЭРОП) определяются статистическими характеристиками случайных погрешностей параметров. Квадрат объема ЭРОП пропорционален обобщенной дисперсии оценок параметров. Эллипсоид рассеяния МНК-оценок имеет наименьшие размеры в классе несмещенных оценок. Критерии МНК-оценок являются основой при формировании критериев оптимальности в планировании экспериментов. 3. Доверительное оценивание. При условии известности вида распределения формируется эллипсоид рассеяния оценок параметров, который с вероятностью Р накрывает вектор истинных параметрических функций. 4. Проверка статистических гипотез. Чаще всего проверяют гипотезы о незначимости погрешностей параметров; о незначимости некоторых параметров в определенных участках функций; об адекватности модели. Оценку незначимости параметров на определенных участках физического пространства можно рассмотреть на примере практической работы 7.

Нелинейный регрессионный анализ.Отличия от линейного регрессионного анализа: 1. Отклик зависим от факторов нелинейно. Решений уравнений нетривиальное с множеством неоднозначных решений. Часто функции имеют параметры в неявном виде (нельзя решить уравнения аналитически через этот параметр). 2. В случае нормального распределения погрешностей факторов, погрешности и оценки откликов могут иметь другие распределения. Определение видов этих распределений затруднено. В результате затруднены процедуры доверительного оценивания и проверка гипотез моделей. В случае несмещенности (незначимости систематических погрешностей), равноточности и некоррелированности наблюдений задача аналогична линейному регрессионному анализу со следующими дополнениями: 1. Использование методов линеаризации функции (получение анаморфоз). 2. Использование метода поправок (поправки к линейной составляющей). 3. Использование данных, полученных по прямой математической модели для первоначальной оценки параметров. Прямой математической моделью следует называть модель, созданную на основе априорной информации. Модель должна содержать все значимые факторы и отклики. Значения параметров могут быть любыми или в заданных границах. Подбирая значения констант, параметров, откликов и оптимально подгоняя под экспериментальные данные, можно дискриминировать уравнения. Полученные таким образом начальные оценки позволяют более точно провести оценку соответствия с данными эксперимента. Далее можно создать новую модель, задача которой провести уточнение целевых функций. Такой цикл расчетов называется итерационным. Число циклов итераций определяется незначимостью поправок за счет итераций. Оценка последней итерации считается окончательной. Указанная процедура является универсальной при исследовании любых сложных систем.

Проблема неединственности решения задач оценивания параметров регрессии.Даже при большом числе опытов, проведенных различными способами и средствами, неоднозначность определения оценок параметров или создание адекватной объекту математической модели является неоднозначной, неединственной (неединственность информационной матрицы). Априорная неидентифицируемость определяется структурой модели (модель может быть излишне упрощенной, что дает ложные результаты; излишне сложной, что дает невозможность получения решений из-за нехватки возможностей ЭВМ, интерпретации данных, неоднозначности результатов и т.д.); неадекватной (неправильно выбраны предпосылки, граничные условия и т.д. – ложная модель). Такая неидентифицируемость не может быть устранена за счет выбора более совершенного эксперимента. Устранение проблемы проводится за счет нового анализа структуры модели и вывода о возможности или невозможности однозначного определения параметров в условиях хотя бы идеального эксперимента (неограниченный объем наблюдений, отсутствие погрешностей, новые методы и способы эксперимента). Различают два вида априорной неидентифицируемости: Модель называется структурно - локально неидентифицируемой (СЛНИ), если для параметрического пространства есть участки, где непрерывное преобразование параметров не приводит к изменению отклика, что легко приводит к смещенным оценкам параметров. Такое положение может быть устранено при привлечении дополнительной информации о параметрах модели. СЛНИ модель допускает репараметризацию (переход к другим параметрам, которые могут быть оценены однозначно). Такие параметры называются параметрическими функциями, допускающие оценивание (ПФДО). Установив связи между отдельными функциями базисного уравнения можно устранить СЛНИ. Число таких ПФДО равно числу линейно независимых функций. Также причины неоднозначности определения оценок параметров могут быть в результате нарушения условия линейной независимости отдельных функций базисного уравнения. Модель называется структурно-глобально неидентифицируемой (СГНИ), если для любой точки параметрического пространства преобразование параметров не приводит к изменению отклика. Это обязательно нелинейные модели. Задача отыскания параметров для СГНИ моделей по данным идеального эксперимента может иметь конечное число решений, если есть структурно-локально идентифицируемые участки СГНИ-СЛИ модели.

Апостериорная неидентифицируемость возникает при обработке данных эксперимента и связана как с неверной структурой моделей, так и с погрешностями эксперимента, недостаточностью данных, неполным экспериментальным перебором факторного пространства, особенно в местах экстремумов и перегибов функций. Так, число опытов могут быть меньше числа параметров.