Исследование данных на однородность
Сглаживание кривых
Сглаживание заключается в уточнении ординаты каждой точки с учётом положения нескольких ближайших точек. Часто применяется метод линейного сглаживания по пяти точкам. В этом методе используют 5 формул по две для точек крайних справа и слева и одну для всех внутренних точек.
yS0 = 0,2×(3y0 + 2y1 + y2 – y4) - крайняя левая точка
yS1 = 0,1×(4y0 + 3y1 + 2y2 + y3) - следующая точка
ySn-1 = 0,1×(yn-3 + 2yn-2 + 3yn-1 + 4yn) - предпоследняя точка
ySn= 0,2×(3yn + 2yn-1 + yn-2 – yn-4) - крайняя правая
Для всех внутренних точек, т.е. таких, что i = 2, …, n-2 применяется:
ySi= 0,2×(yi-2 + yi-1 + yi + yi+1 + yi+2)
Наиболее часто используется так называемое экспоненциальное сглаживание. При таком сглаживании предполагается что
xi = b + e
xi – измерение; b – детерминированное число; e - случайная ошибка.
Константа b относительно стабильна, но может иногда меняться со временем.
Одним из интуитивных способов выделения b, является использование скользящего среднего, в котором последним наблюдениям приписываются большие веса, чем предпоследним. В свою очередь предпоследним приписываются большие веса, чем предыдущим и т.д. Точная формула простого экспоненциального сглаживания имеет следующий вид:
Si = a×xi + (1-a)×Si-1
Si – сглаженное значение
xi – текущее значение
Si-1 – предыдущий сглаженный ряд
Когда эта формула применяется рекурсивно, то каждое новое сглаженное значение (которое одновременно является прогнозом) вычисляется как взвешенное среднее текущего наблюдения и сглаженного ряда. Коэффициент сглаживания a выбирается из промежутка aÎ[0, 1] по принципу:
å(Si – xi)2 ® min
Ряд функций MathCAD предназначены для выполнения сглаживания. В названии этих функций имеется слово Smooth (гладкий).
1: medsmooth (VY, n) − это функция для m -мерного VY возвращает m-мерный вектор сглаженных значений по методу скользящей медианы. n – это ширина окна сглаживания, должно быть нечётным числом n < m.
последнее наблюдение |
Веса наблюдений |
3: supSmooth (VX, VY) – эта функция осуществляет линейное сглаживание по принципу k ближайших соседей ( величина k выбирается адаптивно). VX в этих функциях должны быть отсортированы по возрастанию.
Данные собираются на разных объектах в разных условиях, поэтому возникает необходимость установления их принадлежности одной генеральной совокупности. Без применения инструментов математической статистики можно решить следующие задачи.
Задача №1.
На матрице исходных данных X сгруппировать данные в однородные группы. Если границы этих групп заданы, то мы имеем задачу классификации. Если границы групп не заданы, то мы имеем задачу распознавания образов.
Решение задачи №1.
Матрицу наблюдений X разобьем на группы с помощью какого-либо метода многомерной классификации. Чаще всего используют так называемые Гиперсферические классы, основанные на Евклидовой метрике. Такие классы называют таксонами.
В результате можно получить следующую информацию:
1 − радиус гиперсферы, которая охватывает все множество точек наблюдения;
2 − координаты центра всего исходного множества;
3 − вычисленное или заданное число групп. Радиус, номер координаты центра группы, а так же номера точек попавших в эту группу.
Устанавливается последовательность типичных точек группы, т.е. таких которые наиболее приближены к центру таксона. Для этого обычно исследуются следующие метрики:
1. Евклидовы метрики: dAB = inf d (Xi , Xj)
в евклидовой метрике выбирается наименьшее значение, распределенное между значениями Xi и Xj
2. использование корреляции: dAB =1 - |rAB|
r – коэффициент корреляции между векторами A и B.
3. медианное расстояние: dM =median[ | (A-B) – median (A-B) | ].
Задача №2. задача уменьшения размерности.
На первой стадии изучения объектов или явлений рассматриваются все измеряемые факторы, так чтобы сформировать матрицу исходных данных X максимальной размерности. Затем группировкой пытаемся уменьшить размер этой матрицы. Для этого выделяем однородные группы и в них оставляем 1 – 2 фактора.
Решение задачи№2.
Проводится группировка в m факторах для k классов. Например: с помощью метрики: d=1 - │rjk│. После образования т.о. групп факторов выбираем из каждой группы по одному, максимально по два фактора. Обычно при этом придерживаются следующих рекомендаций:
1) чем ближе фактор к среднему группы, тем предпочтительней его выбор;
2) выбирается фактор имеющий наибольший коэффициент корреляции с зависимой переменной;
3) связь отобранного фактора с другими переменными должна быть наименьшей.
Исследование данных на однородность может быть проведено средствами математической статистики.
Пусть имеются две выборки нормально распределённых случайных чисел ; ; ; .
Проверяется гипотеза для этого формируется комплекс
,
где ,
Если верна H1, то ρ (X,Y) имеет распределения Фишера Fn-1,m-1 с n-1, m-1 степенями свободы. Если , то эти выборки принадлежат одной генеральной совокупности.