Исследование данных на однородность

Сглаживание кривых

Сглаживание заключается в уточнении ординаты каждой точки с учётом положения нескольких ближайших точек. Часто применяется метод линейного сглаживания по пяти точкам. В этом методе используют 5 формул по две для точек крайних справа и слева и одну для всех внутренних точек.

yS0 = 0,2×(3y0 + 2y1 + y2 – y4) - крайняя левая точка

yS1 = 0,1×(4y0 + 3y1 + 2y2 + y3) - следующая точка

ySn-1 = 0,1×(yn-3 + 2yn-2 + 3yn-1 + 4yn) - предпоследняя точка

ySn= 0,2×(3yn + 2yn-1 + yn-2 – yn-4) - крайняя правая

Для всех внутренних точек, т.е. таких, что i = 2, …, n-2 применяется:

ySi= 0,2×(yi-2 + yi-1 + yi + yi+1 + yi+2)

Наиболее часто используется так называемое экспоненциальное сглаживание. При таком сглаживании предполагается что

xi = b + e

xi – измерение; b – детерминированное число; e - случайная ошибка.

Константа b относительно стабильна, но может иногда меняться со временем.

Одним из интуитивных способов выделения b, является использование скользящего среднего, в котором последним наблюдениям приписываются большие веса, чем предпоследним. В свою очередь предпоследним приписываются большие веса, чем предыдущим и т.д. Точная формула простого экспоненциального сглаживания имеет следующий вид:

Si = a×xi + (1-a)×Si-1

Si – сглаженное значение

xi – текущее значение

Si-1 – предыдущий сглаженный ряд

Когда эта формула применяется рекурсивно, то каждое новое сглаженное значение (которое одновременно является прогнозом) вычисляется как взвешенное среднее текущего наблюдения и сглаженного ряда. Коэффициент сглаживания a выбирается из промежутка aÎ[0, 1] по принципу:

å(Si – xi)2 ® min

 

Ряд функций MathCAD предназначены для выполнения сглаживания. В названии этих функций имеется слово Smooth (гладкий).

1: medsmooth (VY, n) − это функция для m -мерного VY возвращает m-мерный вектор сглаженных значений по методу скользящей медианы. n – это ширина окна сглаживания, должно быть нечётным числом n < m.

последнее наблюдение
Веса наблюдений
2: ksmooth (VX, VY, b). VX и VY n-мерные вектора. b – полоса пропускания. Возвращается n-мерный вектор сглаженных VY, вычисленных на основе распределения Гаусса.

 

 

3: supSmooth (VX, VY) – эта функция осуществляет линейное сглаживание по принципу k ближайших соседей ( величина k выбирается адаптивно). VX в этих функциях должны быть отсортированы по возрастанию.

 

Данные собираются на разных объектах в разных условиях, поэтому возникает необходимость установления их принадлежности одной генеральной совокупности. Без применения инструментов математической статистики можно решить следующие задачи.

Задача №1.

На матрице исходных данных X сгруппировать данные в однородные группы. Если границы этих групп заданы, то мы имеем задачу классификации. Если границы групп не заданы, то мы имеем задачу распознавания образов.

Решение задачи №1.

Матрицу наблюдений X разобьем на группы с помощью какого-либо метода многомерной классификации. Чаще всего используют так называемые Гиперсферические классы, основанные на Евклидовой метрике. Такие классы называют таксонами.

В результате можно получить следующую информацию:

1 − радиус гиперсферы, которая охватывает все множество точек наблюдения;

2 − координаты центра всего исходного множества;

3 − вычисленное или заданное число групп. Радиус, номер координаты центра группы, а так же номера точек попавших в эту группу.

Устанавливается последовательность типичных точек группы, т.е. таких которые наиболее приближены к центру таксона. Для этого обычно исследуются следующие метрики:

1. Евклидовы метрики: dAB = inf d (Xi , Xj)

в евклидовой метрике выбирается наименьшее значение, распределенное между значениями Xi и Xj

2. использование корреляции: dAB =1 -‌‌‌ |rAB|

r – коэффициент корреляции между векторами A и B.

3. медианное расстояние: dM =median[ | (A-B) – median (A-B) | ].

 

Задача №2. задача уменьшения размерности.

На первой стадии изучения объектов или явлений рассматриваются все измеряемые факторы, так чтобы сформировать матрицу исходных данных X максимальной размерности. Затем группировкой пытаемся уменьшить размер этой матрицы. Для этого выделяем однородные группы и в них оставляем 1 – 2 фактора.

Решение задачи№2.

Проводится группировка в m факторах для k классов. Например: с помощью метрики: d=1 - │rjk│. После образования т.о. групп факторов выбираем из каждой группы по одному, максимально по два фактора. Обычно при этом придерживаются следующих рекомендаций:

1) чем ближе фактор к среднему группы, тем предпочтительней его выбор;

2) выбирается фактор имеющий наибольший коэффициент корреляции с зависимой переменной;

3) связь отобранного фактора с другими переменными должна быть наименьшей.

Исследование данных на однородность может быть проведено средствами математической статистики.

Пусть имеются две выборки нормально распределённых случайных чисел ; ; ; .

Проверяется гипотеза для этого формируется комплекс

,

где ,

Если верна H1, то ρ (X,Y) имеет распределения Фишера Fn-1,m-1 с n-1, m-1 степенями свободы. Если , то эти выборки принадлежат одной генеральной совокупности.