Выявление и исключение резко выделяющихся наблюдений

Подготовка данных к анализу. Первичная обработка данных.

Пусть некоторые объекты или явления представляются множеством своих характеристик: X = (X₁, X₂, …, X_j, …X_m).

Матрицу наблюдений можно составить следующим образом:

В практических задачах приходится проводить статистическую обработку данных с целью исключения аномальных наблюдений, подбора однородных совокупностей, удаление дублирующих переменных и т.д.

Истинность некоторых индивидуальных наблюдений иногда вызывает сомнения, т.к. они резко выделяются на фоне основной массы наблюдений. Такие аномальные наблюдения могут появляться в следствии:

1. обычные колебания выборки обусловленные природой генеральной совокупности;

2. нарушение условий проведения наблюдений;

3. нарушение условий сбора статистических данных;

4. механические ошибки при регистрации данных и подготовки обработки на ЭВМ.

Единственно надежным способом исключения таких наблюдений является тщательное рассмотрение условий при которой они были получены. Если резко выделяющиеся наблюдения связаны с природой самого явления, то его нельзя исключать. Однако содержательный анализ не всегда доступен и в этом случае используется следующая логическая схема:

1) исходя из допущений о природе анализируемой совокупности задаём некоторую функцию y которую называют мерой удалённости от основной массы;

2) этот индикатор является индикатором аномальности. Значение этой функции вычисляются для всех наблюдений и сравнивают их с некоторым пороговым (уставка, норма) значением y₀;

3) Если y < y₀ , то наблюдение остается в совокупности;

4) Для всех наблюдений, для которых y > y₀ они либо исключаются из выборки, либо их значение подавляется с помощью весовых коэффициентов.

Если аномальные наблюдения выделены в группу для отдельного анализа, то все остальные подвергаются сглаживанию.

Для выделения аномальных наблюдений в нормально-распределённых данных применяют статистические критерии.

Рассмотрим каждый столбец матрицы наблюдений как одномерную выборку и представим элементы этого столбца в ранжированном виде, т. е. отсортируем столбец, например, по возрастанию. Тогда числа

х₍₁₎_j x₍₂₎_j … x₍_n₎_j , в этом выражении (1), (2), …,(n) – некоторая подстановка последовательности индексов i=1, …,n.

Составляем следующую комбинацию:

, где ,

Статистика V_j описывается распределением Стьюдента. Задавшись величиной - уровень значимости по двум числам , n из таблиц находим величину V_табл. Проверяется неравенство V_j<V_табл. Если неравенство выполняется, то значение x(n)_j остается в выборке. Эта процедура проводится до тех пор, пока не будут отброшены все резковыделяющиеся наблюдения.

Методика полностью справедлива, если числа выборки распределены по нормальному закону. В противном случае этой методикой можно пользоваться, если числа удается каким-либо преобразованием привести к форме нормального распределения (хотя бы приближенно).