Объединение неоднородных выборок

Одним из простых и рациональных способов слияния является линейное объединение оценок показателей независимо от степени однородности имеющейся информации. При таком способе объединения неоднородной информации общая выборка рассматривается как смесь из m выборок однотипных наблюдений, каждая из которых имеет свои значения показателей. Подобное объединение возможно для несмещенных выборочных средних оценок (типа центральных моментов распределения, вероятностей свершения событий).

Пусть имеются выборочные средние оценки q i отдельных слоев. Задача состоит в нахождении функции q = z( q1, q2, ..., qm),которая была бы лучшей, в смысле принятого критерия, объединенной оценкой q параметра Т. Типичным критерием оптимальности оценки является минимум дисперсии оценки. В качестве оценочной функции можно взять любую, но использование сложных функций вызывает трудно преодолимые препятствия по нахождению несмещенных и эффективных оценок. Лучше взять простую линейную комбинацию Коэффициенты ni выбирают из условия что обеспечивает получение несмещенной объединенной оценки. Значения коэффициентов ni, обеспечивающие минимум дисперсии искомой оценки равны

 

Применение рассмотренного подхода предполагает знание дисперсий оценок, которые, как правило, неизвестны. Замена дисперсии ее выборочной оценкой приводит к трудно оцениваемому смещению величины q . Преодоление данного недостатка возможно на основе объединения выборок с учетом доли каждой выборки в общем объеме имеющихся сведений, т.е. коэффициенты qi характеризуют относительный вклад каждого слоя в общую оценку. Значение коэффициента qi можно определить как отношение объема данной выборки к общему объему всех наблюдений или по отношению наработки данной группы устройств к общей наработке всех устройств. Линейное объединение оценок приводит к их усреднению по всем выборкам. Иначе говоря, значение некоторого показателя в данном случае следует рассматривать как среднее значение случайной величины, принимающей значение q i с вероятностью q i.

В некоторых случаях выборки формируются по наблюдениям за аналогичными объектами, работающими в различных условиях, и из априорных соображений (например, по результатам математического моделирования) известна функциональная связь между параметрами этих выборок или установлена зависимость показателя каждого объекта от условий его функционирования. Наличие таких соотношений позволяет построить искомые оценки показателей по методу максимального правдоподобия, используя объединенную выборку.

Сущность подхода состоит в следующем. Пусть имеются две выборки, являющиеся реализациями случайных величин X и Y, принадлежащих различным законам распределения. Так как изделия подобны, то параметры q x и q y связаны между собой функциональной зависимостью q y = j(q x), вид которой предполагается известным. Тогда логарифм функции правдоподобия запишется в виде

,

 

где fx и fy – функции плотности распределения случайных величин X и Y соответственно. В таком случае задача оценивания двух параметров сводится к задаче оценивания параметра q x по одной совместной выборке x1, ..., xn, y1, ...,ym. По методу максимума правдоподобия оценка q x находится из уравнения

.

Эта оценка обладает всеми достоинствами оценок максимального правдоподобия, но нахождение оценки связано с преодолением математических трудностей, связанных с решением уравнения правдоподобия. Если не вводить существенных упрощений по виду функциональной связи параметров, то обычно уравнение удается решить только численными методами.

В настоящее время нет достаточно обоснованных и проработанных общих подходов к объединению информации, содержащейся в неоднородных выборках. Подобное объединение было бы возможно, если бы удалось построить модели, учитывающие взаимосвязи показателей с процессами, протекающими в конкретных объектах и во внешней среде, или удалось бы установить корреляционные связи показателей объектов, эксплуатируемых в различных условиях. При отсутствии объективных априорных сведений по этим закономерностям можно предусмотреть их “открытие” на основе обработки эмпирических данных. Но такая процедура требует значительного объема статистического материала.

Пример 6.1. По результатам наблюдения за пропускной способностью канала в различные дни испытаний сформированы упорядоченные выборки, табл. 6.1. При уровне значимости a = 0,05 необходимо проверить однородность выборок.

Решение. Возьмем в качестве исходной выборку Х, соответствующую первому дню испытаний, и проверим ее на однородность с выборкой Y, составленной из результатов второго дня испытаний. Перечислим последовательность элементов в общем вариационном ряду, составленном из элементов первой и второй выборки: yyxyxyxxyxyxy.

Таблица 6.1

День испытаний Пропускная способность, байт/с
259,14 260,06 260,97 262,43 267,83 273,14  
253,68 258,14 259,49 260,18 263,65 271,39 274,12
256,69 259,36 262,84 265,94 270,33 270,44 271,63

Сумма порядковых номеров вариант первого дня испытаний (n1<n2) составит u=3+5+7+8+10+12 =45. Количество элементов в обеих выборках меньше 25, поэтому следует воспользоваться распределением Вилкоксона для проверки гипотезы Н0 об однородности выборок. Значение нижней критической точки для двусторонней критической области при заданном уровне a /2=0,025, количестве наблюдений п1=6, п2=7 определим по табл. П.5. Оно составит uн = 27. Значение верхней критической точки распределения равно uв = (п1+ п2+1)п1 uн = (6+7+1)6 – 27 = 57. Значение величины u превышает uн и меньше uв, поэтому нет оснований отвергать нулевую гипотезу об однородности выборок. Обозначим объединенную выборку через Х.

Проверим однородность объединенной выборки Х и результатов третьего дня наблюдений W. Построим общий вариационный ряд из элементов выборки Х и выборки W: xwxxwxxxxxwxwxwwxwxx.

Сумма порядковых номеров вариант третьего дня испытаний (этих вариант меньше, чем в объединенном ряду Х) составит u=2+5+11+13+15+16+18=80. Воспользуемся распределением Вилкоксона и определим при уровне значимости a /2=0,025, п1=7, п2 =13 нижнюю критическую точку uн = 48, табл. П.5. Верхняя критическая точка uв = (7+13+1)7 – 48=99. В соответствии с выбранным критерием нет оснований отвергать нулевую гипотезу, следовательно, все три выборки однородны и их можно объединить в одну.