Методы многомерного статистического анализа

Встречаются такие ситуации, в которых случайная изменчивость была представлена одной-двумя случайными пе­ременными, признаками.

Например, при исследовании статистической совокупности людей нас интересуют рост и вес. В этой ситуации, сколько бы людей в статистиче­ской совокупности ни было, мы всегда можем построить диаграмму рассея­ния и увидеть всю картину в целом. Однако если признаков три, например, добавляется признак — возраст человека, тогда диаграмма рассеяния долж­на быть построена в трехмерном пространстве. Представить совокупность точек в трехмерном пространстве уже довольно затруднительно.

В реально­сти на практике каждое наблюдение представляется не одним-двумя-тремя числами, а некоторым заметным набором чисел, которые описывают де­сятки признаков. В этой ситуации для построения диаграммы рассеяния потребовалось бы рассматривать многомерные пространства.

Раздел статистики, посвященный исследованиям экспе­риментов с многомерными наблюдениями, называется многомерным стати­стическим анализом.

Измерение сразу нескольких признаков (свойств объекта) в одном экс­перименте в общем более естественно, чем измерение какого-либо одного, двух. Поэтому потенциально многомерный статистический анализ имеет широкое поле для применения.

К многомерному статистическому анализу относят следую­щие разделы:

• факторный анализ;

• дискриминантный анализ;

• кластерный анализ;

• многомерное шкалирование;

• методы контроля качества.

Факторный анализ

При исследовании сложных объектов и систем (например, в психологии, биологии, социологии и т. д.) величины (факторы), определяющие свойства этих объектов, очень часто невозможно измерить непосредственно, а ино­гда неизвестно даже их число и содержательный смысл. Но для измерения могут быть доступны иные величины, так или иначе зависящие от инте­ресующих факторов. При этом когда влияние неизвестного интересующего нас фактора проявляется в нескольких измеряемых признаках, эти призна­ки могут обнаруживать тесную связь между собой и общее число факторов может быть гораздо меньше, чем число измеряемых переменных.

Для обнаружения факторов, влияющих на измеряемые переменные, ис­пользуются методы факторного анализа.

Примером применения факторного анализа может служить изучение свойств личности на основе психологических тестов. Свойства личности не поддаются прямому измерению, о них можно судить только по поведе­нию человека или характеру ответов на те или иные вопросы. Для объяс­нения результатов опытов их подвергают факторному анализу, который и позволяет выявить те личностные свойства, которые оказывают влияние на поведение испытуемых индивидуумов.

В основе различных моделей факторного анализа лежит следующая ги­потеза: наблюдаемые или измеряемые параметры являются лишь косвенны­ми характеристиками изучаемого объекта или явления, в действительности существуют внутренние (скрытые, латентные, не наблюдаемые непосред­ственно) параметры и свойства, число которых мало и которые определяют значения наблюдаемых параметров. Эти внутренние параметры принято на­зывать факторами.

Задачей факторного анализа является представление наблюдаемых параметров в виде линейных комбинаций факторов и, быть может, некоторых дополнительных, несущественных возмущений.

Первый этап факторного анализа, как правило, – это выбор новых признаков, которые являются линейными комбинациями прежних и «вби­рают» в себя большую часть общей изменчивости наблюдаемых данных, а потому передают большую часть информации, заключенной в первоначаль­ных наблюдениях. Обычно это осуществляется с помощью метода главных компонент,хотя иногда используют и другие приемы (метод максимального правдоподобия).

Метод главных компонент сводится к выбору новой ортогональной си­стемы координат в пространстве наблюдений. В качестве первой главной компоненты избирают направление, вдоль которого массив наблюдений имеет наибольший разброс, выбор каждой последующей главной компонен­ты происходит так, чтобы разброс наблюдений был максимальным и чтобы эта главная компонента была ортогональна другим главным компонентам, выбранным ранее. Однако факторы, полученные методом главных компо­нент, обычно не поддаются достаточно наглядной интерпретации. Поэтому следующий шаг факторного анализа — преобразование, вращение факторов для облегчения интерпретации.

Дискриминантный анализ

Пусть имеется совокупность объектов, разбитая на несколько групп, и для каждого объекта можно определить, к какой группе он относится. Для каждого объекта имеются измерения нескольких количественных характе­ристик. Необходимо найти способ, как на основании этих характеристик можно узнать группу, к которой относится объект. Это позволит указывать группы, к которым относятся новые объекты той же совокупности. Для решения поставленной задачи применяются методы дискриминантного анализа.

Дискриминантный анализ это раздел статистики, содержанием которого является разработка методов решения задач различения (дискриминации) объектов наблюдения по определенным признакам.

Рассмотрим некоторые примеры.

• Дискриминантный анализ оказывается удобным при обработке ре­зультатов тестирования отдельных лиц, когда дело касается приема на ту или иную должность. В этом случае необходимо всех кандида­тов разделить на две группы: «подходит» и «не подходит».

• Использование дискриминантного анализа возможно банковской ад­министрацией для оценки финансового состояния дел клиентов при выдаче им кредита. Банк по ряду признаков классифицирует их на надежных и ненадежных.

• Дискриминантный анализ может быть привлечен в качестве метода разбиения совокупности предприятий на несколько однородных групп по значениям каких-либо показателей производственно-хозяйствен­ной деятельности.

Методы дискриминантного анализа позволяют строить функции изме­ряемых характеристик, значения которых и объясняют разбиение объектов на группы. Желательно, чтобы этих функций (дискриминантных призна­ков) было немного. В этом случае результаты анализа легче содержательно толковать.

Благодаря своей простоте особую роль играет линейный дискриминант­ный анализ, в котором классифицирующие признаки выбираются как ли­нейные функции от первичных признаков.

Кластерный анализ

Методы кластерного анализа позволяют разбить изучаемую совокуп­ность объектов на группы «схожих» объектов, называемых кластерами.

Слово кластер английского происхождения — cluster переводится как кисть, пучок, группа, рой, скопление.

Кластерный анализ решает следующие задачи:

• проводит классификацию объектов с учетом всех тех признаков, которые характеризуют объект. Сама возможность классификации продвигает нас к более углубленному пониманию рассматриваемой совокупности и объектов, входящих в нее;

• ставит задачу проверки наличия априорно заданной структуры или классификации в имеющейся совокупности. Такая проверка дает воз­можность воспользоваться стандартной гипотетико-дедуктивной схе­мой научных исследований.

Большинство методов кластеризации (иерархической группы) являются агломеративными (объединительными) — они начинают с создания эле­ментарных кластеров, каждый из которых состоит ровно из одного исходно­го наблюдения (одной точки), а на каждом последующем шаге происходит объединение двух наиболее близких кластеров в один.

Момент остановки этого процесса может задаваться исследователем (на­пример, указанием требуемого числа кластеров или максимального рассто­яния, при котором достигнуто объединение).

Графическое изображение процесса объединения кластеров может быть получено с помощью дендрограммы — дерева объединения кластеров.

Рассмотрим следующий пример. Проведем классификацию пяти предприятий, каждое из которых характеризуется тремя переменными:

х1 – среднегодовая стоимость основных производственных фондов, млрд руб.;

х2 – материальные затраты на 1 руб. произведенной продукции, коп.;

х3 – объем произведенной продукции, млрд руб.

В таблице приведены соответствующие значения для каждого из предприятий:

Исходные данные
предприятие х1 х2 х3
№ 1 94,0
№ 2 75,2
№ 3 81,0
№ 4 76,9
№ 5 75,9

На рис. 5 приведена искомая дендрограмма, демонстрирующая объединение предприятий-кластеров на базе оценки евклидова расстояния между ними в пространстве переменных х1 , х2 и х3.

Изучение дендрограммы на рис. 5 приводит к следующим выводам. Среди пяти предприятий, если следовать слева направо, можно обнаружить следующие два кластера:

кластер № 1: предприятия: № 5, № 4, № 2;

кластер № 2: предприятия: № 3, № 1.

Рис. 5. Дендрограмма пяти предприятий

Обратными агломеративным методам кластеризации являются дивизивные методы. В этом подходе исходят из того, что вначале все объекты относят к одному кластеру, далее по определенным правилам появляют­ся два и более кластера и т. д. вплоть до количества кластеров, равного количеству объектов.

Результаты кластеризации зависят от выбранного метода, и эта зависи­мость тем сильнее, чем менее явно изучаемая совокупность разделяется на группы объектов. Поэтому к результатам вычислительной кластеризации следует относиться с осторожностью.

Многомерное шкалирование

Во многих областях исследования (например, в психологии, биологии, социологии, лингвистике и т. д.) бывает затруднительно или невозможно проводить непосредственное измерение интересующих исследователя ха­рактеристик объектов из изучаемой совокупности, зато можно экспертным или каким-то другим путем оценить степень сходства или различия между парами объектов. В этом случае для интерпретации получаемых данных применяется метод многомерного шкалирования.

Этот метод позволяет представить совокупность интересующих иссле­дователя объектов в виде некоторого набора точек многомерного простран­ства некоторой небольшой размерности, при этом каждому объекту соот­ветствует одна точка. Координаты точек истолковываются как значения неких характеристик исходных объектов, которые и объясняют их свойства или взаимоотношения.

Например, нас интересуют такие объекты, как города, в которых про­живают люди. Город в целом характеризуется огромным количеством при­знаков. К важнейшим из признаков относятся: географическое положение, климат и политическая принадлежность.

В случае удачного шкалирования исследователь получает возможность представить изучаемую совокупность объектов наглядно.

В методе многомерного шкалирования применяют нехарактерную для статистики в целом терминологию: стимул, шкала, эксперт и др.

Под стимуломпонимается некоторый признак, свойство, характер­ная особенность объекта, стимул непосредственно не измеряется.

Шкала одна из осей теоретического пространства, она харак­теризует численно (метрически) тот или иной признак, свойство, характерную особенность объекта.

Эксперт — субъект, который считается признанным авторитетом в оценке признаков, свойств и характерных особенностей исследуе­мых объектов.

Методы контроля качества

Методы контроля качества предназначены для контроля качества вы­пускаемой продукции с целью выявления нарушений и «узких мест» в ор­ганизации производства и в технологических процессах.

Повсеместное применение научно обоснованных методов контроля ка­чества явилось немаловажным фактором успехов стран-лидеров мировой экономики, в особенности Японии.

В последнее время новые методы более эффективного управления с целью повышения качества получили название «шесть сигм». Они рассмат­риваются как формула успеха большинства транснациональных корпора­ций.

В отличие от большинства описанных выше методов многомерного ана­лиза методы контроля качества не требуют трудоемких вычислений — они исключительно просты и наглядны. Простота, наглядность и эффек­тивность статистических методов контроля качества сделали возможным и оправданным их повсеместное применение в передовых странах, вплоть до мастеров, а иногда и отдельных рабочих.