Методы многомерного статистического анализа
Встречаются такие ситуации, в которых случайная изменчивость была представлена одной-двумя случайными переменными, признаками.
Например, при исследовании статистической совокупности людей нас интересуют рост и вес. В этой ситуации, сколько бы людей в статистической совокупности ни было, мы всегда можем построить диаграмму рассеяния и увидеть всю картину в целом. Однако если признаков три, например, добавляется признак — возраст человека, тогда диаграмма рассеяния должна быть построена в трехмерном пространстве. Представить совокупность точек в трехмерном пространстве уже довольно затруднительно.
В реальности на практике каждое наблюдение представляется не одним-двумя-тремя числами, а некоторым заметным набором чисел, которые описывают десятки признаков. В этой ситуации для построения диаграммы рассеяния потребовалось бы рассматривать многомерные пространства.
Раздел статистики, посвященный исследованиям экспериментов с многомерными наблюдениями, называется многомерным статистическим анализом.
Измерение сразу нескольких признаков (свойств объекта) в одном эксперименте в общем более естественно, чем измерение какого-либо одного, двух. Поэтому потенциально многомерный статистический анализ имеет широкое поле для применения.
К многомерному статистическому анализу относят следующие разделы:
• факторный анализ;
• дискриминантный анализ;
• кластерный анализ;
• многомерное шкалирование;
• методы контроля качества.
Факторный анализ
При исследовании сложных объектов и систем (например, в психологии, биологии, социологии и т. д.) величины (факторы), определяющие свойства этих объектов, очень часто невозможно измерить непосредственно, а иногда неизвестно даже их число и содержательный смысл. Но для измерения могут быть доступны иные величины, так или иначе зависящие от интересующих факторов. При этом когда влияние неизвестного интересующего нас фактора проявляется в нескольких измеряемых признаках, эти признаки могут обнаруживать тесную связь между собой и общее число факторов может быть гораздо меньше, чем число измеряемых переменных.
Для обнаружения факторов, влияющих на измеряемые переменные, используются методы факторного анализа.
Примером применения факторного анализа может служить изучение свойств личности на основе психологических тестов. Свойства личности не поддаются прямому измерению, о них можно судить только по поведению человека или характеру ответов на те или иные вопросы. Для объяснения результатов опытов их подвергают факторному анализу, который и позволяет выявить те личностные свойства, которые оказывают влияние на поведение испытуемых индивидуумов.
В основе различных моделей факторного анализа лежит следующая гипотеза: наблюдаемые или измеряемые параметры являются лишь косвенными характеристиками изучаемого объекта или явления, в действительности существуют внутренние (скрытые, латентные, не наблюдаемые непосредственно) параметры и свойства, число которых мало и которые определяют значения наблюдаемых параметров. Эти внутренние параметры принято называть факторами.
Задачей факторного анализа является представление наблюдаемых параметров в виде линейных комбинаций факторов и, быть может, некоторых дополнительных, несущественных возмущений.
Первый этап факторного анализа, как правило, – это выбор новых признаков, которые являются линейными комбинациями прежних и «вбирают» в себя большую часть общей изменчивости наблюдаемых данных, а потому передают большую часть информации, заключенной в первоначальных наблюдениях. Обычно это осуществляется с помощью метода главных компонент,хотя иногда используют и другие приемы (метод максимального правдоподобия).
Метод главных компонент сводится к выбору новой ортогональной системы координат в пространстве наблюдений. В качестве первой главной компоненты избирают направление, вдоль которого массив наблюдений имеет наибольший разброс, выбор каждой последующей главной компоненты происходит так, чтобы разброс наблюдений был максимальным и чтобы эта главная компонента была ортогональна другим главным компонентам, выбранным ранее. Однако факторы, полученные методом главных компонент, обычно не поддаются достаточно наглядной интерпретации. Поэтому следующий шаг факторного анализа — преобразование, вращение факторов для облегчения интерпретации.
Дискриминантный анализ
Пусть имеется совокупность объектов, разбитая на несколько групп, и для каждого объекта можно определить, к какой группе он относится. Для каждого объекта имеются измерения нескольких количественных характеристик. Необходимо найти способ, как на основании этих характеристик можно узнать группу, к которой относится объект. Это позволит указывать группы, к которым относятся новые объекты той же совокупности. Для решения поставленной задачи применяются методы дискриминантного анализа.
Дискриминантный анализ — это раздел статистики, содержанием которого является разработка методов решения задач различения (дискриминации) объектов наблюдения по определенным признакам.
Рассмотрим некоторые примеры.
• Дискриминантный анализ оказывается удобным при обработке результатов тестирования отдельных лиц, когда дело касается приема на ту или иную должность. В этом случае необходимо всех кандидатов разделить на две группы: «подходит» и «не подходит».
• Использование дискриминантного анализа возможно банковской администрацией для оценки финансового состояния дел клиентов при выдаче им кредита. Банк по ряду признаков классифицирует их на надежных и ненадежных.
• Дискриминантный анализ может быть привлечен в качестве метода разбиения совокупности предприятий на несколько однородных групп по значениям каких-либо показателей производственно-хозяйственной деятельности.
Методы дискриминантного анализа позволяют строить функции измеряемых характеристик, значения которых и объясняют разбиение объектов на группы. Желательно, чтобы этих функций (дискриминантных признаков) было немного. В этом случае результаты анализа легче содержательно толковать.
Благодаря своей простоте особую роль играет линейный дискриминантный анализ, в котором классифицирующие признаки выбираются как линейные функции от первичных признаков.
Кластерный анализ
Методы кластерного анализа позволяют разбить изучаемую совокупность объектов на группы «схожих» объектов, называемых кластерами.
Слово кластер английского происхождения — cluster переводится как кисть, пучок, группа, рой, скопление.
Кластерный анализ решает следующие задачи:
• проводит классификацию объектов с учетом всех тех признаков, которые характеризуют объект. Сама возможность классификации продвигает нас к более углубленному пониманию рассматриваемой совокупности и объектов, входящих в нее;
• ставит задачу проверки наличия априорно заданной структуры или классификации в имеющейся совокупности. Такая проверка дает возможность воспользоваться стандартной гипотетико-дедуктивной схемой научных исследований.
Большинство методов кластеризации (иерархической группы) являются агломеративными (объединительными) — они начинают с создания элементарных кластеров, каждый из которых состоит ровно из одного исходного наблюдения (одной точки), а на каждом последующем шаге происходит объединение двух наиболее близких кластеров в один.
Момент остановки этого процесса может задаваться исследователем (например, указанием требуемого числа кластеров или максимального расстояния, при котором достигнуто объединение).
Графическое изображение процесса объединения кластеров может быть получено с помощью дендрограммы — дерева объединения кластеров.
Рассмотрим следующий пример. Проведем классификацию пяти предприятий, каждое из которых характеризуется тремя переменными:
х1 – среднегодовая стоимость основных производственных фондов, млрд руб.;
х2 – материальные затраты на 1 руб. произведенной продукции, коп.;
х3 – объем произведенной продукции, млрд руб.
В таблице приведены соответствующие значения для каждого из предприятий:
Исходные данные | |||
предприятие | х1 | х2 | х3 |
№ 1 | 94,0 | ||
№ 2 | 75,2 | ||
№ 3 | 81,0 | ||
№ 4 | 76,9 | ||
№ 5 | 75,9 |
На рис. 5 приведена искомая дендрограмма, демонстрирующая объединение предприятий-кластеров на базе оценки евклидова расстояния между ними в пространстве переменных х1 , х2 и х3.
Изучение дендрограммы на рис. 5 приводит к следующим выводам. Среди пяти предприятий, если следовать слева направо, можно обнаружить следующие два кластера:
кластер № 1: предприятия: № 5, № 4, № 2;
кластер № 2: предприятия: № 3, № 1.
Рис. 5. Дендрограмма пяти предприятий
Обратными агломеративным методам кластеризации являются дивизивные методы. В этом подходе исходят из того, что вначале все объекты относят к одному кластеру, далее по определенным правилам появляются два и более кластера и т. д. вплоть до количества кластеров, равного количеству объектов.
Результаты кластеризации зависят от выбранного метода, и эта зависимость тем сильнее, чем менее явно изучаемая совокупность разделяется на группы объектов. Поэтому к результатам вычислительной кластеризации следует относиться с осторожностью.
Многомерное шкалирование
Во многих областях исследования (например, в психологии, биологии, социологии, лингвистике и т. д.) бывает затруднительно или невозможно проводить непосредственное измерение интересующих исследователя характеристик объектов из изучаемой совокупности, зато можно экспертным или каким-то другим путем оценить степень сходства или различия между парами объектов. В этом случае для интерпретации получаемых данных применяется метод многомерного шкалирования.
Этот метод позволяет представить совокупность интересующих исследователя объектов в виде некоторого набора точек многомерного пространства некоторой небольшой размерности, при этом каждому объекту соответствует одна точка. Координаты точек истолковываются как значения неких характеристик исходных объектов, которые и объясняют их свойства или взаимоотношения.
Например, нас интересуют такие объекты, как города, в которых проживают люди. Город в целом характеризуется огромным количеством признаков. К важнейшим из признаков относятся: географическое положение, климат и политическая принадлежность.
В случае удачного шкалирования исследователь получает возможность представить изучаемую совокупность объектов наглядно.
В методе многомерного шкалирования применяют нехарактерную для статистики в целом терминологию: стимул, шкала, эксперт и др.
Под стимуломпонимается некоторый признак, свойство, характерная особенность объекта, стимул непосредственно не измеряется.
Шкала — одна из осей теоретического пространства, она характеризует численно (метрически) тот или иной признак, свойство, характерную особенность объекта.
Эксперт — субъект, который считается признанным авторитетом в оценке признаков, свойств и характерных особенностей исследуемых объектов.
Методы контроля качества
Методы контроля качества предназначены для контроля качества выпускаемой продукции с целью выявления нарушений и «узких мест» в организации производства и в технологических процессах.
Повсеместное применение научно обоснованных методов контроля качества явилось немаловажным фактором успехов стран-лидеров мировой экономики, в особенности Японии.
В последнее время новые методы более эффективного управления с целью повышения качества получили название «шесть сигм». Они рассматриваются как формула успеха большинства транснациональных корпораций.
В отличие от большинства описанных выше методов многомерного анализа методы контроля качества не требуют трудоемких вычислений — они исключительно просты и наглядны. Простота, наглядность и эффективность статистических методов контроля качества сделали возможным и оправданным их повсеместное применение в передовых странах, вплоть до мастеров, а иногда и отдельных рабочих.