Кластерный анализ

 

Классификация объектов – это группирование их в классы так, чтобы объекты в каждом классе были более похожи друг на друга, чем на объекты из других классов. Это является основным назначением кластерного анализа.

Кластерный анализ – это процедура упорядочивания объектов в сравнительно однородные классы на основе попарного сравнения этих объектов по предварительно определенным и измеренным критериям (10, с.329).

Кластерный анализ решает следующиезадачи:

1. Разбиение совокупности испытуемых на группы по измеренным признакам с целью дальнейшей проверки причин межгрупповых различий по внешним критериям.

2. Применение кластерного анализа как более простого и наглядного факторного анализа, когда ставится задача группировки признаков на основе их корреляций.

3. Классификация объектов на основе непосредственных оценок различий между ними.

Общая последовательность кластерного анализа:

1. Отбор объектов для кластеризации. Объектами могут быть: а) испытуемые, б) объекты, которые оцениваются испытуемыми, в) признаки, измеренные на выборке испытуемых.

2. Определение множества переменных, по которым будут различаться объекты кластеризации. Для испытуемых – это набор измеренных признаков, для оцениваемых объектов – субъекты оценки, для признаков – испытуемые.

3. Определение меры различия между объектами кластеризации.

4. Выбор и применение метода классификации для создания групп исходных объектов. Разные методы кластеризации порождают разные группировки для одних и тех же объектов.

5. Проверка достоверности разбиения на классы.

Выбор метода является одной из проблем кластерного анализа. Опишем три наиболее типичных метода кластерного анализа, каждый из которых дает свои результаты кластеризации.

Метод одиночной связи (Single Linkage) - часто его называют методом «ближайшего соседа». Метод имеет тенденцию образовывать небольшое число крупных кластеров. К особенностям метода можно отнести то, что результаты его применения часто не дают возможности определить, как много кластеров находится в данных.

Метод полной связи (Complete Linkage) – часто его называют методом «дальнего соседа». Здесь наблюдается тенденция к выделению большего числа компактных кластеров, состоящих из наиболее похожих элементов.

Метод средней связи (Average Linkage) или межгрупповой связи (Between Linkage) – занимает промежуточное положение относительно крайностей методов одиночной и полной связей. Этот метод должен давать более точные результаты классификации, чем остальные методы. Как указывает А.Д.Наследов, «опыт и литературные данные свидетельствуют, что наиболее близкий к реальной группировке результат позволяет получить метод средней связи» (10, с.335).

Исследователь в зависимости от стоящей перед ним задачи вправе выбрать тот метод, который ему больше подходит.

Одной из проблем кластерного анализа является определение численности классов. «Сложность заключается в том, что не существует формальных критериев, позволяющих определить оптимальное число классов. В конечном итоге это определяется самим исследователем исходя из содержательных соображений» (10, с.336).

Часто задачей исследования является сравнение двух выборок. Для ее решения также существуют свои статистические процедуры, которые будут рассмотрены в следующем разделе.