Кластерный анализ
Метод кластерного анализа позволяет строить классификацию п объектов посредством объединения их в группы или кластеры на основе критерия минимума расстояния в пространстве т переменных, описывающих объекты. Метод позволяет находить разбиение множества объектов на заданное число кластеров.
Кластерный анализ носит количественный характер, но статистические пакеты обычно не предлагают методов проверки гипотезы об адекватности получаемых классификаций.
Исходные данные для кластерного анализа представляются в виде матрицы размером т х п, содержащей информацию одного из следующих трех типов:
измерения Хij значений т переменных для п объектов;
квадратная (т = п) матрица расстояний между парами объектов;
квадратная (т — п) матрица близостей для всех пар п объектов.
Объектами могут быть товары разных фирм, например легковые автомобили. Переменными могут быть их характеристики, значимые для покупателей. В этом случае кластерный анализ позволяет объективно разделить их на группы и облегчить позиционирование автомобиля предприятия по отношению к конкурентам, обосновать назначение цены.
Другим видом объектов могут быть регионы страны. Если в качестве переменных использовать уровень доходов и уровень цен, то можно классифицировать регионы по уровню благосостояния. Можно в качестве переменных взять 32 показателя благосостояния, рекомендуемые ООН, тогда классификация будет всесторонней. На ее основе можно планировать региональную экономическую политику.
В ряде статистических пакетов в матрице близостей или в матрице расстояний может быть заполнена лишь левая нижняя половина под диагональю, верхняя половина может быть заполнена нулями.
Если исходные данные представляют собой значения т переменных для п объектов, то необходимо выбрать стратегию объединения и метод вычисления расстояния dij между объектами в многомерном пространстве—метрики.
Дивизивная стратегия динамических сгущений позволяет сгруппировать объекты в заданное число кластеров.
В случае дивизивной стратегии кластеризации необходимо указать число кластеров, на которое желательно разбить множество объектов, причем окончательное количество кластеров может получиться меньше этого числа, если затребованное разбиение для имеющихся данных невозможно.
Промежуточным результатом анализа являются среднее внутри-кластерное расстояние, по которому можно сравнивать различные варианты кластеризации, и кластеры с указанием в каждый кластер объектов.
В случае использования матрицы переменные-объекты можно получить проекции на плоскость каждых двух переменных графика кластеров, на котором объекты каждого кластера соединяются линиями с центральным объектом. Они позволяют наглядно представить характеристики классификации.
Агломеративная стратегия позволяет строить дендрограмму классификации в ходе иерархического процесса объединения кластеров. Часто используют следующие варианты этой стратегии:
стратегия ближайшего соседа очень сильно сжимает пространство исходных переменных и рекомендуется для получения минимального дерева взамен групповой классификации;
стратегия дальнего соседа сильно растягивает пространство;
стратегия группового соседа сохраняет метрику пространства;
гибкая стратегия универсальна и зависит от значения бета-параметра (параметр должен быть < 1,0); при бета = 0 метрика не меняется, при бета > 0 пространство сжимается, а при бета < 0 — растягивается;
метод Уорда минимизирует внутрикластерный разброс объектов, дендрограмма получается с гипертрофированно разделенными кластерами.
В случае агломеративной стратегии можно получить матрицы расстояний между объектами. Кроме того, можно получить последовательность кластеров возрастающей общности с указанием входящих в кластеры объектов и расстояния, на уровне которых произошло объединение кластеров.
В результате анализа строится дендрограмма — дерево объединения кластеров с порядковыми номерами объектов по одной оси и со шкалой расстояний — по другой.
При выполнении анализа расстояния оценивают с использованием различных метрик.
Евклидова метрика, знакомая всем из школьного курса геометрии, применима для переменных, измеренных в одних единицах.
Нормализованная евклидова метрика более подходит для переменных, измеренных в различных единицах или сильно различающихся по величине.
Метрика суммы квадратов может использоваться, чтобы стратегии объединения были аддитивны по отношению к переменным, то есть чтобы расстояние между кластерами было равно сумме расстояний между их компонентами.
Если переменные обладают существенно различной значимостью, то целесообразно взвешенное суммирование квадратов, но при этом матрица данных должна содержать веса переменных.
Манхеттеновская метрика, как правило, применяется для номинальных или качественных, ранговых переменных.
Метрика Брея—Картиса для номинальных и ранговых данных имеет значения между 0 и 1, переменные с большими значениями оказывают большее влияние на результат.
Канберрова метрика для номинальных и ранговых переменных также лежат между 0 и 1, но обладают нечувствительностью к сильно асимметричным данным. Применение этой метрики при наличии нулевых и отрицательных значений нежелательно, поэтому рекомендуется предварительно преобразовать данные путем сложения каждой переменной с некоторым значением.
В некоторых случаях необходимо классифицировать не объекты, а переменные, отобрав для дальнейшего анализа наиболее удаленные переменные. В этом случае можно прямо воспользоваться метрикой, основанной на коэффициенте корреляции, а также любой другой метрикой, предварительно транспонировав матрицу данных. Вероятностное обоснование результатов кластеризации можно получить методом дискриминантного анализа.