Алгоритм иерархического агломеративного метода кластерного анализа

 

Алгоритм метода рассмотрим в виде последовательных этапов.

1. Выбор переменных кластеризации с учетом проблемы маркетингового исследования.

2. Построение матрицы исходных данных. Общий вид матрицы представлен в таблице 4.1.

 

Таблица 4.1

Матрица исходных данных

№ объекта Значение переменных кластеризации
Х1 Х2 Х3 Хm
Х11 Х12 Х13 Х1m
Х21 Х22 Х23 Х2m
Х31 Х32 Х33 Х3m
n Хn1 Хn2 Хn3 Хnm
Среднее значение ( )
Стандартное отклонение (бi)   б1   б2   б3 бm

 

3. Нормирование исходных данных по формуле: .

Цель нормирования - это устранение влияния на процедуру классификации абсолютных значений признака и степени его вариации в совокупности. Нормирование выполняется в обязательном порядке в том случае, если исходные переменные кластеризации измерены с помощью различных шкал. Нормированная матрица исходных данных имеет тот же вид, что и матрица исходных данных.

4. Расчет матрицы мер сходства или матрицы евклидовых расстояний между объектами (D) по формуле: .

 

;

5. Объединение самых близких объектов в кластер на основание матрицы евклидовых расстояний. Кластеру присваивается номер, который соответствует наименьшему порядковому номеру из входящих в него объектов.

6. Пересчет матрицы евклидовых расстояний (матрицы мер сходства). Для этого определяются расстояния между объектами (кластерами) и полученным на предыдущем этапе кластером.

Расстояние между объектом (кластером) и кластером может определяться по различным методам, наиболее распространенными являются следующие:

· метод "ближнего соседа" – степень сходства между кластерами оценивается по степени сходства между наиболее близкими объектами этих кластеров;

· метод "дальнего соседа" – степень сходства между кластерами оценивается по степени сходства между наиболее дальними объектами этих кластеров;

· метод средней связи степень сходства оценивается как средняя величина степеней сходства между объектами кластеров.

7. Этапы 5 и 6 повторяются до тех пор, ока все объекты не будут объединены в один кластер или до достижения заданного "порога" сходства

Графической интерпретацией процесса кластеризации с помощью метода иерархического агломеративного кластерного анализа является дендрограмма кластеризации объектов.

После завершения процедуры кластеризации необходимо оценить полученные результаты и выбрать наиболее качественную классификацию объектов.

Рассмотрим пример реализации иерархического агломеративного метода кластерного анализа. Пусть целью маркетингового исследования было сегментирование потребителей рынка запасных частей для грузовых автомобилей, автобусов и прицепной техники. С учетом проблемы маркетингового исследования, в качестве переменных кластеризации были выбраны переменные сегментирования, основанные на искомых выгодах потребителей: цена, качество, гарантийные обязательства производителя, послепродажный сервис и обслуживание, известность марки продаваемых товаров, широта ассортимента, местонахождение магазина. Важность критериев выбора магазина измерялась по пяти балльной шкале (1 – совершенно не важно, 2 – не важно, 3 – нейтрально, 4 – важно, 5 – очень важно). Полученные в процессе маркетингового исследования данные были сведены в матрицу исходных данных, содержащую нормированные значения (таблица 4.2).

 

Таблица 4.2

Матрица исходных данных

№ объекта Значение переменных сегментирования
цена качество гарантия послепродажный сервис известность марки широта ассортимента местонахождение магазина

 

Рассчитаем матрицу евклидовых расстояний на основании матрицы исходных данных с помощью формулы евклидового расстояния (4.1).

Таблица 4.3

Матрица евклидовых расстояний

Объекты n1 n2 n3 n4 n5 n6 n7 n8 n9 n10
n1 - 3,46 3,00 2,00 2,45 2,65 3,32 2,83 3,16 3,00
n2 3,46 - 3,61 3,16 2,00 3,61 3,61 4,47 2,45 4,58
n3 3,00 3,61 - 3,00 3,32 4,00 2,83 1,73 3,32 2,83
n4 2,00 3,16 3,00 - 2,82 2,65 3,32 3,46 2,83 3,61
n5 2,45 2,00 3,32 2,83 - 3,87 3,61 3,74 2,45 4,12
n6 2,65 3,61 4,00 2,65 3,87 - 4,24 4,58 3,00 4,47
n7 3,32 3,61 2,83 3,32 3,61 4,24 - 2,65 4,12 2,00
n8 2,83 4,47 1,73 3,46 3,74 4,58 2,65 - 4,47 1,73
n9 3,16 2,45 3,32 2,83 2,45 3,00 4,12 4,47 - 4,79
n10 3,00 4,58 2,83 3,61 4,12 4,47 2,00 1,73 4,79 -

 

Согласно матрице евклидовых расстояний, представленной в таблице 4.3, самыми близкими объектами являются объект n8 и объект n10, так как расстояние между ними минимально и равно 1,732. Объединим их в один кластер S8.

Пересчитаем расстояния между объектами и кластером S8 по методу "дальнего соседа" и сформируем новую матрицу евклидовых расстояний.

 

Таблица 4.4

Матрица евклидовых расстояний

объекты n1 n2 n3 n4 n5 n6 n7 n9 S8
n1 - 3,464 3,000 2,000 2,449 2,646 3,317 3,162 3,000
n2 3,464 - 3,606 3,162 2,000 3,606 3,606 2,449 4,583
n3 3,000 3,606 - 3,000 3,317 4,000 2,828 3,317 2,828
n4 2,000 3,162 3,000 - 2,828 2,646 3,317 2,828 3,606
n5 2,449 2,000 3,317 2,828 - 3,873 3,606 2,449 4,123
n6 2,646 3,606 4,000 2,646 3,873 - 4,243 3,000 4,583
n7 3,317 3,606 2,828 3,317 3,606 4,243 - 4,123 2,646
n9 3,162 2,449 3,317 2,828 2,449 3,000 4,123 - 4,796
S8 3,000 4,583 2,828 3,606 4,123 4,583 2,646 4,796 -

 

Согласно таблице 4.4 самыми близкими объектами являются объект n2 и объект n5, так как расстояние между ними минимально и равно 2,000. Объединим их в один кластер S2 и пересчитаем расстояния между объектами и кластером S2.

return false">ссылка скрыта

 

Таблица 4.5

Матрица евклидовых расстояний

объекты n1 n3 n4 n6 n7 n9 S2 S8
n1 - 3,000 2,000 2,646 3,317 3,162 3,464 3,000
n3 3,000 - 3,000 4,000 2,828 3,317 3,606 2,828
n4 2,000 3,000 - 2,646 3,317 2,828 3,162 3,606
n6 2,646 4,000 2,646 - 4,243 3,000 3,873 4,583
n7 3,317 2,828 3,317 4,243 - 4,123 3,606 2,646
n9 3,162 3,317 2,828 3,000 4,123 - 2,449 4,796
S2 3,464 3,606 3,162 3,873 3,606 2,449 - 4,583
S8 3,000 2,828 3,606 4,583 2,646 4,796 4,583 -

 

На основании таблицы 4.5 близкими объектами являются объект n1 и объект n4, так как расстояние между ними минимально и равно 2,000. Объединим их в один кластер S1 и пересчитаем расстояния между объектами и кластером S1.

 

Таблица 4.6

Матрица евклидовых расстояний

объекты n3 n6 n7 n9 S1 S2 S8
n3 - 4,000 2,828 3,317 3,000 3,606 2,828
n6 4,000 - 4,243 3,000 2,646 3,873 4,583
n7 2,828 4,243 - 4,123 3,317 3,606 2,646
n9 3,317 3,000 4,123 - 3,162 2,449 4,796
S1 3,000 2,646 3,317 3,162 - 3,464 3,606
S2 3,606 3,873 3,606 2,449 3,464 - 4,583
S8 2,828 4,583 2,646 4,796 3,606 4,583 -

 

На основании таблицы 4.6 самыми близкими объектами являются объект S2 и объект n9, так как расстояние между ними минимально и равно 2,449. Присоединим объект n9 к кластеру S2 и пересчитаем расстояния между объектами и кластером S2.

 

 

Таблица 4.7

Матрица евклидовых расстояний

 

объекты n3 n6 n7 S1 S2 S8
n3 - 4,000 2,828 3,000 3,606 2,828
n6 4,000 - 4,243 2,646 3,873 4,583
n7 2,828 4,243 - 3,317 4,123 2,646
S1 3,000 2,646 3,317 - 3,464 3,606
S2 3,606 3,873 4,123 3,464 - 4,796
S8 2,828 4,583 2,646 3,606 4,796 -

 

На основании таблицы 4.7 самыми близкими объектами являются объект n7 и объект S 8, так как расстояние между ними минимально и равно 2,646. Объединим их в один кластер S7 и пересчитаем расстояния между объектами и кластером S7. В результате присоединения кластер S8 меняет свой номер на S7.

 

Таблица 4.8

Матрица евклидовых расстояний

объекты n3 n6 S1 S2 S7
n3 - 4,000 3,000 3,606 2,828
n6 4,000 - 2,646 3,873 4,583
S1 3,000 2,646 - 3,464 3,317
S2 3,606 3,873 3,464 - 4,796
S7 2,828 4,583 3,317 4,796 -

 

Согласно таблице 4.8 самыми близкими объектами являются объект S1 и объект n6, так как расстояние между ними минимально и равно 2,646. Присоединим объект n6 к кластеру S1 и пересчитаем расстояния между объектами и кластером S1.

 

Таблица 4.9

Матрица евклидовых расстояний

объекты n3 S1 S2 S7
n3 - 4,000 3,606 2,828
S1 4,000 - 3,873 4,583
S2 3,606 3,873 - 4,796
S7 2,828 4,583 4,796 -

 

На основании таблицы 4.9 самыми близкими объектами являются объект n3 и объект S7, так как расстояние между ними минимально и равно 2,828. Присоединим объект n3 к кластеру S7. В результате присоединения кластер S7 меняет свой номер на S3.

 

Таблица 4.10

Матрица евклидовых расстояний

Объекты S1 S2 S3
S1 - 3,873 4,583
S2 3,873 - 4,796
S3 4,583 4,796 -

 

Из таблицы 4.10 видно, что в результате кластеризации имеем 3 кластера S1(n1,n4,n6,), S2 (n2,n5,n9,), S3(n3,n7,n8,n10).

Результаты кластеризации представлены графически в виде дендрограммы на рис. 4.1

 

 

Рис. 4.1 Дендрограмма кластеризации объектов

 

Дендрограмма наглядно иллюстрирует поэтапный процесс кластеризации, отображая на горизонтальной оси расстояния, на которых происходило объединение объектов в кластеры, а на вертикальной оси - объекты. Данная дендрограмма построена с использованием программы SPSS, однако возможен и "ручной" способ построения дендрограммы. Кроме того, дендрограмму можно представить и в перевернутом виде, тогда на вертикальной оси будут откладываться расстояния, на которых происходило объединение объектов в кластеры, а на горизонтальной оси - объекты.

Дендрограмма также показывает, что кластер S2 более однородный, чем кластеры S1 и S3, так как объединение объектов в кластере S2 происходило при наименьших расстояниях.

По результатам кластеризации видно, что кластер S1 состоит из потребителей, которые при выборе магазина автозапчастей главным образом ориентируются на цену, качество, послепродажный сервис и обслуживание. Такие критерии как местонахождение магазина и наличие гарантийных обязательств производителя не оказывают влияния на выбор потребителей. Кроме того, данный сегмент потребителей нейтрально относится к известности марки и широте ассортимента.

Кластер S2 состоит из потребителей, для которых при выборе магазина автомобильных запчастей очень важны качество товаров, широта ассортимента, послепродажный сервис и обслуживание. Сегмент нейтрально относятся к таким критериям выбора магазина как цена и местонахождение, и совершенно не принимает во внимание наличия известных марок автомобильных запчастей и гарантийных обязательств производителя.

Кластер S3 состоит из потребителей, которые при выборе магазина ориентируются на цену, качество, известность марки автозапчастей и широту ассортимента. Незначимыми критериями выступают местонахождение магазина, гарантийные обязательства производителя, послепродажный сервис и обслуживание.

Дальнейший стратегический анализ сегментов позволит обосновать выбор целевого сегмента и разработать наиболее оптимальный комплекс маркетинга.