Алгоритм иерархического агломеративного метода кластерного анализа
Алгоритм метода рассмотрим в виде последовательных этапов.
1. Выбор переменных кластеризации с учетом проблемы маркетингового исследования.
2. Построение матрицы исходных данных. Общий вид матрицы представлен в таблице 4.1.
Таблица 4.1
Матрица исходных данных
№ объекта | Значение переменных кластеризации | ||||
Х1 | Х2 | Х3 | … | Хm | |
Х11 | Х12 | Х13 | … | Х1m | |
Х21 | Х22 | Х23 | … | Х2m | |
Х31 | Х32 | Х33 | … | Х3m | |
… | … | … | … | … | … |
n | Хn1 | Хn2 | Хn3 | … | Хnm |
Среднее значение ( ) | … | ||||
Стандартное отклонение (бi) | б1 | б2 | б3 | … | бm |
3. Нормирование исходных данных по формуле: .
Цель нормирования - это устранение влияния на процедуру классификации абсолютных значений признака и степени его вариации в совокупности. Нормирование выполняется в обязательном порядке в том случае, если исходные переменные кластеризации измерены с помощью различных шкал. Нормированная матрица исходных данных имеет тот же вид, что и матрица исходных данных.
4. Расчет матрицы мер сходства или матрицы евклидовых расстояний между объектами (D) по формуле: .
;
5. Объединение самых близких объектов в кластер на основание матрицы евклидовых расстояний. Кластеру присваивается номер, который соответствует наименьшему порядковому номеру из входящих в него объектов.
6. Пересчет матрицы евклидовых расстояний (матрицы мер сходства). Для этого определяются расстояния между объектами (кластерами) и полученным на предыдущем этапе кластером.
Расстояние между объектом (кластером) и кластером может определяться по различным методам, наиболее распространенными являются следующие:
· метод "ближнего соседа" – степень сходства между кластерами оценивается по степени сходства между наиболее близкими объектами этих кластеров;
· метод "дальнего соседа" – степень сходства между кластерами оценивается по степени сходства между наиболее дальними объектами этих кластеров;
· метод средней связи степень сходства оценивается как средняя величина степеней сходства между объектами кластеров.
7. Этапы 5 и 6 повторяются до тех пор, ока все объекты не будут объединены в один кластер или до достижения заданного "порога" сходства
Графической интерпретацией процесса кластеризации с помощью метода иерархического агломеративного кластерного анализа является дендрограмма кластеризации объектов.
После завершения процедуры кластеризации необходимо оценить полученные результаты и выбрать наиболее качественную классификацию объектов.
Рассмотрим пример реализации иерархического агломеративного метода кластерного анализа. Пусть целью маркетингового исследования было сегментирование потребителей рынка запасных частей для грузовых автомобилей, автобусов и прицепной техники. С учетом проблемы маркетингового исследования, в качестве переменных кластеризации были выбраны переменные сегментирования, основанные на искомых выгодах потребителей: цена, качество, гарантийные обязательства производителя, послепродажный сервис и обслуживание, известность марки продаваемых товаров, широта ассортимента, местонахождение магазина. Важность критериев выбора магазина измерялась по пяти балльной шкале (1 – совершенно не важно, 2 – не важно, 3 – нейтрально, 4 – важно, 5 – очень важно). Полученные в процессе маркетингового исследования данные были сведены в матрицу исходных данных, содержащую нормированные значения (таблица 4.2).
Таблица 4.2
Матрица исходных данных
№ объекта | Значение переменных сегментирования | ||||||
цена | качество | гарантия | послепродажный сервис | известность марки | широта ассортимента | местонахождение магазина | |
Рассчитаем матрицу евклидовых расстояний на основании матрицы исходных данных с помощью формулы евклидового расстояния (4.1).
Таблица 4.3
Матрица евклидовых расстояний
Объекты | n1 | n2 | n3 | n4 | n5 | n6 | n7 | n8 | n9 | n10 |
n1 | - | 3,46 | 3,00 | 2,00 | 2,45 | 2,65 | 3,32 | 2,83 | 3,16 | 3,00 |
n2 | 3,46 | - | 3,61 | 3,16 | 2,00 | 3,61 | 3,61 | 4,47 | 2,45 | 4,58 |
n3 | 3,00 | 3,61 | - | 3,00 | 3,32 | 4,00 | 2,83 | 1,73 | 3,32 | 2,83 |
n4 | 2,00 | 3,16 | 3,00 | - | 2,82 | 2,65 | 3,32 | 3,46 | 2,83 | 3,61 |
n5 | 2,45 | 2,00 | 3,32 | 2,83 | - | 3,87 | 3,61 | 3,74 | 2,45 | 4,12 |
n6 | 2,65 | 3,61 | 4,00 | 2,65 | 3,87 | - | 4,24 | 4,58 | 3,00 | 4,47 |
n7 | 3,32 | 3,61 | 2,83 | 3,32 | 3,61 | 4,24 | - | 2,65 | 4,12 | 2,00 |
n8 | 2,83 | 4,47 | 1,73 | 3,46 | 3,74 | 4,58 | 2,65 | - | 4,47 | 1,73 |
n9 | 3,16 | 2,45 | 3,32 | 2,83 | 2,45 | 3,00 | 4,12 | 4,47 | - | 4,79 |
n10 | 3,00 | 4,58 | 2,83 | 3,61 | 4,12 | 4,47 | 2,00 | 1,73 | 4,79 | - |
Согласно матрице евклидовых расстояний, представленной в таблице 4.3, самыми близкими объектами являются объект n8 и объект n10, так как расстояние между ними минимально и равно 1,732. Объединим их в один кластер S8.
Пересчитаем расстояния между объектами и кластером S8 по методу "дальнего соседа" и сформируем новую матрицу евклидовых расстояний.
Таблица 4.4
Матрица евклидовых расстояний
объекты | n1 | n2 | n3 | n4 | n5 | n6 | n7 | n9 | S8 |
n1 | - | 3,464 | 3,000 | 2,000 | 2,449 | 2,646 | 3,317 | 3,162 | 3,000 |
n2 | 3,464 | - | 3,606 | 3,162 | 2,000 | 3,606 | 3,606 | 2,449 | 4,583 |
n3 | 3,000 | 3,606 | - | 3,000 | 3,317 | 4,000 | 2,828 | 3,317 | 2,828 |
n4 | 2,000 | 3,162 | 3,000 | - | 2,828 | 2,646 | 3,317 | 2,828 | 3,606 |
n5 | 2,449 | 2,000 | 3,317 | 2,828 | - | 3,873 | 3,606 | 2,449 | 4,123 |
n6 | 2,646 | 3,606 | 4,000 | 2,646 | 3,873 | - | 4,243 | 3,000 | 4,583 |
n7 | 3,317 | 3,606 | 2,828 | 3,317 | 3,606 | 4,243 | - | 4,123 | 2,646 |
n9 | 3,162 | 2,449 | 3,317 | 2,828 | 2,449 | 3,000 | 4,123 | - | 4,796 |
S8 | 3,000 | 4,583 | 2,828 | 3,606 | 4,123 | 4,583 | 2,646 | 4,796 | - |
Согласно таблице 4.4 самыми близкими объектами являются объект n2 и объект n5, так как расстояние между ними минимально и равно 2,000. Объединим их в один кластер S2 и пересчитаем расстояния между объектами и кластером S2.
return false">ссылка скрыта
Таблица 4.5
Матрица евклидовых расстояний
объекты | n1 | n3 | n4 | n6 | n7 | n9 | S2 | S8 |
n1 | - | 3,000 | 2,000 | 2,646 | 3,317 | 3,162 | 3,464 | 3,000 |
n3 | 3,000 | - | 3,000 | 4,000 | 2,828 | 3,317 | 3,606 | 2,828 |
n4 | 2,000 | 3,000 | - | 2,646 | 3,317 | 2,828 | 3,162 | 3,606 |
n6 | 2,646 | 4,000 | 2,646 | - | 4,243 | 3,000 | 3,873 | 4,583 |
n7 | 3,317 | 2,828 | 3,317 | 4,243 | - | 4,123 | 3,606 | 2,646 |
n9 | 3,162 | 3,317 | 2,828 | 3,000 | 4,123 | - | 2,449 | 4,796 |
S2 | 3,464 | 3,606 | 3,162 | 3,873 | 3,606 | 2,449 | - | 4,583 |
S8 | 3,000 | 2,828 | 3,606 | 4,583 | 2,646 | 4,796 | 4,583 | - |
На основании таблицы 4.5 близкими объектами являются объект n1 и объект n4, так как расстояние между ними минимально и равно 2,000. Объединим их в один кластер S1 и пересчитаем расстояния между объектами и кластером S1.
Таблица 4.6
Матрица евклидовых расстояний
объекты | n3 | n6 | n7 | n9 | S1 | S2 | S8 |
n3 | - | 4,000 | 2,828 | 3,317 | 3,000 | 3,606 | 2,828 |
n6 | 4,000 | - | 4,243 | 3,000 | 2,646 | 3,873 | 4,583 |
n7 | 2,828 | 4,243 | - | 4,123 | 3,317 | 3,606 | 2,646 |
n9 | 3,317 | 3,000 | 4,123 | - | 3,162 | 2,449 | 4,796 |
S1 | 3,000 | 2,646 | 3,317 | 3,162 | - | 3,464 | 3,606 |
S2 | 3,606 | 3,873 | 3,606 | 2,449 | 3,464 | - | 4,583 |
S8 | 2,828 | 4,583 | 2,646 | 4,796 | 3,606 | 4,583 | - |
На основании таблицы 4.6 самыми близкими объектами являются объект S2 и объект n9, так как расстояние между ними минимально и равно 2,449. Присоединим объект n9 к кластеру S2 и пересчитаем расстояния между объектами и кластером S2.
Таблица 4.7
Матрица евклидовых расстояний
объекты | n3 | n6 | n7 | S1 | S2 | S8 |
n3 | - | 4,000 | 2,828 | 3,000 | 3,606 | 2,828 |
n6 | 4,000 | - | 4,243 | 2,646 | 3,873 | 4,583 |
n7 | 2,828 | 4,243 | - | 3,317 | 4,123 | 2,646 |
S1 | 3,000 | 2,646 | 3,317 | - | 3,464 | 3,606 |
S2 | 3,606 | 3,873 | 4,123 | 3,464 | - | 4,796 |
S8 | 2,828 | 4,583 | 2,646 | 3,606 | 4,796 | - |
На основании таблицы 4.7 самыми близкими объектами являются объект n7 и объект S 8, так как расстояние между ними минимально и равно 2,646. Объединим их в один кластер S7 и пересчитаем расстояния между объектами и кластером S7. В результате присоединения кластер S8 меняет свой номер на S7.
Таблица 4.8
Матрица евклидовых расстояний
объекты | n3 | n6 | S1 | S2 | S7 |
n3 | - | 4,000 | 3,000 | 3,606 | 2,828 |
n6 | 4,000 | - | 2,646 | 3,873 | 4,583 |
S1 | 3,000 | 2,646 | - | 3,464 | 3,317 |
S2 | 3,606 | 3,873 | 3,464 | - | 4,796 |
S7 | 2,828 | 4,583 | 3,317 | 4,796 | - |
Согласно таблице 4.8 самыми близкими объектами являются объект S1 и объект n6, так как расстояние между ними минимально и равно 2,646. Присоединим объект n6 к кластеру S1 и пересчитаем расстояния между объектами и кластером S1.
Таблица 4.9
Матрица евклидовых расстояний
объекты | n3 | S1 | S2 | S7 |
n3 | - | 4,000 | 3,606 | 2,828 |
S1 | 4,000 | - | 3,873 | 4,583 |
S2 | 3,606 | 3,873 | - | 4,796 |
S7 | 2,828 | 4,583 | 4,796 | - |
На основании таблицы 4.9 самыми близкими объектами являются объект n3 и объект S7, так как расстояние между ними минимально и равно 2,828. Присоединим объект n3 к кластеру S7. В результате присоединения кластер S7 меняет свой номер на S3.
Таблица 4.10
Матрица евклидовых расстояний
Объекты | S1 | S2 | S3 |
S1 | - | 3,873 | 4,583 |
S2 | 3,873 | - | 4,796 |
S3 | 4,583 | 4,796 | - |
Из таблицы 4.10 видно, что в результате кластеризации имеем 3 кластера S1(n1,n4,n6,), S2 (n2,n5,n9,), S3(n3,n7,n8,n10).
Результаты кластеризации представлены графически в виде дендрограммы на рис. 4.1
Рис. 4.1 Дендрограмма кластеризации объектов
Дендрограмма наглядно иллюстрирует поэтапный процесс кластеризации, отображая на горизонтальной оси расстояния, на которых происходило объединение объектов в кластеры, а на вертикальной оси - объекты. Данная дендрограмма построена с использованием программы SPSS, однако возможен и "ручной" способ построения дендрограммы. Кроме того, дендрограмму можно представить и в перевернутом виде, тогда на вертикальной оси будут откладываться расстояния, на которых происходило объединение объектов в кластеры, а на горизонтальной оси - объекты.
Дендрограмма также показывает, что кластер S2 более однородный, чем кластеры S1 и S3, так как объединение объектов в кластере S2 происходило при наименьших расстояниях.
По результатам кластеризации видно, что кластер S1 состоит из потребителей, которые при выборе магазина автозапчастей главным образом ориентируются на цену, качество, послепродажный сервис и обслуживание. Такие критерии как местонахождение магазина и наличие гарантийных обязательств производителя не оказывают влияния на выбор потребителей. Кроме того, данный сегмент потребителей нейтрально относится к известности марки и широте ассортимента.
Кластер S2 состоит из потребителей, для которых при выборе магазина автомобильных запчастей очень важны качество товаров, широта ассортимента, послепродажный сервис и обслуживание. Сегмент нейтрально относятся к таким критериям выбора магазина как цена и местонахождение, и совершенно не принимает во внимание наличия известных марок автомобильных запчастей и гарантийных обязательств производителя.
Кластер S3 состоит из потребителей, которые при выборе магазина ориентируются на цену, качество, известность марки автозапчастей и широту ассортимента. Незначимыми критериями выступают местонахождение магазина, гарантийные обязательства производителя, послепродажный сервис и обслуживание.
Дальнейший стратегический анализ сегментов позволит обосновать выбор целевого сегмента и разработать наиболее оптимальный комплекс маркетинга.