Критерии качества классификации объектов в кластерном анализе
Использование различных методов кластерного анализа для одно и той же совокупности приводит к различным классификациям объектов (различное число кластеров, различная степень близости объектов). Существенное влияние на характеристики кластерной структуры оказывает:
· набор признаков кластеризации;
· тип алгоритма кластеризации (метод кластерного анализа);
· выбор меры сходства между объектами.
Возникает проблема выбора наиболее качественной классификации объектов, которая решается с помощью критериев качества классификации объектов. Меру качества классификации принято называть функционалом или критерием качества. Наилучшим по выбранному функционалу считают такую классификацию объектов, в которой достигается экстремальное (максимальное или минимальное) значение функционала качества.
Существует несколько критериев качества, рассмотрим наиболее распространенные из них:
1. Сумма квадратов расстояний до центров классов:
, (4.3)
где l – номер кластера (l=1,2,…,k),
- центр l-го кластера,
- вектор значений переменных для i-го объекта, входящего в l-й кластер,
- расстояние между i-м объектом и центром l-го кластера
Наилучшая классификация объектов – это классификация с наименьшим значением функционала F1.
2. Сумма внутриклассовых расстояний между объектами:
, (4.4)
где - евклидово расстояние в кластере
Чем меньше функционал F2, тем больше плотность в кластерах, соответственно тем лучше классификация объектов.
3. Суммарная внутриклассовая дисперсия:
, (4.5)
- дисперсия j-ой переменной кластере Sl.
Классификация объектов в которой достигается минимальное значение функционала F3 является оптимальной.
Существуют и другие методы проверки качества классификаций объектов в кластерном анализе.