Методы исследования
Оценка эффективности предложенного алгоритма и сравнение его с классическим методом реализации k-means осуществлялась экспериментальным способом.
Экспериментальные вычисления выполнялись следующим образом:
1) Перебор значений количества объектов осуществлялся в диапазоне от 6 до 1000. Перебор значений количества атрибутов осуществлялся в диапазоне от 2 до 100. Перебор значений количества кластеров осуществлялся в диапазоне от 2 до 100.
2) Для всех сочетаний характеристик (перечисленных в предыдущем пункте) проводилась генерация исходных данных. При этом значения атрибутов выбирались случайным образом в диапазоне от 0 до 1.
3) Для всех наборов сгенерированных исходных данных кластеризация запускалась 4 раза: с использованием в качестве метрики расстояния Евклида; c использованием в качестве метрики расстояния Манхэттена; c использование в качестве метрики расстояния Чебышева; c применением гибридной метрики.
4) В ходе вычислительных экспериментов оценивались следующие характеристики:
· ошибка кластеризации при использовании метрики Евклида;
· ошибка кластеризации при использовании метрики Манхэттена;
· ошибка кластеризации при использовании метрики Чебышева;
· ошибка кластеризации при использовании гибридной метрики;
· количество итераций потребовавшихся для нахождения решения при использовании метрики Евклида;
· количество итераций потребовавшихся для нахождения решения при использовании метрики Манхэттена;
· Количество итераций потребовавшихся для нахождения решения при использовании метрики Чебышева;
· Количество итераций потребовавшихся для нахождения решения при использовании гибридной метрики;
· Количество объектов находящихся в разных группах при кластеризации с использованием метрик Евклида и Манхэттена;
· Количество объектов находящихся в разных группах при кластеризации с использованием метрик Евклида и Чебышева;
· Количество объектов находящихся в разных группах при кластеризации с использованием метрик Манхэттена и Чебышева;
· Количество объектов находящихся в разных группах при кластеризации с использованием гибридной метрики и метрики Евклида;
· Количество объектов находящихся в разных группах при кластеризации с использованием гибридной метрики и метрики Манхэттена;
· Количество объектов находящихся в разных группах при кластеризации с использованием гибридной метрики и метрики Чебышева.
Результаты экспериментальных исследований
фывфыв