Запуск процесса кластеризации данных

Для запуска кластеризации сначала необходимо задать количество объектов и их атрибутов. Это можно сделать с помощью группы элементов управления «Исходные данные». При нажатии кнопки «сгенерировать данные» таблица будет заполнена заданным количеством объектов, а значения атрибутов будут выбраны случайным образом в диапазоне от 0 до 1 (рисунок 3.2). В многострочном текстовом поле появиться сообщение «данные сгенерированы» свидетельствующее о том, что данная операция завершена без ошибок. При необходимости любое из значений таблицы можно изменить, введя требуемое значение атрибута с клавиатуры.

 

Рисунок 3.2 – Генерирование данных для кластеризации

 

Теперь необходимо задать количество групп в требуемой кластерной структуре. Это можно сделать с помощью группы элементов управления «Настройки кластеров». При нажатии на кнопку «Выбрать центроиды» (в соответствии с алгоритмом k-means) из группы исходных объектов случайным образом будут выбраны записи в количестве равном заданному числу кластеров. Эти объекты будут являться первоначальными центрами кластеров. По завершению процесса выбора центров кластеров в многострочном текстовом поле появится сообщение, содержащее координаты центров для каждого кластера и номер объекта, который был взят за основу (рисунок 3.3).

 

Рисунок 3.3 – Выбор центров кластеров

 

Теперь необходимо выбрать метрику, с помощью которой будет определяться принадлежность объектов к кластерам. Это можно сделать с помощью группы элементов управления «Выбор метрики». Затем можно запустить многоитерационный процесс кластеризации, нажав на кнопку «Запуск кластеризации» (рисунок 3.4).

Рисунок 3.4 – Запуск процесса кластеризации с использование выбранной метрики

 

В процессе вычислений в многострочном текстовом поле будет выводиться информация о протекании процесса кластеризации. Для каждого объекта будет отображено рассчитанное (по выбранной метрике) расстояние до каждого из центров кластеров. Также будет отображена информация о принадлежности объекта к одному из кластеров на данной итерации, также будет найдено количество объектов поменявших номер кластера по сравнению с предыдущей итерацией. Кроме того, на каждой итерации рассчитывается сумма квадратов ошибок кластеризации.

При необходимости, исходные данные, а также протокол процесса кластеризации можно сохранить в текстовом файле. Для этого необходимо воспользоваться пунктом «Файл» главного меню и выбрать подпункт «Сохранить исходные данные как» или подпункт «Сохранить лог кластеризации как» (рисунок 3.5).

Рисунок 3.5 – Содержимое пункта меню «Файл»