Адекватность графо-ориентированных методов кластеризации задаче кластерного анализа документов. Выводы

Методы кластеризации на взвешенных графах наиболее перспективны в использовании в многомерных пространствах, поскольку основаны исключительно на мерах близости между объектами. Функцию, определяющую степень близости объектов можно выбрать, исходя их особенностей анализируемых данных и сам кластерный анализ совершенно независим как от расположения объектов в пространстве, так и от размерности этого пространства. Графо-ориентированный подход используется в большинстве агломеративных иерархических методов, существенно повышая их эффективность.

В дивизивной иерархической кластеризации, основанной на разделении минимального остовного дерева графа используется, фактически, метод ближайшего соседа. Хотя, дендрограмма агломеративной кластеризации по методу ближайщего соседа не обязательно совпадает с минимальным остовным деревом, эффективность тем не менее, примерно одинакова, поскольку кластеры представляются длинными цепочками. Неадекватность методов одиночной связи уже была обоснована ранее. Более того, при выборе разделения учитываются не качественные характеристики кластеров (то есть, совокупные характеристики объектов, им принадлежащих) а только параметры связей отдельных объектов (друг с другом и с другими объектами), причем связи учитываются не все, а только представленные в остове. Однако, минимальное остовное дерево можно использовать для представления данных внутри сформированных кластеров, поскольку оно весьма наглядно.

Методы, основанные на разделении гиперграфов и ассоциативных правилах чрезвычайно эффективны в многомерных пространствах. Их алгоритмы, адаптированные к проблеме кластеризации документов также показывают высокие результаты.