Адекватность инкрементной кластеризации задаче кластерного анализа документов

Все рассмотренные инкрементные методы, по сути, являются последовательным улучшением друг друга с целью создания наиболее гибкого метода. Однако, всех их объединяет один и тот же набор проблем, делающий их на деле крайне неэффективными для кластеризации вообще, и для кластеризации в многомерных пространствах в еще большей степени.

Во-первых, поскольку каждый узел может иметь ограниченное число потомков, совсем не обязательно, чтобы он соответствовал настоящему кластеру. Часто оказывается,что два кластера, принадлежащие на самом деле одному кластеру, оказываются разделены.

Во-вторых, сами авторы метода BIRCH предупреждают, что также в один кластер могут быть объединены два кластера, которые не должны быть объединены. Это редко проявляющийся, но существенный недостаток.

В-третьих, если идентичные объекты вставляются в дерево, но не подряд, то обычно они приписываются разным листьям, то есть нахождение наиболее близкого листа проходит некорректно.

В-четвертых, метод плохо справляется с кластерным анализом в пространствах большой размерности. На его результаты в пространствах такой размерности чрезмерно влияет «шум», то есть отдельно стоящие объекты. Доказательство того, что алгоритмы кластеризации с линейной временной сложностью (такие как инкрементные) не могут корректно проводит анализ многомерных данных, содержащих «шум» приведено в [43].

Вышеозначенные проблемы могут возникать и потому, что близость к кластеру определяется суммой векторов входящих в него объектов, что не дает возможности инкрементным алгоритмам распознавать несферические кластеры. Полная неадекватность центроидных методов уже была обоснована ранее . Вообще, результаты анализа сильно зависят от порядка поступления объектов в пространство, что вообще противоречит теоретической противоречивости кластерного анализа.

Можно сделать вывод, что инкрементная кластеризация безусловно удобна в системах, в которые интенсивно поступают потоки данных, причем не характеризующиеся большим количеством параметров. Производительность этого метода, правда, падает с увеличением количества информации, поскольку увеличивается глубина дерева и число проходов по нему. Но, в целом, он наименее требователен к ресурсам из всех иерархических методов.