Заключительные замечания

 

В любых задачах автоматической классификации (с натренированным классификатором или без него) основополагающим понятием является понятие близости объектов. Для задачи автоматической классификации документов, представленных векторами в семантическом пространстве терминов наиболее адекватной мерой близости была признана мера косинуса.

Далее, в данной работе был произведен анализ методов кластерного анализа в приложении их к задаче автоматической классификации документов. Предварительно, среди существующих методов кластеризации было выделено два класса – разделяющие и иерархические. Разделение было произведено по принципу получаемой выходной структуры выделенных автоматически классов. Иерархические методы дают древесную вложенную структуру и, кроме того, не требуют заранее заданного количества классов для выделения. Эти методы, в наибольшей степени отвечающие постановке нашей задачи и были выбраны для анализа в данной работе.

Были рассмотрены основные два типа методов: агломеративные и дивизивные. Последние строят дерево кластеров, разделяя на каждом шаге выбранный кластер. Первые на каждом шаге объединяют определенную пару кластеров, до тех пор, пока не получат один единственный кластер. После тщательного анализа, было решено, что для задачи документной кластеризации наилучшим образом подходят агломеративные методы. Основное отличие агломеративных методов друг от друга состоит в мере близости кластеров, которую они используют для выбора на каждом шаге кластеров для объединения. Наиболее адекватными для пространства большой размерности, используемого в нашей задачи были признаны меры, прежде всего, не основанные на пересчете и сравнении средних точек кластеров (центроидов). Среди остальных, для задачи кластерного анализа документов наиболее подходящими оказались методы попарного среднего, позволяющие более гибко использовать характеристики кластеров при определении их близости.

Среди методов агломеративной иерархической кластеризации основанных на принципе попарного сравнения объектов, принадлежащих сравниваемым кластерам были выделены несколько наиболее признанных методов, совершенствующих подход попарного среднего и использующих понятия связи и соседства, для определения не только локального (вычисленного на основе непосредственных мер близости, вроде меры косинуса) сходства, но и глобального, учитывающего общую плотность объектов внутри сравниваемых кластеров и на их границе. Было установлено, что только анализ, основанный на использовании как глобального, так и локального попарного сходства между объектами сравниваемых кластеров может получать кластеры различных форм, размеров и плотности, то есть, фактически, верно выделять тематики и под-тематики в любых коллекциях документов.

Глобальное сходство должно вычисляться на основе количества общих соседей. Среди нескольких подходов к определению глобального сходства наиболее перспективными оказываются те, которые основаны не на заданном пороге значения локального сходства, после которого объекты считаются «соседями», а на определенном единственном и необходимом количестве «соседей» или на значении взаимного соседства. Для того, чтобы учитывать различия в размере, форме и плотности сравниваемых кластеров следует взвешивать данное значение либо на основе их средней связности, либо на основе ожидаемой связности будущего кластера. То есть, возможно использование не абсолютного значения глобального сходства, а, как предложено в алгоритме CHAMELEON, его относительного значения.

Аналогично следует поступить и со значением локального сходства – подвергнуть взвешиванию с использованием усредненного внутреннего сходства кластеров.

Глобальное и локальное сходства могут по-разному учитываться при установлении близости кластеров и с помощью определенных параметров можно изменять влияние той или иной величины на окончательное значение меры близости.

Таким образом, наиболее подходящим для автоматической классификации документов является агломеративный иерархический кластерный анализ, использующий преобразованный с учетом использования глобального и локального сходства, метод попарного среднего. Для вычисления глобального сходства между объектами следует использовать метод k ближайших соседей или значение взаимного соседства. Для вычисления локального сходства меру косинуса. Возможно взвешивание значений глобального и локального сходства средней внутренней связностью и средним внутренним сходством соответственно.

Для оценивания эффективности работы метода необходимо использовать объективные внешние меры: F-меру или энтропийную меру. Можно предположить, что использование F-меры более предпочтительно, в виду ее специализированности для задач информационного поиска.

Наиболее подходящим для документной кластеризации представляется метод маркирования, основанный на статистике c2., поскольку он разработан для применения к иерархическому кластерному анализу.

Перспективой данной разработки безусловно является реализация на практике сделанных в данной работе выводов, которая поможет, помимо проверки их правильности, ответить также на ряд вопросов, не освященных в данной работе.

Вопрос 1. Нахождение оптимального соотношения глобального и локального сходства кластеров при определении их близости. Изучение зависимости этого соотношения от объема анализируемых данных.

Вопрос 2. Выделение окончательной структуры коллекции на основе критериев оптимальности, предъявляемых к кластерам. То есть обновление результирующей дендрограммы, «склеивание» уровней.

Вопрос 3. Нахождение оптимальной модели установления соседства. Определение пороговых значений k и mnv, изучение возможности их динамического определения.

Вопрос 4. Изучение возможностей повышения производительности кластерного анализа за счет различных приемов выборки точек, предварительного разделения пространства на ячейки и т. п.

Вопрос 5. Создание средств более понятного описания выделенных тематик, например, автореферирование документов, принадлежащих кластерам, для составления описания тематик на естественном языке.

 


 

Литература к п.п.1-12

 

1. Хювёнен Э., Сеппянен Й. Мир Лиспа. В 2-х т.: Пер. с. финск.–М.: Мир, 1990.– Т.1,2.

2. Сигунов В. Три подхода к программированию//Компьютерра.–1997.–№10(187).–С.46

3. Хигман Б. Сравнительное изучение языков программирования.–М.: Мир, 1974. – 204 с. Ван Тассел Д. Стиль, разработка, эффективность, отладка и испытание программ.: Пер. с англ.–М.: Мир, 1981. – 320 с.

4. Дау У., Дейкстра Э., Хоор К. Структурное программирование.–М.: Мир, 1975. – 247 с.

5. Дейкстра Э. Дисциплина программирования.–М.: Мир, 1978. – 257с.

6. Кнут Д. Искусство программирования для ЭВМ. В 3-х т. –М.: Мир, 1976. – Т.1-3.

7. Вирт Н. Систематическое программирование. Введение.–М.: Мир, 1977. – 183 с.

8. Вирт Н. Алгоритмы + структуры данных= программы: Пер. с. англ./Под ред. Подсивилова Д.Б.–М.: Мир, 1985. – 406 с.

9. Хелмс Г.Л. Языки программирования. Краткое руководство: Пер. с англ.–М.: Радио и связь, 1985. – 176 с.

10. Тыугу Э.Х. Концептуальное программирование.-М.:Наука,1984. - 255 с.

11. Языки программирования Ада, Си, Паскаль. Сравнение и оценка/Под ред. А.Р. Фьюэра, Н. Джехани; Пер. с англ. под ред. В.В. Леонаса.–М.: Радио и связь, 1989.–368 с.

12. Василеску Ю. Прикладное программирование на языке Ада: Пер. с англ..–М..: Мир, 1990.– 348 с.

13. Лавров С., Силагадзе Г. Автоматическая обработка данных. Язык ЛИСП и его реализация.–М.: Наука, 1978. – 245 с.

14. Маурер У. Введение в программирование на языке ЛИСП.–М.: Мир, 1976. – 312 с.

15. Хендерсон П. Функциональное программирование. Применение и реализация.–М.: Мир, 1983. – 287 с.

16. Нильсон Н. Принципы искусственного интеллекта.–М.: Радио и связь, 1985. – 634 с.

17. Клоксин У., Меллиш К. Программирование на языке Пролог.–М.: Мир, 1987.

18. Марселлус Д. Программирование экспертных систем на Турбо Прологе: Пер. с англ.–М.: Финансы и статистика, 1994.–256 с.

19. Стерлинг Л., Шапиро Э. Искусство программирования на языке ПРОЛОГ: Пер. с англ.–М.: Мир, 1990.–235 с.

20. Stroustrup B. What is «Object Oriented Programming»?//Lecture notes in computer science.– 1986.–Vol. 276.– С. 51–70

21. Stroustrup B. An Overview of C++//ACM SIGPLAN Notices.– 1986.–V. 22, № 8.– С. 7-18

22. Богатырев Р. Феномен технологии Java//ComputerWeek Moscow.–1996.–№23.– С.23-24, 46

23. Богатырев Р. Java и Juice: дуэль технологий?!//Компьютерра.–1996.–№34(161).– С.30-33

24. Internet: http://www.ics.uci.edu/~juice

25. Рендал Л. Шварц, Том Кристиансен Изучаем Perl.–Киев.: Изд. группа BHV, 2000.– 319 с.

26. Преображенский А.Б. Состояние развития систем естественно-языкового общения.//Искусственный интеллект. Т.1. Системы общения и экспертные системы.–М.: Радио и связь, 1990.– С.32–64.

27. Evaluating natural language processing systems// Artificial intelligence. – 1999. – Vol.107, №1. – С. 15 – 56.

28. Попов Э.В. Общение с ЭВМ на естественном языке.–М.: Наука, 1982.–360 с.

29. Брябрин В.М., Любарский А.Я., Микулич Л.И. и др. Диалоговые системы в АСУ./Под ред. Д.А. Поспелова.–М.: Энергоиздат, 1983.– С.22–40.

30. Eva Hajicova Automatic compilation of a knowledge base//Linguistic approaches to artificial intelligence. – Berlin: Kluwer, 1987. – С.34-71.

31. Дракин В.И., Попов Э.В., Преображенский А.Б. Общение конечных пользователей с системами обработки данных.–М.: Радио и связь, 1988.–288 с.

32. Лозовский В.С. Сетевые модели//Искусственный интеллект. Т.2. Модели и методы.–М.: Радио и связь, 1990.–С.28-49.

33. Марков B.А. Фреймы.–М.: изд-во АН СССР, 1954.–374 с.

34. Мальковский М. Г. Диалог с системой искусственного интеллекта–М.: Изд-во МГУ, 1985.–214 с.

35. Дворянкин А.М. Основы трансляции: Учеб. пособие – Волгоград: Волгоград. гос. тех. ун-т., 1997. – 80c.

36. Задания по лингвистическому обеспечению САПР. Методические указания. Сост. канд. техн. наук, доцент Дворянкин А. М.; канд. техн. наук.
доцент Бутенко Л. Н. - Волгоград: ВолгПИ. 1993 - с. 16.

37. Построение транслятора с языка программирования : Метод. указ. к
выполнению курсовой работы. Сост. канд. техн. наук, доцент Дворянкин А. М. канд. техн. наук. доцент Бутенко Л, Н. - Волгоград: ВолгПИ- 1993 - с. 14.

38. Дворянкин А.М. Основы трансляции: Учебное пособие-2-е изд./ Волгоград.гос.тех.ун-т, Волгоград, 1999-80 с.

39. Заболеева-Зотова А.В. Лингвистические системы: модели, методы, приложения. Монография.- ВолгГТУ, 2004.- 220 с.

40. Заболеева-Зотова А.В Введение в системологию. Учебное пособие. - Волгоград: ВолгГТУ, 1999. - 109 с.

41. Заболеева-Зотова А.В. Математическое обеспечение САПР, ч.2 Учебное пособие. - Волгоград: ВолгГТУ, 1998, - 72 с.

42. Заболеева-Зотова А.В, Камаев В.А.. Санжапов Б.Х. Математическое обеспечение САПР, ч.1 Учебное пособие. - Волгоград: ВолгГТУ, 1997. - 72 с.

Литература к п.п.12.

 

1. Institute of Advanced Studies/ UN University // http://www.ias.unu.edu/, 2001.

2. The Unicode Consortium // http://www.unicode.org/, 2001.

3. The Universal Network Language (UNL) Specifications version 3.0 // http://www.unl.ias.unu.edu/unlsys/unl/UNL Specifications.htm, 2001.

4. Александрова З. Е. Словрь синонимов русского языка/ Под. ред. Чешко Л. А. 3-е изд., стереотип. – М., «Сов. Энциклопедия», 1971. – 600 с.

5. Андреев А. М., Березкин Д. В., Кантонистов Ю. А. Экспертные юридические системы – миф или реальность? // http://www.inteltec.ru/, 2001.

6. Апресян Ю. Д. Избранные труды, том I. Лексическая семантика: 2-е изд., испр. и доп. – М.: Школа «Языки русской культуры», Издательская фирма «Восточная литература» РАН, 1995. – VIII с., 472 с.

7. Апресян Ю. Д., Богуславский И. М., Иомдин Л. Л. и др. Лингвистическое обеспечение системы ЭТАП-2. – М.: Наука, 1989. – 296 с.

8. Белоногов Г. Г., Дуганов И. С., Кузнецов А. Б. Экспериментальная система обнаружения и исправления ошибок в тексте // НТИ. Сер. 2. – 1984. – №3. – С. 20-22.

9. Буйко А. В., Кисловская Е. Н. Трансформация семантической структуры текста // http://www.tsu.tmn.ru/frgf/No5/text8.htm, 2001.

10. Вагин В. Н. Дедукция и обощение в системах принятия решений. – М.: Наука. Гл. ред. физ.-мат. лит., 1988. – 384 с.

11. Воркачев С. Г. «Желание» и «безразличие» в логике оценок и в логике чувств // http://www.crc.pomorsu.ru/library/articles/Sbornik2/sbornik2_5.htm, 2001.

12. Вудс В.А. Сетевые грамматики для анализа естественных языков // Кибернетический сборник. Новая серия. – М.: Мир, 1978. – Вып. 13. – С. 120-158.

13. Гийом Г. Принципы теоретической лингвистики / общ. ред., послесл. и коммент. Л. М. Скрелиной, – М.: Прогресс, 1992. – 224 с.

14. Глушак В. М. Kогнитивныe ocнoвы категории атрибутивности // http://interlingua.narod.ru/projekt3.htm, 2001.

15. Дворянкин А. М. Основы трансляции: Учебное пособие. – 2-е издание/ Волгоград. гос. тех. ун-т., Волгоград., 1999 – 80 с.

16. Дмитров В. И., Макаренков В. М. Аналитический обзор международного стандарта ISO 13584 // http://www.osp.ru/ap/1997/03/31.htm, 2001.

17. Дудников А. В., Арбузова А. И., Ворожбицкая И. И. Русский язык: Учеб. пособие для средн. спец. учеб. заведений. – 7-е изд., испр. – М.: Высш. шк., 1999. – 414 с.

18. Еремеев В. Е. Теория психосемиоза // http://www.openweb.ru/eremeev/erem03.htm, 2001.

19. Заболеева-Зотова А. В. Структурный синтез сложных технических систем: формализация и алгоритмы / ВолгГТУ – Волгоград, 1996. – 61 с.: – Деп. в ВИНИТИ, №1487-В-95.

20. Зайнетдинова К. М. Взаимодействие компонентов художественного текста // http://hclub.cluster.sgu.ru/lingvistic/10.html, 2001.

21. Искусственный интеллект: В 3 кн. Кн. 1. Системы общения и экспертные системы: Справочник/Под ред. Э. В. Попова. – М: Радио и связь, 1990. – 464 с.

22. Искусственный интеллект: В 3 кн. Кн. 2. Модели и методы : Справочник /Под ред. Поспелова Д. А. – М.: Радио и связь, 1990. – 304с.

23. Каневский Е. А., Клименко Е. Н., Тузов В. А. Об одном подходе к классификации прилагательных // http://www.dialog-21.ru/Archive/2000/Dialogue 2000-2/162.htm, 2001.

24. Кононенко И., Попов И. К проблеме понимания несегментированного текста (на материале метеорологических телеграмм) // http://www.dialog-21.ru/Archive/2000/Dialogue 2000-2/189.htm, 2001.

25. Крейдлин Л. Что такое UNL? // http://www.computerra.ru/offline/2001/390/8299/for_print.html, 2001.

26. Кречетова Т. В. Формальный аппарат лингвистических описаний для систем понимания текста на естественном языке. // Математические методы в технике и технологиях ММТТ-12.: Сборник трудов 12 Международной научной конференции. – Великий Новгород.: Новгород. Гос. ун-т., 1999. – Т. 3. – С. 65-68.

27. Кузнецов В. Е. Представление в ЭВМ неформальных процедур: продукционные системы / С послесловием Д. А. Поспелова. – М.: Наука, 1989. – 160 с.

28. Кузнецов В.Е. Представление в ЭВМ неформальных процедур: продукционные системы / С послесловием Д.А. Поспелова. – М.: Наука, 1989. – 160 с.

29. Кузнецов И. П., Кузнецов В. П., Мацкевич А. Г. Система выявления из документов значимой информации на основе лингвистических знаний в форме семантических сетей // http://www.dialog-21.ru/Archive/2000/Dialogue 2000-2/232.htm, 2001.

30. Логичев С. В. Каталог лингвистических программ и ресурсов в Сети // http://www.rvb.ru/soft/catalogue/catalogue.html, 2001.

31. Манаков Н. А., Москальчук Г. Г. Текст как природный объект // http://bspu.ab.ru/Journal/pedagog/pedagog_7/a12.html, 2001.

32. Маслов С. Ю. Теория дедуктивных систем и её применения. – М.: Радио и связь, 1986. – 133 с.

33. Мельчук И. А. Опыт теории лингвистических моделей «Смысл↔Текст». М.: 1974. – 315 с.

34. Минский М. Фреймы для представления знаний. М., 1975. – 184 с.

35. Нариньяни А. С. Проблема понимания ЕЯ-запросов к базам данных решена // http://www.artint.ru/article/kazan-rep.asp, 2000.

36. Нильсон Н. Принципы искусственного интеллекта. – М., 1985. – 322 c.

37. Ножков И. Процессор автоматизированного морфологического анализа без словаря // http://www.dialog-21.ru/Archive/2000/Dialogue 2000-2/284.htm, 2001.

38. Ованесбеков Л. Технология построения гипертекстов // http://www.imvs.ru/IHPCS/Persons/Ovanesbekov/Technology-of-Hypertext-Development.koi8.html, 2001.

39. Ожегов С. И., Шведова Н. Ю. Толковый словарь русского языка/ РАН. Институт русского языка им. В. В. Виноградова. – 4-е изд., дополненное. – М.: Азбуковник, 1999. – 944 с.

40. Пещак М. М., Широков В. А. Структурные модели словарных систем // http://www.gpntb.ru/win/inter-events/crimea94/report/prog_26r.html, 2001.

41. Поликарпов А. А., Курлов В. Я. Стилистика, семантика, грамматика: опыт анализа системных взаимосвязей (по данным толковых словарей) // http://www.philol.msu.ru/~lex/articles/mas_rus.htm, 2001.

42. Попов Э. В. Общение с ЭВМ на естественном языке. – М.: Наука, 1982. – 360 с.

43. Поспелов Д. А. Логико-лингвистические модели в системах управления, М.: Энергоиздат, 1981. – 231 с.

44. Преображенский А. Б., Рыбина Г. В., Хорошевский В. Ф. Генерация многоцелевых интеллектуальных вопросно-ответных систем // Изв. АН СССР. Техн. Кибернетика. – 1979. – № 6. – С. 142-151.

45. Приближенная машинная морфология // http://www.medialingua.com/, 2001.

46. Филиппович Ю. Н., Прохоров А. В. Использование компьютерных технологий для создания «энциклопедии» по информатике и вычислительной технике // http://iu5.bmstu.ru/pub/filinovich/FilProkh.htm, 2001.

47. Хомский Н. Формальные свойства грамматик // Кибернетика. Сб. Новая сер. – 1966. – Вып. 2. – С. 121-130.

48. Цейтин Г. С. Программирование на ассоциативных сетях // ЭВМ в проектировании и производстве. – Л.: Машиностроение, 1985, вып. 2. – С. 16-48.

49. Цинман Л. Л. Язык для записи лингвистической информации в системе автоматического перевода ЭТАП. // Семиотика и инфоматика, №27. – М.: ВИНИТИ, 1986. – С. 82-120.

50. Частотный анализ текстов // http://www.statsoft.ru/home/portal/exchange/textanalysis.htm, 2001.

51. Шалак В. И. Контент-анализ // http://www.iph.ras.ru:8101/~shalack/contmethod.htm, 2001.

52. Шенк Р. Обработка концептуальной информации. – М.: Энергия, 1980. – 380 с.

53. Заболеева-Зотова А.В. Лингвистические системы: модели, методы, приложения. Монография.- ВолгГТУ, 2004.- 220 с.

54. Заболеева-Зотова А.В Введение в системологию. Учебное пособие. - Волгоград: ВолгГТУ, 1999. - 109 с.

 

 

Литература к п.п.13.1

 

1. Андреев А.М., Березкин Д.В., Брик А.В. Лингвистический процессор для информационно-поисковой системы:[Информация из Internet]. – [2001]//http://www.inteltec.ru/publish/articles/textan/art_21br.shtml.

2. Анисимов К., Балл В., Селегей В. ABBYY RETRIEVAL & MORPHOLOGY ENGINE // Диалог '2000 по компьютерной лингвистике и ее приложениям. В 2-х томах Т.2: Прикладные проблемы.: Труды Международного семинара / Под. ред. Нариньяни А.С.– Протвино, 2000. – С. 12-16.

3. Ахманова О.С. Словарь лингвистических терминов. – М.: Советская энциклопедия, 1969. – 657 с.

4. Барышников Н. Автоматический анализатор текстовой информации // Подводная лодка. – 1999. – №2. – С. 28-30.

5. Герасимов М.Б., Пунтиков Н.П., Перегудова М.В. Методы автоматического построения специализированного тезауруса // Диалог '2000 по компьютерной лингвистике и ее приложениям. В 2-х томах Т.2: Прикладные проблемы.: Труды Международного семинара / Под. ред. Нариньяни А.С.– Протвино, 2000. – С. 130-139.

6. Горбатюк Н.В. Особенности применения гиперграфовых моделей для визуализации архитектур гипертекстовых систем // Перспективные информационные технологии и интеллектуальные системы. – 2000. – №5.– С. 10-17.

7. Зализняк А.А. Грамматический словарь русского языка: Словоизменение, около 100000 слов. 3-е изд-е. – М.: Рус. яз., 1987. – 878 с.

8. Интеллектуальный Информационный Процессор:[Информация из Internet]. – [2001]// http://www.iip.com.ru/page1.shtm

9. Информационно-поисковая система РОСПАТЕНТ, словарь стоп-слов:[Информация из Internet]. – [2001]// http://www.fips.ru/russite/documents/other/m2_19.html.

10. Искусственный интеллект: В 3 кн. Кн. 1. Системы общения и экспертные системы: Справочник / Под. ред. Э.В. Попова. – М.: Радио и связь, 1990. –– 464 с.

11. Клименко С.В., Рыков В.В. Корпусная лингвистика и информационный поиск ENGINE // Диалог '2000 по компьютерной лингвистике и ее приложениям. В 2-х томах Т.2: Прикладные проблемы.: Труды Международного семинара / Под. ред. Нариньяни А.С.– Протвино, 2000. – С. 84-89.

12. Котов Р.Г. Прикладная лингвистика и информационная технология. – М.: Наука, 1987. – 161с.

13. Лингвистическое обеспечение системы ЭТАП-2 / Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. и др. – М.: Наука, 1989. – 295 с.

14. Мальковский М.Г. Диалог с системой искусственного интеллекта. – М.: Изд-во МГУ, 1985. – 213 с.

15. Михаилян А. Некоторые методы автоматического анализа естественного языка, используемые в промышленных продуктах:[Информация из Internet]. – [2001]//http://www.inteltec.ru/publish/articles/textan/natlang.shtml.

16. Некрестьянов И.С. Тематико-ориентированные методы информационного поиска:[Информация из Internet]. – [2001]//http://www. http://www.math.spbu.ru/user/mbk/K0635754/

17. Ножов И. Процессор автоматизированного морфологического анализа без словаря. Деревья и корреляция // Диалог '2000 по компьютерной лингвистике и ее приложениям. В 2-х томах Т.2: Прикладные проблемы.: Труды Международного семинара / Под. ред. Нариньяни А.С.– Протвино, 2000. – С. 370-382.

18. Поисковая система Яndex:[Информация из Internet]. – [2001]//http://www.comptek.ru/yandex/index.html.

19. Поликарпов А.А. Теоретические проблемы прикладной лексикологии / Вестник Московского Университета. Сер.9. Филология. – 1989. –№5. – С. 56-64.

20. Прикладное языкознание: Учебник / Отв. ред. Герд А.С. – СПб.: Изд-во СПб. университета, 1996. – 527c.

21. Программа для смыслового поиска документов Следопыт, компания МедиаЛингва:[Информация из Internet]. – [2001]//http://www.multilex.ru

22. Технология автоматизации Web-дизайна, компания НПИЦ Микросистемы:[Информация из Internet]. – [2001]//http://www.analyst.ru.web.html

23. ЭТАП-3:[Информация из Internet]. – [2001]//http://proling.iitp.ru

24. Aas K., Eikvil L. Text Categorisation: A Survey:[Информация из Internet]. – [2001]//http://www.google.com

25. Allan J., Leouski A.V., Swan R.C. Interactive cluster visualization for informational retrieval:[Информация из Internet]. – [2001]//http://www.google.com

26. Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval:[Информация из Internet]. – [2001]//http://www.researchindex.com

27. Basili R., Moschitti A., Pazienza M.T. Language Sensitive Text Classification:[Информация из Internet]. – [2001]//http://www.google.com

28. Buckley C., Salton G., Allan J., Singhal A. Automatric query expansion using SMART: TREC 3:[Информация из Internet]. – [2001]//http://www.google.com

29. Chen C. Generalised similarity analysis and pathfinder network scaling:[Информация из Internet]. – [2001]//http://www.google.com

30. Chen C. Information Visualisation:[Информация из Internet]. – [2001]//http://www.altavista.com

31. Chen C. Integrating Spatial, Semantic, and Social Structures for Knowledge Management //:[Информация из Internet]. – [2001]//http://www.google.com

32. Chen C. Structuring and Visualising the WWW by Generalised Similarity Analysis:[Информация из Internet]. – [2001]//http://www.researchindex.com

33. Dhillon I.S., Modha D.S. Concept decompositions for large sparse text data using clustering:[Информация из Internet]. – [2001]//http.cs.berkeley.edu/~inderjit/

34. Dumais S. Enhancing Performance in Latent Semantic Indexing (LSI) Retrieval:[Информация из Internet]. – [2001]//http://www.google.com

35. Dumais S. Improving the retrieval information from external sources:[Информация из Internet]. – [2001]//http://www.researchindex.com

36. Eades, P., Tamassia, R. Algorithms for drawing graphs: An annotated bibliography:[Информация из Internet]. – [2001]//http://www.yahoo.com

37. Fowler R.H., Fowler W. A. L., Williams J. L. 3D Visualization of WWW Semantic Content for Browsing and Query Formulation:[Информация из Internet]. – [2001]//http://www.google.com

38. Fowler R.H., Wilson B.A., Fowler W. A. L. Information Navigator: An information system using associative networks for display and retrieval:[Информация из Internet]. – [2001]//http://www.altavista.com

39. Frakes W.B., Baeza-Yates R. Information Retrieval: Data Structures and Algorithms:[Информация из Internet]. - [1992]// http://www.users.cloud9.net/~futurist/Baeza_Yates.html

40. Gavrilova T. Human Factor Research: Psychological Bias to User Modeling:[Информация из Internet]. – [2001]//http://www.hfr.ru

41. Indexing by Latent Semantic Analysis / Deerwester S., Dumais S.T., Furnas G.W., Landauer T.K., Harshman R.A. :[Информация из Internet]. – [2001]//http://www.researchindex.com

42. Jiang F., Littman M.L. Approximate Dimension Equalization in Vector-based Information Retrieval:[Информация из Internet]. – [2001]//http://www.durham.com

43. Jung Y., Park H., Du D. An Effective Term-Weighting Scheme for Informational Retrieval:[Информация из Internet]. – [2001]//http://www.google.com

44. Kolda, T. G. Limited-Memory Matrix Methods with Applications / PhD thesis:[Информация из Internet]. - [1997]// http://citeseer.nj.nec.com/115586.html

45. Kraaij W., Pohlmann, R. Porter’s stemming algorithm for Dutch:[Информация из Internet]. – [2001]//http://www.google.com

46. Kraaij W. Viewing Stemming as Recall Enhancement:[Информация из Internet]. – [2001]//http://www.enchancement.net

47. Kumar A., Fowler R.H. A Spring Modeling Algorithm to Position Nodes of an Undirected Graph in Three Dimensions:[Информация из Internet]. – [2001]//http://www.graphs.com/algorithm12

48. Lokuge I., Gilbert S.A., Richards W.Structuring Information With Mental Models: A Tour of Boston:[Информация из Internet]. – [2001]//http://www.ghost.net/index.html

49. Maarek Y.S., Fagin R., Ben-Shaul I.Z., Pelleg D. Ephemeral Document Clustering for Web Applications:[Информация из Internet]. – [2001]// http://www.cmu.edu/~dpelleg/publications/

50. Marshall C.C., Shipman F.M. Searching for the Missing Link: Discovering Implicit Structure in Spatial Hypertext:[Информация из Internet]. – [2001]//http://www.dmitry.ru/index.html

51. Marshall C.C., Shipman F.M., Coombs J.H.VIKI: Spatial Hypertext Supporting Emergent Structure:[Информация из Internet]. – [2001]//http://www.viki.com/system.html

52. Mase H. Experiments on Automatic Web Page Categorization for IR system:[Информация из Internet]. – [2001]//http://www.google.com

53. Porter M.F. An Algorithm for Suffix Stripping:[Информация из Internet]. – [2001]//http://www.suffixstripping.com/porter.html

54. Problem 4: term weighting schemes in infomational retrieval / Campbell M. P., Cho G. E., Nelson S., Orum C., J.V. Reinolds-Fleming, I. Zavorine:[Информация из Internet]. – [2001]//http://www.thuit.com/por23.html

55. van Rijsbergen C.J. Informational Retrieval:[Информация из Internet]. – [2001]//http://www.stupidclock.tip.nk. com/introductionto/informationalretrieval.htnl

56. Salton G., Buckley C., Allan J. Automatic structuring of text files:[Информация из Internet]. – [2001]//http://www.dfgl.net /23bhh.html

57. Salton G., Buckley C. Term-weighting approaches in automatic text retrieval:[Информация из Internet]. – [2001]//http://www.dfgl.net /24bhh.html

58. Salton G., McGill M.J. An Introduction to Modern Information Retrieval:[Информация из Internet]. – [2001]//http://www.dfgl.net /23bhh.html

59. Salton G., Singhal A., Buckley C., Mitra M. Automatic Text Decomposition Using Text Segments and Text Themes:[Информация из Internet]. – [2001]//http://www.dfgl.net /26bhh.html

60. Salton, G., Wang, A., Yang, C. S. A vector space model for information retrieval:[Информация из Internet]. – [2001]//http://www.dfgl.net /27bhh.html

61. Scott S. Feature Engineering for a Symbolic Approach to Text Classification:[Информация из Internet]. – [2001]//http://www.google.com

62. Sebastiani А. A tutorial on automated text categorisation:[Информация из Internet]. – [2001]//http://www.cd.ital.net/tutor1.html

63. Shankar S., Karypus G. Weight adjustment schemes for a centroid based classifier:[Информация из Internet]. – [2001]//http://www.cs.umn.edu/˜karypis.

64. Singhal A., Salton G., Mitra M., Buckley C. Document length normalization:[Информация из Internet]. – [2001]//http://www.cs.umn.edu/document72.html

65. Term Recognition by Using Different Field Corpora / Uchimoto K., Sekine S., Murata M., Ozaku H., Isahara H.:[Информация из Internet]. – [2001]//http://www.dsi.unive.it/~smm/docs/

66. Wong, S. K. M., Ziarko, W., Wong, P. C. N. Generalized vector space model in information retrieval:[Информация из Internet]. – [2001]//http://www.dsi.unive.it/~smm/vsm/

67. Заболеева-Зотова А.В Естественный язык в автоматизированных системах. Семантический анализ текстов. Монография. - Волгоград: ВолгГТУ, 2002. – 228 с.

 

 

Литература к п.п.13.2-13.3

 

1. Deerwester S., Dumais S., Furnas G., Landauer T., Harshman R., Indexing by latent semantic analysis:[Информация из Internet]. - [1990]// http://citeseer.nj.nec.com/deerwester90indexing.html

2. Golub G., Van Loan G. Matrix Computations: second edition:[Информация из Internet]. - [1994]// http://citeseer.nj.nec.com/context/10274/

3. William B.F., Baeza-Yates R. Data Structures and Algorithms:[Информация из Internet]. - [1992]// http://www.users.cloud9.net/~futurist/Baeza_Yates.html

4. Golub G., Reinsch C. Handbook for Automatic Computation II, Linear Algebra :[Информация из Internet]. - [1972]// http://www.netlib.org/utk/people/JackDon...-698/sld003.htm.

5. Berry M.W., S.T. Dumais G.W. O'Brien. Using Linear Algebra for Intelligent Information Retrieval:[Информация из Internet]. - [1994]// http://citeseer.nj.nec.com/berry95using.html

6. Papadimitriou R. Latent semantic indexing: A Probablistic Analysis:[Информация из Internet]. - [1998]// http://citeseer.nj.nec.com/papadimitriou98latent.html

7. Ming G., Eisenstat S. C. Downdating The Singular Value Decomposition:[Информация из Internet]. - [1995]// http://epubs.siam.org/sam-bin/dbq/article/25147

8. Ake Bjorck. Numerical Methods for Least Squares Problems:[Информация из Internet]. - [1990]// http://www.mai.liu.se/~akbjo/LSPbook.html

9. Park H., Van Huffel S. Two-way bidiagonalization scheme for downdating the singular value decomposition:[Информация из Internet]. - [1995]// http://epubs.siam.org/sam-bin/dbq/article/32730

10. Golub G.H., Van Loan C.F. Matrix Computations: third edition:[Информация из Internet]. - [1996]// http://www.csc.fi/math_topics/Mail/NANET94/msg00783.html

11. Kolda T.G, O’Leary D.P. A Semi-Discrete Matrix Decomposition for Latent Semantic Indexing in Information Retrieval:[Информация из Internet]. - [1996]//http://citeseer.nj.nec.com/kolda96latent.html

12. HONGYUAN ZHA AND ZHENYUE ZHANG. ON MATRICES WITH LOW-RANK-PLUS-SHIFT STRUCTURE: PARTIAL SVD AND LATENT SEMANTIC INDEXING:[Информация из Internet]. - [1996]//http://citeseer.nj.nec.com/zha&zhang96partial.html

13. Rie Kubota. Latent Semantic Space: Iterative Scaling Improves Precision of Inter-document Similarity Measurement. :[Информация из Internet]. - [2001]// http://www.cs.cornell.edu/people/kubotar/

14. Chris H.Q. Ding. A Similarity-based Probability Model for Latent Semantic Indexing:[Информация из Internet]. - [1999]// http://ftp.informatik.rwth-aachen.de/dbl...gir/Ding99.html

15. Witter D.I. Downdating the Latent Semantic Indexing Model for Information Retrieval:[Информация из Internet]. - [1997]// http://www.informatik.uni-trier.de/~ley/Witter:Dian_I=.html

16. O'Brien G.W. Information Management Tools for Updating an SVD-Encoded Indexing Scheme:[Информация из Internet]. - [1994]// http://citeseer.nj.nec.com/5710.html

17. Ланкастер П. Теория матриц: Пер. с англ. – М.: Наука, 1982. – 300 с.

18. Тьюарсон Р. Разреженные матрицы: Пер. с англ. – М.: Наука, 1975. – 210 с.

19. Demmel J.W. Numerical linear algebra:[Информация из Internet]. - [1993]// http://citeseer.nj.nec.com/context/287065/0

20. Letsche T. A. Toward Large-ScaleInformation Retrieval Using Latent Semantic Indexing:[Информация из Internet]. - [1996]//http://citeseer.nj.nec.com/73130.html

21. Landauer T. K., Foltz P.W., Laham D. Introduction to Latent Semantic Analysis// Discourse Processes:[Информация из Internet]. - [1998]// http://citeseer.nj.nec.com/deerwester90indexing.html

22. Jiang J. Using Latent Semantic Indexing for Data Mining:[Информация из Internet]. - [1997]//http://citeseer.nj.nec.com/849375.html

23. Jiang F., Littman M.L.. Approximate Dimension Equalization in Vector-based Information Retrieval:[Информация из Internet]. - [1998]// http://www.ai.mit.edu/events/talks/stair...r-jul_2000.html

24. Kintsch W. Predication:[Информация из Internet]. - [2000]// http://www.informatik.uni-trier.de/~ley/KintschWalter.html

25. Zha H., Simon H.D. On Updating Problems in Latent Semantic Indexing// SIAM Journal on Scientifc Computing:[Информация из Internet]. - [1998]// http://epubs.siam.org/sam-bin/dbq/article/32926

26. Dumais S.T. Enhancing Performance in Latent Semantic Indexing Retrieval:[Информация из Internet]. - [1995]// http://citeseer.nj.nec.com/dumais92enhancing.html.

27. Матрицы и квадратичные формы: cборник научно-нормативной терминологии./ Под ред. Красносельского М.А. – М.: Наука, 1990. – 78 c.

28. Скороходько Э.Ф. Семантические сети и автоматическая обработка текста. – Киев.: Наук. Думка, 1983. – 218 с.

29. Новиков А.И. Семантика текста и ее формализация. – М.: Наука, 1983. – 218 с.

30. Гресс М., Лантен А. Теория формальных грамматик: Пер. с франц. – М.: Наука, 1971. – 294 с.

31. Налимов В.В., Вероятностная модель языка. – М.: Наука, 1979. – 303 с.

32. Гинзбург С. Математическая теория контекстно-свободных языков: Пер. с англ. – М.: Мир, 1970. – 326 с.

33. Васильев С.А. Синтез смысла при создании и понимании текста. – Киев.: Наук. Думка, 1988. – 273 с.

34. Киров Е.Ф. Теоретические проблемы моделирования языка. – Казань.: Изд-во Казан. ун-та., 1989. – 255 с.

35. Кузнецова А.И. Понятие семантической системы языка и методы ее исследования. – М.: Изд-во МГУ, 1963. – 59 с.

36. Лорьер Ж.-Л. Системы искусственного интеллекта. – М.: Мир, 1991. ­ 395 с.

37. Кузнецов В.Е. Представление в ЭВМ неформальных процедур. – М.: Наука, 1989. – 320 с.

38. Искусственный интеллект: в 3 кн. Кн. 1. Системы общения и экспертные системы: Справочник / Под. ред. Э.В. Попова. – М.: Радио и связь, 1990. – 464 с.

39. Дворянкин А.М. Основы трансляции: Учеб. пособие – Волгоград: Волгоград. гос. тех. ун-т., 1997. – 80 с.

40. Kolda, T. G. Limited-Memory Matrix Methods with Applications:[Информация из Internet]. - [1997]// http://citeseer.nj.nec.com/115586.html

41. Зализняк А.А. Грамматический словарь русского языка. – 3-е изд-е. – М.: Рус. яз. – 1987. – 878 с.

42. Мальковский М.Г. Диалог с системой искусственного интеллекта. – М.: Изд-во МГУ, 1985. – 213 с.

43. Лингвистическое обеспечение системы ЭТАП-2 / Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. и др. – М.: Наука, 1989. – 295 с.

44. Система ЭТАП-3:[Информация из Internet]. - [2001]// http://proling.iitp.ru

45. Incomplete Cholesky Factorization with Limited Memory:[Информация из Internet] . - [1997]// http://epubs.siam.org/sam-bin/dbq/article/32733

46. Технология автоматизации Web-дизайна. Компания НПИЦ Микросистемы:[Информация из Internet]. - [2001]//http://www.analyst.ru.web.html

47. Гийом Г. Принципы теоретической лингвистики.–М.: Культура, 1992.

43. Заболеева-Зотова А.В Естественный язык в автоматизированных системах. Семантический анализ текстов. Монография. - Волгоград: ВолгГТУ, 2002. – 228 с.

 

 

Литература к п.п 13.4-13.5

 

1. Yoelle S. Maarek, Ronald Fagin, Israel Z. Ben-Shaul, Dan Pelleg. Ephemeral Document Clustering for Web Applications:[Информация из Internet]. – [2000]// http://www.cmu.edu/~dpelleg/publications/.

2. Некрестьянов И. С. Тематико-ориентированные методы информационного поиска:[Информация из Internet]. – [2000]// http://www.math.spbu.ru/user/mbk/K0635754/.

3. Michael Steinbach, George Karypis, Vipin Kumar. A Comparison of Document Clustering Techniques:[Информация из Internet]. – [2000]//

http://www-users.cs.umn.edu/~karypis/.

4. Bob Rehder, M. E. Schreiner, Michael B. W. Wolfe. Using Latent Semantic Analysis to assess knowledge: Some technical considerations:[Информация из Internet]. – [2001]//

http://research.microsoft.com/~sdumais/.

5. A. Strehl, J. Ghosh, R. Mooney. Impact of Similarity Measures on Web-page Clustering:[Информация из Internet]. – [2001]//http://lans.ece.utexas.edu/~strehl/.

6. Wai-chiu Wong, Ada Wai-chee. Increment Document Clustering for Web Page Classification:[Информация из Internet]. – [2001]//http://www.cs.cuhk.hk/~adafu/.

7. Chaomei Chen. Structuring and Visualising the WWW by Generalised Similarity Analysis:[Информация из Internet]. – [2000]//http://www.cs.bris.ac.uk/~chen/.

8. Douglass R. Cutting, David R. Karger, Jan O. Pedersen, John W. Tukey.Scatter/Gather: A Clustering algorithm:[Информация из Internet]. – [2001]// http://www.sims.berkeley.edu/~hearst/.

9. Hsinchun Chen Ph.D. High-perfomance Digital Library Classification Systems: From Informational Retrieval to Knowledge Management:[Информация из Internet]. – [2001]//http://www.dli2.nsf.gov/.

10. E. Rasmussen. Clustering algorithms:[Информация из Internet]. – [2000]// http://www.dli2.nsf.gov/.

11. Yarowsky, D. Word-Sense Disambiguation Using Statistical Models of Roget’s Categories Trained on Large Corpora:[Информация из Internet]. – [2001]// http://www.cs.jhu.edu/~yarowsky/.

12. Inderjit S. Dhillon. Concept decompositions for large sparse text data using clustering. ––– Almaden: IBM Almaden Research Center Press:[Информация из Internet]. – [2000]//

http.cs.berkeley.edu/~inderjit/.

13. Alexandrin Popescul, Lyle H. Ungar. Automatic Labeling of Document Clusters:[Информация из Internet]. – [2000]//http://www.cis.upenn.edu/~popescul/.

14. Rakesh Dugad, Narendra Ahuja. Unsupervised Multidimensional Hierarchical Clustering:[Информация из Internet]. – [2001]//http://uirvli.ai.uiuc.edu/dugad/papers/.

15. Ron Weiss, Bienveenido Velez, Mark A. Sheldon. HyPursuit: A Hierarchical Network Search Engine that Exploits Content-Link Hypertext Clustering:[Информация из Internet]. – [2001]//http://ltt-www.lcs.mit.edu/ltt-www/Papers/.

16. C. J. van Rijsbergen. Information retrieval:[Информация из Internet]. – [2000]//http://www.dsi.unive.it/~smm/docs/.

17. Douglass R. Cutting, David R. Karger, Jan O. Pedersen.Scatter/Gather: A Cluster-based Approach to Browsing Large Document Collections:[Информация из Internet]. – [2001]//http://www.dsi.unive.it/~smm/docs/.

18. Yuqiang Guan. Efficient Clustering of Very Large Document Collections:[Информация из Internet]. – [2001]//http://www.ece.utexas.edu/~qyu/.

19. Arjen van Ooyen. Theoretical aspects of pattern analysis:[Информация из Internet]. – [2001]//http://anc.ed.ac.uk/arjen/.

20. Кристофидес Н. Теория графов. Алгоритмический подход. – М.: Мир, 1978. – с.161.

21. David Scott Dubin. Structure in Document Browsing Spaces:[Информация из Internet]. – [2001]//http://alexia.lis.uiuc.edu/~dubin/.

22. Eui-Hong (Sam), Han George Karypis, Vipin Kumar. Clustering In A High-Dimensional Space Using Hypergraph Models:[Информация из Internet]. – [2001]//http://www-users.cs.umn.edu/~karypis/.

23. Eui-Hong (sam) Han, Daniel Boley, Maria Gini. WebACE: A Web Agent for Document Categorization and Exploration:[Информация из Internet]. – [2001]//http://maya.cs.depaul.edu/~mobasher/.

24. Daniel Boley, Maria Gini, Robert Gross. Document Categorization and Query Generation on the World Wide Web Using WebACE:[Информация из Internet]. – [2000]//http://maya.cs.depaul.edu/~mobasher/.

25. Дюран Б., Оделл П. Кластерный анализ. - М.: Статистика, 1977. – 128 с.

26. Жамбю М. Иерархический кластер-анализ и соответствия: Пер. с фр. – М.: Финансы и статистика, 1988. – 342 с.

27. Классификация и кластер. /Под ред. Дж. Вэн Райзина. – М.: Мир, 1980, – 390 с.

28. David S. Dubin. Toward More Robust Discrimination-Based Indexing Models:[Информация из Internet]. – [2001]//http://alexia.lis.uiuc.edu/~dubin/.

29. David S. Dubin. Further Cautions for the Calculation of Discrimination Values. – Illinois: University of Illinois Press:[Информация из Internet]. – [2001]//http://alexia.lis.uiuc.edu/~dubin/.

30. Minos N. Garofalakis, Rajeev Rastogi, Kyuseok Shim. Data Mining and the Web: Past, Present and Future:[Информация из Internet]. – [2000]//

http://www.bell-labs.com/user/rastogi/.

31. Attributes Eui-Hong (Sam) Han George Karypis, Vipin Kumar. Min-Apriori: An Algorithm for Finding Association Rules in Data with Continuous Mining Association Rules:[Информация из Internet]. – [2001]//http://www-users.cs.umn.edu/~karypis/.

32. Ilker Cengiz. Mining Association Rules:[Информация из Internet]. – [2000]//http://www.cs.bilkent.edu.tr/~icengiz/.

33. Буров К. Обнаружение знаний в хранилищах данных// Открытые системы. – №5-6. – 1999. – C. 13-19.

34. Rakesh Agrawal, Ramakrishnan Srikant. Fast Algorithms for Mining Association Rules:[Информация из Internet]. – [2001]// http://www.almaden.ibm.com/cs/people/ragrawal/.

35. Clement T. Y., Weiyi Meng. Principles of Database Query Processing for Advanced Applications:[Информация из Internet]. – [2000]//http://www.cs.binghamton.edu/Faculty/meng.html.

36. Sudipto Guha, Rajeev Rastogi, and Kyuseok Shim. CURE: An efficient clustering algorithm for large databases:[Информация из Internet]. – [2001]//http://theory.stanford.edu/~sudipto/.

37. George Karypis, Eui-Hong (Sam) Han, Vipin Kumar. CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic Modeling:[Информация из Internet]. – [2001]//http://www-users.cs.umn.edu/~karypis/.

38. Sudipto Guha, Rajeev Rastogi, Kyuseok Shim. Rock: A Robust Clustering Algorithm For Categorical Attributes:[Информация из Internet]. – [2000]//http://theory.stanford.edu/~sudipto/.

39. T. Zhang, R. Ramakrishnan, M. Linvy. Birch: an efficient data clustering method for large databases:[Информация из Internet]. – [2001]//http://www.csse.monash.edu.au/~hws/.

40. Thomas K. Landauer, Susan T. Dumais. Solution to Plato's Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge:[Информация из Internet]. – [2000]//http://research.microsoft.com/~sdumais/.

41. M.W. Berry, S.T. Dumais, G.W. O'Brien. Using Linear Algebra for Intelligent Information Retrieval:[Информация из Internet]. – [2001]//http://research.microsoft.com/~sdumais/.

42. George Karypis, Eui-Hong (Sam) Han, Vipin Kumar. Multilevel Refinement for Hierarchical Clustering:[Информация из Internet]. – [2001]//

http://www-users.cs.umn.edu/~karypis/.

44. F. Hinneburg, Alexander A. Keim. Optimal Grid-Clustering: Towards Breaking the Curse of Dimensionality in High-Dimensional Clustering:[Информация из Internet]. – [2001]//http://hawaii.informatik.uni-halle.de/~hinnebur/.

45. Заболеева-Зотова А.В Естественный язык в автоматизированных системах. Семантический анализ текстов. Монография. - Волгоград: ВолгГТУ, 2002. – 228 с.


 

Приложения