Базовая концепция
Напомним, что, латентной семантической индексацией называется в первую очередь проведение svd-анализа (singular value decomposition) над матрицами, полученными из корпуса документов. Метод svd [2] используется для установления структуры в употреблении слов для всех рассматриваемых документах.
На основе имеющегося набора документов создается терм-документная матрица а. Как уже говорилось, мы определяем ключевые слова или термы в ней посредством:
Составления списка встречаемости всех слов во всех документах;
Удаления стоповых слов;
Удаления слов, которые встречаются только в одном документе.
Оставшиеся слова – и есть термы, которые мы нумеруем от 1 до m
Пусть количество документов равно n. Создадим матрицу а размерностью m x n ,такую, что:
A = UåVT , (4)
где UTU = VTV = In где In – единичная матрица порядка n и å = diag(s1; ...; sn); si >0 for 1 £ i£ r; sj = 0 for j ³ r + 1
Первые r столбцов ортогональных матриц u и v задают собственные ортонормальные вектора, связанные с r ненулевых собственных значений матриц aat и ata соответственно. Столбцы u и v соответственно являются левыми и правыми сингулярными векторами, а сингулярные значения матрицы а определенные как диагональные элементы матрицы å, являются неотрицательными квадратными корнями n собственных значений AAT .
Матрица ATA содержит информацию о схожести всех пар документов и является матрицей близости между документами. Скалярное произведение двух векторов термов измеряет их появляемость вместе во всех документах набора. Матрица AAT, содержащая информацию о схожести между всеми парами термов и есть терм-термовая матрица близости.