Выбор числа измерений

Здесь можно выделить несколько различных методов.

Метод логарифмической схожести. Он проводится путем выбора нескольких k и установления логарифмического расстояния между векторами документов. В тех точках, где эта функция имеет максимумы, количество измерений считается предпочтительным.

Можно производить выбор на основе получаемой лучшей средней точности на тренировочном корпусе. Тогда k, близкое к среднему и выбирается.

Также возможно выбирать k случайно.

Наиболее приемлемым, является второй метод. Западными исследователями установлено, что в зависимости от многих параметров (характера текстов, объема коллекции, требуемой точности и тд.) Оптимальным является значение порядка 100-300. То есть в каждом конкретном случае фактор подбирается индивидуально. Будем опираться на эти данные.

Возможность изменения информации в базе ЛСИ

Мы уже говорили о том, что в нынешней ситуации, когда информация представляется наибольшей ценностью и более всего подвержена таким процессам как устаревание и потеря актуальности, для современных специалистов важнейшим делом является оперативность получения информации, возможность ее обработки и встраивания в существующую модель знаний. В методе лси этим призвана заниматься техника svd-обновления.

 

Учет действий пользователя

Большинство исследователей, работающих с векторными моделями пространства, в том числе и с лси, считают, что использование механизма релевантной обратной связи позволяет улучшить выходной результат с небольшими вычислительными затратами. В связи с этим многие современные системы лси используют данный принцип для улучшения производительности. В нашей системе этот принцип может быть применен при оптимизации существующей структуры сайта, когда мы имеем информацию о текущей структуре и в то же время получаем новую информацию, проводя svd-анализ. Это позволит повысить эффективность работы системы.