Лингвистическая информационная база компьютерной системы, работающей с естественным языком.

Известно, что главное социальное назначение языка – быть средством общения людей. Чтобы понимать друг друга, люди должны иметь некоторый общий запас слов, знать правила использования этих слов в жизненных различных ситуациях. Словарный запас человека индивидуален и пополняется в течение всей жизни. Его состав зависит от большого числа факторов: социального статуса семьи, склонности к чтению, специальности, возраста и т.п. Каждый человек, живущий в обществе, отражает в своем сознании те изменения, которые в нем происходят. А возникают эти изменения по-разному: одни события наступают с определенной закономерностью (чередование времен года, изменения длины светового дня и т.п.), другие же, которых большинство, наступают с некоторыми вероятностями (поступлю в институт или нет, выучу язык хорошо или плохо, смогу перевести текст или нет и т.п.). Поэтому каждый человек в своей памяти отражает вероятностную структуру среды, в которой живет. Это выражается, в частности, в том, что одни слова он употребляет чаще, другие реже, а третьи – совсем редко. Поэтому в памяти человека все слова получают некоторый условный индекс – частоту употребления слова. Частота эта субъективна для каждого человека. Также субъективны и те правила, которые он использует в процессе речи.

Вероятностная организация словаря человека проявляется и в тексте, как результате речевой деятельности. Рассмотрев детально любой текст, можно найти в нем более употребительные и менее употребительные слова.

Чтобы компьютер мог понимать естественный язык и «говорить» на нем, переводить тексты, реферировать, аннотировать и искать их, необходимо, чтобы он для начала имел некоторый словарный запас – некоторый словарь. Как словарь человека построен по вероятностному принципу, так и словарь машины обычно организуется по такому же принципу. Если вероятностные индексы словаря человека формируются в процессе познания окружающей действительности в течение всей его жизни, то в памяти компьютера частота дается слову после статистического анализа текста или некоторого множества текстов в зависимости от назначения системы, оперирующей формируемым словарем.

Так, если электронная машина должна провести стилистический анализ текстов какого-то автора, то предварительно проводится статистический анализ всех (или некоторой части) его произведений. Полученные в итоге частоты слов будут косвенно отражать вероятностную организацию словаря автора. Если от компьютера требуется понимание (в процессе перевода, реферирования, аннотирования, поиска и т.д.) текстов какой-то одной предметной области («электроника», «судостроение», «оптика», «атомная энергетика» и т.п.), то проводится статистический анализ некоторого множества соответствующих текстов. Это множество текстов называют иногда подъязыком. В итоге каждое слово созданного частотного словаря имеет индекс-частоту, отражающую среднюю частоту употребления слова у всех, пишущих в рамках избранной предметной области. При всевозможных исследованиях с помощью компьютера текстов, принадлежащих к разным предметным областям, частотные словари составляются по текстам всех рассматриваемых предметных областей.

Частотный словарь – пронумерованный список слов текста (множества текстов) с указанием абсолютной частоты употребления этого слова в тексте.

Частотные словари составляются по текстам отдельных авторов, произведений, предметных областей. Они являются основой для создания электронных словарей, компьютерных переводчиков, систем семантического поиска, автореферирования и аннотирования текстов, автоматизации изучения стилистических особенностей отдельных авторов и т.п.

Частотные словари – это только основа тех языковых знаний, которыми должен владеть компьютер. В зависимости от назначения компьютерной системы единицам такого словаря дается:

q лексико-грамматическая (признак части речи, род, число, падеж, время, лицо и т.д.),

q семантическая (одушевленность, конкретность, локальность и т.п.),

q некоторая другая информация (переводной эквивалент, указание на синоним или ассоциативную связь и т.п.).

Частотный словарь текстов некоторой предметной области, в котором каждой словарной единице даны определенные наборы лексико-грамматических, семантических или каких-либо иных признаков, составляет основу лингвистической информационной базыкомпьютерной системы работающей с естественным языком.

Приведем пример алфавитно-частотного словаря.

Словарь какого-либо текста называют алфавитно-частотным, если все его единицы расположены по алфавиту и для каждой такой текстовой единицы указана частота ее употребления F в этом тексте.

Дан текст: СКОРО ПРИДЕТ ВЕСНА. ВЕСНОЙ ЛЕГЧЕ ДЫШИТСЯ. ПРИХОДИ ВЕСНА!

В этом тексте 8 словоупотреблений.

Словоупотребление – это цепочка буквенных символов, находящаяся между двумя знаками пробела.

Словоупотребление, рассматриваемое вне предложения или текста, называется словоформой.

Несколько словоформ, имеющих одно и то же лексическое значение, образует слово.

В данном тексте 8 словоупотреблений и 7 словоформ (табл. 1).

Таблица 1

№	Единица	F
	ВЕСНА
	ВЕСНОЙ
	ДЫШИТСЯ
	ЛЕГЧЕ
	ПРИДЕТ
	ПРИХОДИ
	СКОРО

Как видно, два словоупотребления ВЕСНА преобразуются вне текста в одну словоформу ВЕСНА.

Если составить из этого текста алфавитно-частотный словарь слов, то он будет состоять из 5 слов (табл. 2).

Таблица 2

№	Единица	F
	ВЕСНА
	ДЫШАТЬСЯ
	ЛЕГКО
	ПРИХОДИТЬ
	СКОРО

Здесь словоформы ВЕСНА и ВЕСНОЙ относятся к одному словарному слову ВЕСНА, а глаголы ПРИДЕТ и ПРИХОДИ являются словоформами словарного глагола ПРИХОДИТЬ.

Таким образом, если в лингвистической задаче сказано, что в предложении необходимо найти слово МАШИНА, это означает, что искать в нем надо все словоформы, относящиеся к этому слову: МАШИНА, МАШИНЫ, МАШИНЕ, МАШИНУ, МАШИНОЙ, МАШИН, МАШИНАМ, МАШИНАМИ, МАШИНАХ (9) или общую часть этих словоформ. И потому при организации поиска с помощью компьютерной системы задается МАШИН.