Лингвистическая информационная база компьютерной системы, работающей с естественным языком.
Известно, что главное социальное назначение языка – быть средством общения людей. Чтобы понимать друг друга, люди должны иметь некоторый общий запас слов, знать правила использования этих слов в жизненных различных ситуациях. Словарный запас человека индивидуален и пополняется в течение всей жизни. Его состав зависит от большого числа факторов: социального статуса семьи, склонности к чтению, специальности, возраста и т.п. Каждый человек, живущий в обществе, отражает в своем сознании те изменения, которые в нем происходят. А возникают эти изменения по-разному: одни события наступают с определенной закономерностью (чередование времен года, изменения длины светового дня и т.п.), другие же, которых большинство, наступают с некоторыми вероятностями (поступлю в институт или нет, выучу язык хорошо или плохо, смогу перевести текст или нет и т.п.). Поэтому каждый человек в своей памяти отражает вероятностную структуру среды, в которой живет. Это выражается, в частности, в том, что одни слова он употребляет чаще, другие реже, а третьи – совсем редко. Поэтому в памяти человека все слова получают некоторый условный индекс – частоту употребления слова. Частота эта субъективна для каждого человека. Также субъективны и те правила, которые он использует в процессе речи.
Вероятностная организация словаря человека проявляется и в тексте, как результате речевой деятельности. Рассмотрев детально любой текст, можно найти в нем более употребительные и менее употребительные слова.
Чтобы компьютер мог понимать естественный язык и «говорить» на нем, переводить тексты, реферировать, аннотировать и искать их, необходимо, чтобы он для начала имел некоторый словарный запас – некоторый словарь. Как словарь человека построен по вероятностному принципу, так и словарь машины обычно организуется по такому же принципу. Если вероятностные индексы словаря человека формируются в процессе познания окружающей действительности в течение всей его жизни, то в памяти компьютера частота дается слову после статистического анализа текста или некоторого множества текстов в зависимости от назначения системы, оперирующей формируемым словарем.
Так, если электронная машина должна провести стилистический анализ текстов какого-то автора, то предварительно проводится статистический анализ всех (или некоторой части) его произведений. Полученные в итоге частоты слов будут косвенно отражать вероятностную организацию словаря автора. Если от компьютера требуется понимание (в процессе перевода, реферирования, аннотирования, поиска и т.д.) текстов какой-то одной предметной области («электроника», «судостроение», «оптика», «атомная энергетика» и т.п.), то проводится статистический анализ некоторого множества соответствующих текстов. Это множество текстов называют иногда подъязыком. В итоге каждое слово созданного частотного словаря имеет индекс-частоту, отражающую среднюю частоту употребления слова у всех, пишущих в рамках избранной предметной области. При всевозможных исследованиях с помощью компьютера текстов, принадлежащих к разным предметным областям, частотные словари составляются по текстам всех рассматриваемых предметных областей.
Частотный словарь – пронумерованный список слов текста (множества текстов) с указанием абсолютной частоты употребления этого слова в тексте.
Частотные словари составляются по текстам отдельных авторов, произведений, предметных областей. Они являются основой для создания электронных словарей, компьютерных переводчиков, систем семантического поиска, автореферирования и аннотирования текстов, автоматизации изучения стилистических особенностей отдельных авторов и т.п.
Частотные словари – это только основа тех языковых знаний, которыми должен владеть компьютер. В зависимости от назначения компьютерной системы единицам такого словаря дается:
q лексико-грамматическая (признак части речи, род, число, падеж, время, лицо и т.д.),
q семантическая (одушевленность, конкретность, локальность и т.п.),
q некоторая другая информация (переводной эквивалент, указание на синоним или ассоциативную связь и т.п.).
Частотный словарь текстов некоторой предметной области, в котором каждой словарной единице даны определенные наборы лексико-грамматических, семантических или каких-либо иных признаков, составляет основу лингвистической информационной базыкомпьютерной системы работающей с естественным языком.
Приведем пример алфавитно-частотного словаря.
Словарь какого-либо текста называют алфавитно-частотным, если все его единицы расположены по алфавиту и для каждой такой текстовой единицы указана частота ее употребления F в этом тексте.
Дан текст: СКОРО ПРИДЕТ ВЕСНА. ВЕСНОЙ ЛЕГЧЕ ДЫШИТСЯ. ПРИХОДИ ВЕСНА!
В этом тексте 8 словоупотреблений.
Словоупотребление – это цепочка буквенных символов, находящаяся между двумя знаками пробела.
Словоупотребление, рассматриваемое вне предложения или текста, называется словоформой.
Несколько словоформ, имеющих одно и то же лексическое значение, образует слово.
В данном тексте 8 словоупотреблений и 7 словоформ (табл. 1).
Таблица 1
№ | Единица | F |
| ВЕСНА | |
| ВЕСНОЙ | |
| ДЫШИТСЯ | |
| ЛЕГЧЕ | |
| ПРИДЕТ | |
| ПРИХОДИ | |
| СКОРО |
Как видно, два словоупотребления ВЕСНА преобразуются вне текста в одну словоформу ВЕСНА.
Если составить из этого текста алфавитно-частотный словарь слов, то он будет состоять из 5 слов (табл. 2).
Таблица 2
№ | Единица | F |
| ВЕСНА | |
| ДЫШАТЬСЯ | |
| ЛЕГКО | |
| ПРИХОДИТЬ | |
| СКОРО |
Здесь словоформы ВЕСНА и ВЕСНОЙ относятся к одному словарному слову ВЕСНА, а глаголы ПРИДЕТ и ПРИХОДИ являются словоформами словарного глагола ПРИХОДИТЬ.
Таким образом, если в лингвистической задаче сказано, что в предложении необходимо найти слово МАШИНА, это означает, что искать в нем надо все словоформы, относящиеся к этому слову: МАШИНА, МАШИНЫ, МАШИНЕ, МАШИНУ, МАШИНОЙ, МАШИН, МАШИНАМ, МАШИНАМИ, МАШИНАХ (9) или общую часть этих словоформ. И потому при организации поиска с помощью компьютерной системы задается МАШИН.