Информационная технология статистического анализа текста на естественном языке.
Лекция № 4. Информационные технологии обработки текста на естественном языке.
КОНТРОЛЬНЫЕ ВОПРОСЫ.
1. Какие устройства входят в состав ПЭВМ?
2. Что размещается в системном блоке?
3. Назначение микропроцессора и его основные характеристики.
4. Основная память, ее разновидности и важнейшие характеристики.
5. В какой памяти сохраняются программы BIOS?
6. Какая информация сохраняется в энергонезависимой памяти?
7. Назначение ВЗУ и их разновидности.
8. Каким образом осуществляются операции чтения и записи в НЖМД?
9. Какие параметры влияют на быстродействие винчестера?
10. Что общее и различное между флоппи-диском и жестким диском?
11. Какие вы знаете разновидности накопителей на оптических дисках? Чем они различаются между собою?
12. Каким образом происходит считывание информации с компакт-дисков?
13. В чем измеряется скорость передачи данных в накопителях на оптических носителях?
14. Назначение клавиш на клавиатуре.
15. Назначение и основные характеристики сканеров.
16. Какие функции выполняют модемы?
17. Какие принципы формирования изображения используются у дисплеев?
18. Как происходит вывод информации на бумагу у матричных, лазерных и струйных принтеров?
К информационным технологиям (ИТ) обработки текста на естественном языке относятся:
q грамматический и стилистический анализ,
q статистический анализ,
q автоматическое аннотирование и реферирование,
q автоматический (машинный) перевод,
q фоносемантический анализ,
q компьютерное распознавание,
q распознавание и синтез речи,
q семантический поиск.
Рассмотрим некоторые из них.
Основу информационной технологии статистического анализа текста на естественном языке составляют статистические методы.
Статистические методы в лингвистике – это методы использования счета и измерений для изучения языка и речи. Объектом их применения является текст (в первую очередь его лексический состав).
Статистический анализ текста используется для:
1. Математически точного различения стилей и жанров (статистическая стилистика).
Так, в немецкой художественной литературе среднее число слогов в слове 1,5-1,9 (англ. 1,3-1,5), в научной 1,9-2,3 (англ. 1,5-1,8). По авторам: самые скупые на слоги Рильке, Хэмингуэй, Диккенс, самые щедрые К. Маркс и А. Гумбольд. По чередованию ударных и безударных слогов определяется величина метрической связи, которая возрастает от научных текстов к поэзии. Здесь лидеры: Байрон, Данте, Рильке, Пушкин, Шекспир, Гете, Брехт, Гомер, Вергилий, Овидий, Ю. Цезарь.
2. Проведения атрибуции текстов (установление авторства анонимных текстов в историческом языкознании и т.д.) на основании неповторимого сочетания статистических параметров авторского текста.
3. Описания поведения различных языковых единиц (букв, морфем, слов) в тексте (их распределение, сочетаемость, частота употребления).
4. Измерения информативности текстов (количества информации содержащейся в тексте и его составных частях).
Так в соответствии с формулой Клода Шеннона[3] количество информации которую несет одна буква русского алфавита равна 3,01 бита, английского – 3,1, французского – 2,83 бита. Траты информации на ритм и рифму: в классическом четырехстопном ямбе 10 и 7 бит, в современном четырехдольнике 5 и 8 бит. Ослабление ритмических ограничений в современной поэзии усилило ограничения по рифме: практически исчезли простые грамматические рифмы (окном-пером, стоять-лежать и т.п.). За счет передачи смысла через ритм, рифму, звуковую инструментовку поэзия, как правило, информационно богаче прозы. Но, информационная плотность «Поединка» Куприна вдвое больше рядовых стихов.
5. Восстановления текстов и языков по их фрагментам (описания структуры текста и языка на основании очень ограниченной исходной информации в сочетании с дистрибутивным анализом, изучающим окружение отдельных единиц текста без использования сведений о его полном лексическом составе).
6. Определения уровня родства, скорости языковых изменений и времени разделения различных языков (глоттохронология).
7. Определения типологии языков (их сравнительное соотношение и изучение независимо от характера генетических отношений) (квантитативная типология) и т.д..
Современные статистические методы реализованы с помощью таких средств ПО ИТ, как статистические программы, текстовые и табличные процессоры, поисковые системы, системы управления базами данных, машинные фонды языков, электронные библиотеки и т.д.