Информационная технология статистического анализа текста на естественном языке.

Лекция № 4. Информационные технологии обработки текста на естественном языке.

КОНТРОЛЬНЫЕ ВОПРОСЫ.

1. Какие устройства входят в состав ПЭВМ?

2. Что размещается в системном блоке?

3. Назначение микропроцессора и его основные характеристики.

4. Основная память, ее разновидности и важнейшие характеристики.

5. В какой памяти сохраняются программы BIOS?

6. Какая информация сохраняется в энергонезависимой памяти?

7. Назначение ВЗУ и их разновидности.

8. Каким образом осуществляются операции чтения и записи в НЖМД?

9. Какие параметры влияют на быстродействие винчестера?

10. Что общее и различное между флоппи-диском и жестким диском?

11. Какие вы знаете разновидности накопителей на оптических дисках? Чем они различаются между собою?

12. Каким образом происходит считывание информации с компакт-дисков?

13. В чем измеряется скорость передачи данных в накопителях на оптических носителях?

14. Назначение клавиш на клавиатуре.

15. Назначение и основные характеристики сканеров.

16. Какие функции выполняют модемы?

17. Какие принципы формирования изображения используются у дисплеев?

18. Как происходит вывод информации на бумагу у матричных, лазерных и струйных принтеров?

К информационным технологиям (ИТ) обработки текста на естественном языке относятся:

q грамматический и стилистический анализ,

q статистический анализ,

q автоматическое аннотирование и реферирование,

q автоматический (машинный) перевод,

q фоносемантический анализ,

q компьютерное распознавание,

q распознавание и синтез речи,

q семантический поиск.

Рассмотрим некоторые из них.

Основу информационной технологии статистического анализа текста на естественном языке составляют статистические методы.

Статистические методы в лингвистике – это методы использования счета и измерений для изучения языка и речи. Объектом их применения является текст (в первую очередь его лексический состав).

Статистический анализ текста используется для:

1. Математически точного различения стилей и жанров (статистическая стилистика).

Так, в немецкой художественной литературе среднее число слогов в слове 1,5-1,9 (англ. 1,3-1,5), в научной 1,9-2,3 (англ. 1,5-1,8). По авторам: самые скупые на слоги Рильке, Хэмингуэй, Диккенс, самые щедрые К. Маркс и А. Гумбольд. По чередованию ударных и безударных слогов определяется величина метрической связи, которая возрастает от научных текстов к поэзии. Здесь лидеры: Байрон, Данте, Рильке, Пушкин, Шекспир, Гете, Брехт, Гомер, Вергилий, Овидий, Ю. Цезарь.

2. Проведения атрибуции текстов (установление авторства анонимных текстов в историческом языкознании и т.д.) на основании неповторимого сочетания статистических параметров авторского текста.

3. Описания поведения различных языковых единиц (букв, морфем, слов) в тексте (их распределение, сочетаемость, частота употребления).

4. Измерения информативности текстов (количества информации содержащейся в тексте и его составных частях).

Так в соответствии с формулой Клода Шеннона[3] количество информации которую несет одна буква русского алфавита равна 3,01 бита, английского – 3,1, французского – 2,83 бита. Траты информации на ритм и рифму: в классическом четырехстопном ямбе 10 и 7 бит, в современном четырехдольнике 5 и 8 бит. Ослабление ритмических ограничений в современной поэзии усилило ограничения по рифме: практически исчезли простые грамматические рифмы (окном-пером, стоять-лежать и т.п.). За счет передачи смысла через ритм, рифму, звуковую инструментовку поэзия, как правило, информационно богаче прозы. Но, информационная плотность «Поединка» Куприна вдвое больше рядовых стихов.

5. Восстановления текстов и языков по их фрагментам (описания структуры текста и языка на основании очень ограниченной исходной информации в сочетании с дистрибутивным анализом, изучающим окружение отдельных единиц текста без использования сведений о его полном лексическом составе).

6. Определения уровня родства, скорости языковых изменений и времени разделения различных языков (глоттохронология).

7. Определения типологии языков (их сравнительное соотношение и изучение независимо от характера генетических отношений) (квантитативная типология) и т.д..

Современные статистические методы реализованы с помощью таких средств ПО ИТ, как статистические программы, текстовые и табличные процессоры, поисковые системы, системы управления базами данных, машинные фонды языков, электронные библиотеки и т.д.