Ведение

 

 

Учебное пособие написано в соответствии с образовательным стандартом для подготовки инженеров по специальности “Программное обеспечение вычислительной техники и автоматизированных систем” для дисциплины " Теория языков программирования и методы трансляции" на основе более, чем 10-летнего опыта преподавания данного курса авторами. Прелагаемые материалы могут быть также использованы при изучении ряда вопросов для дисциплин “Лингвистическое и программное обеспечение САПР” (специальность – “Системы автоматизации проектирования”) и “Системное программное обеспечение” (специальность – “Вычислительные машины, комплексы, системы и сети”). Кроме того, пособие содержит вопросы, связанные с автоматизированным анализом связных текстов, информационным поиском в больших массивах документов. Этот материал будет полезен для магистров и аспирантов различных специальностей.

Рассмотрены вопросы теории формальных языков и методов синтаксически-ориентированной трансляции автоматных и контекстно-свободных языков.

Рассмотрены: компиляторы, ассемблеры, интерпретаторы. Показана необходимость разработки языковых средств. Проведен обзор процесса компиляции. Описаны основные части компилятора, лексический анализ, синтаксический анализ, генерация кода, оптимизация кода, анализ и исправление ошибок, синтаксически-ориентированный метод трансляции, задача трансляции, структура и значение языка (синтаксис и семантика), языки, цепочки и языки, примеры языков; порождающие грамматики Хомского, иерархия порождающих грамматик; автоматные грамматики, конечные автоматы, синтаксические диаграммы; правила конструирования транслятора по синтаксической диаграмме. Рассмотрены методы распознавания контекстно-свободных языков, методы синтаксического анализа КС языков, методы перевода и генерации кода; основы методов обработки естественного языка.

Описаны проблемы семантики ЕЯ, структура ЕЯ-текста, проведен анализ различных лингвистических теорий. Описана модель представления семантики связного текста в виде дискурсного графа. Разработана обобщенная архитектура автоматизированной системы анализа ЕЯ-текста. Определены области практического использования класса подобных систем.

Рассмотрен процесс структуризации документов внутри коллекции и расстановка соответствующих гиперссылок. Степень близости между документами реализуется латентным семантическим анализом, который применяется к векторной модели пространства документов и термов. Рассмотрено глобальное и локальное взвешивания термов, входящих в матрицу терм-документ. Для взвешивания используются статистические меры и нормирование с помощью энтропии. По результатам анализа создается векторное пространство семантической близости документов.

Показан процесс кластеризации гипертекста, то есть выделение иерархии семантически связанных групп документов. Описан способ задания параметров, используемых при кластеризации, влияющих на характер получаемой структуры. Варьируя данный параметр, можно подобрать необходимую степень связности итогового гиперграфа, представляющего структуру сайта. Определяется степень влияния существующих ссылок, если структура уже существует. Кластеризация гипертекста производится на основе синтезированного алгоритма. Структура гипертекста представляется в виде гиперграфа.