Последнее время наметилась тенденция объединять оба метода.
Обе технологии имеют свои достоинства и недостатки.
Статистический метод - поиск наиболее вероятного перевода предложения с использованием данных полученных из параллельных корпусов.
Использование программ дает выигрыш только при переводе огромных массивов однородной документации с большим количеством повторений.
Для всех единиц словаря в закодированном виде указываются грамматические признаки и лексико-семантическая информация.
Эффективность систем машинного перевода зависит от автоматического словаря.
Используется два способа представления лексических единиц в автоматическом словаре:
а) в виде словоформ, когда в словарь заносится всевозможные формы каждого слова и они подаются гнездами.
б) в виде квазиосновы. Числа, стоящие после решетки условно обозначают те наборы суффиксов и окончаний, которые необходимо присоединить к основе, чтобы получить соответствующую форму слова.
Выбор типа лексической единицы зависит от:
· От типа языка. (для флективных и агглютинативных языков: русский, немецких. Используется квазиоснова; для языков аналитического типа: английский, французский - словоформа)
· От объема словаря.
· От типа машинного перевода. Для "информативного" перевода (общее представление) - квазиоснову, для профессионального перевода - словоформа.
Системы первой технологии опираются на готовые словари. Чтобы эти системы можно было применять профессионально, необходимо потратить много времени на настройку системы для каждой тематики перевода:
· Подключить специализированные словари
· Зарезервировать имена собственные
· Подключить базы TM (Translation Memory)
· Выбрать правильные переводные эквиваленты для многозначных слов
· Отредактировать
Преимущества:
· Синтаксическая и морфологическая точность
· Стабильность и предсказуемость результата
· Возможность настройки на предметную область
Недостатки:
· Трудоемкость
· Необходимость добавлять лингвистическую базу данных
· "машинный акцент" при переводе
· Статистический машинный перевод
Преимущества:
· Легко построить, если есть двуязычных корпус
· Переносимость технологий на любые пары языков
· Лексическая гладкость
Ограничения и недостатки:
· Ограниченность параллельных корпусов в природе и их качества
· Плохо справляется с морфологией и синтаксисом
· Искажение информации
В этом году Promt разработала Гибридную технологию перевода, которая позволит сохранить преимущества традиционной технологии (формирование синтаксически связного и грамматически правильного текста) и получить преимущества статистического метода (быстрая обучаемость и получение данных из параллельных корпусов в автоматическом режиме, гладкость текстов)