Публикации

ЛАБОРАТОРИЯ № 15
Лаборатория компьютерной лингвистики

Заведующий лабораторией: д.филол.н. Богуславский Игорь Михайлович

Тел.: (095) 299-49-27; Email: bogus@iitp.ru

http://proling.iitp.ru/

Ведущие ученые лаборатории:

акад. РАН	Апресян Ю. Д.	Григорьев Н. В.
д.филол.н.	Санников В. З.	Григорьева С. А.
к.филол.н.	Иомдин Л. Л.	Лазурский А. В.
к.ф.-м.н.	Митюшин Л. Г.	Сагалова И. Л.
к.ф.-м.н.	Цинман Л. Л.	Сизов В. Г.

НАПРАВЛЕНИЯ ИССЛЕДОВАНИЙ

Основной научной проблематикой лаборатории является функционирование естественного языка в качестве средства передачи информации.

Фундаментальные исследования, проводимые в лаборатории, направлены на разработку полной действующей формальной модели языка типа “Смысл Û Текст”. Модель должна имитировать языковое поведение человека, т.е. его способность производить тексты на естественном языке и понимать их.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ

В 1999 году были достигнуты следующие результаты.

1. Построен модуль деконвертации, преобразующий структуры Универсального Сетевого Языка (Universal Networking Language (UNL)) в русские предложения. Эта работа проводится в рамках международного проекта, осуществляемого под эгидой ООН. Конечная цель проекта состоит в том, чтобы преодолеть языковой барьер в рамках сети Интернет, предоставив ее пользователям из разных стран возможность общаться друг с другом на своем родном языке. Суть проекта состоит в следующем. Построен универсальный язык-посредник UNL для обмена информацией в электронных сетях. На этом языке можно представить значение, содержащееся в любом тексте, написанном на любом естественном языке. Для каждого естественного языка должны быть разработаны две процедуры: процедура конвертации, превращающая (в интерактивном режиме) текст, написанный на данном языке, в текст на UNL, и процедура деконвертации, преобразующая выражение языка UNL в текст на данном естественном языке. Обе процедуры для каждого языка помещаются в Интернет и доступны для любого пользователя. Задача Лаборатории в этом проекте - создание указанных процедур для русского языка в качестве дополнительного модуля системы ЭТАП-3. Прототип модуля деконвертации доступен по адресу: http://proling.iitp.ru/Deco

2. Продолжалась работа по развитию системы машинного перевода ЭТАП-3.

Комбинаторные словари русского и английского языков достигли объема около 48-50 тысяч единиц каждый.

Свыше 1500 слов были снабжены лексическими функциями, которые используются как для повышения качества перевода, так и для целей квазисинонимического перифразирования. Инвентарь лексических функций превышает 100 единиц.

Формат словарной статьи комбинаторного словаря был модифицирован таким образом, чтобы обеспечить возможность различной обработки текстов, относящихся к различным предметным областям.

Программное обеспечение системы ЭТАП, первоначально написанное для компьютера VAX под операционной системой VMS, было перенесено в среду Windows NT.

Разработан механизм работы с ослабленными синтаксическими правилами, направленный на повышение устойчивости работы синтаксического анализатора.

Опробован новый алгоритм синтаксического анализа, основанный на постепенном построении все более крупных древовидных синтаксических фрагментов.

Разработана система синтаксической коррекции русских текстов, способная обнаруживать и исправлять широкий класс ошибок в синтаксическом согласовании и падежном управлении слов в предложении.

Проведен ряд экспериментов по интеграции различных стратегий машинного перевода в рамках единой системы. В систему ЭТАП-3, построенную на стратегии лингвистических правил (дедуктивный подход), динамически вводились элементы индуктивного подхода [статистическая обработка параллельного корпуса, использование архива переводов (translation memory)].

Экспериментальная версия системы ЭТАП доступна по адресу: http://proling.iitp.ru

3. Предпринято углубленное теоретическое исследование системы русского словообразования, и построена ее компьютерная модель.

Разработана и проверена на серии машинных экспериментов оптимальная стратегия ввода словообразовательного компонента в системы автоматической обработки текстов, учитывающая:

продуктивность той или иной словообразовательной модели;

степень технической сложности внедрения этой модели;

для систем автоматического перевода – легкость/сложность правил перевода единиц, образованных по данной модели, с русского языка на иностранный, и наоборот.

Для реализации словообразовательного анализа был написан комплекс программ, включающий новый морфологический транслятор и новый морфологический анализатор, позволяющие описывать словообразовательную информацию

4. Разработана новая версия аппарата лексических функций и перифразирования.

Разработана новая модель перифразирования в виде следующих трех блоков правил: распознавание лексических функций в произвольном предложении (переход от поверхностно-синтаксических структур к глубинно-синтаксическим); канонизация синтаксических структур; перифразирование в собственном смысле.

Разработана новая версия аппарата лексических функций (определения и представительные списки для каждой функции).

Проведены комплексные эксперименты по отладке модели перифразирования.

5. Продолжена работа по созданию системы обучения лексике русского и английского языков на компьютере.

Начата работа по обновлению моделей управления, которые унифицируются на основе детальной семантико-синтаксической классификации предикатных слов.

Создана новая версия семантического языка для аналитических толкований лексем и на ее основе разработаны новые толкования.

Создан язык семантических признаков для пересекающихся классификаций лексики; информация о признаках включена в словарные статьи толково-комбинаторных словарей русского и английского языков.

6. Продолжена работа по разработке корпуса русского языка, снабженного морфологической и синтаксической разметкой. Каждому предложению в этом корпусе сопоставлена полная морфологическая структура и синтаксическая структура зависимостей.

Сформирован и подготовлен к разметке корпус русских текстов, содержащий около 1 млн. словоупотреблений.

Выполнена морфологическая и синтаксическая разметка для части корпуса, содержащей около 4200 предложений, или порядка 56 тысяч словоупотреблений.

ГРАНТЫ

Российский фонд фундаментальных исследований (№ 99-06-80277): “Разработка действующей модели языка "Смысл Û Текст" (третья очередь)”.

Российский фонд фундаментальных исследований (№ 98-07-90072): “Создание аннотированного корпуса русских текстов”.

Российский фонд фундаментальных исследований (№ 99-06-80292): "Формальная модель перифразирования предложений для систем переработки текстов на естественных языках".

Российский фонд фундаментальных исследований (№ 99-06-80276): “Теория и практика введения словообразовательного компонента в системы автоматической обработки русских текстов”.

Российский государственный научный фонд (№ 99-04-00318): “Изучение лексики с помощью компьютера”.

ПУБЛИКАЦИИ В 1999 г.

Апресян Ю.Д. Отечественная теоретическая семантика в конце ХХ столетия // Изв. АН, сер. лит. и яз. 1999. № 4. С. 39-53.

Апресян Ю.Д. Принципы системной лексикографии и толковый словарь // Поэтика. История литературы. Лингвистика. Сборник к 70-летию Вячеслава Всеволодовича Иванова. М.: 1999. С. 634-650.

Апресян Ю.Д. Основные ментальные предикаты состояния в русском языке // Славянские этюды. Сборник к юбилею С. М. Толстой. М.: 1999. С. 44-58.

Богуславский И.М., Иомдин Л.Л. Семантика быстроты // Вопросы языкознания. 1999. № 6. С. 13-30.

Boguslavsky I. Translation to and from Russian: the ETAP-3 System // Proceedings of the Workshop of the European Association for Machine Translation (in print).

Григорьев Н.В. Восходящий алгоритм построения дерева зависимостей для системы ЭТАП-3 // Труды Международного семинара Диалог’99, с. 28-33, 1999.

Iomdin L., Streiter O. Learning from Parallel Corpora: Experiments in Machine Translation // Труды Международного семинара Диалог’99, с. 79-88, 1999.

Iomdin L., Carl M., Pease C., Streiter O. Towards a Dynamic Linkage of Example-Based and Rule-Based Machine Translation // Machine Translation. 2000, issue 5 (in print).

9. Iomdin L., Streiter O., et al. Learning, Forgetting and Remembering: Statistical Support for Rule-Based MT // Proceedings of the 8th International Conference on Theoretical and Methodological Issues in Machine Translation (TMI99), 1999.

Цинман Л.Л., Сизов В.Г. Система ЭТАП: процедуры ослабления синтаксических правил и их использование // Труды Международного семинара Диалог’99, с. 321-326, 1999.