ЛАБОРАТОРИЯ № 15

Лаборатория компьютерной лингвистики

Заведующий лабораторией: д.филол.н. Богуславский Игорь Михайлович

Тел.: (095) 299-49-27; Email: bogus@iitp.ru

 

 

Ведущие ученые лаборатории:

 

академик, д.филол.н.

Апресян Ю. Д.

 

Григорьев Н. В.

д.филол.н.

Санников В. З.

 

Кайяли И. Е.

к.филол.н.

Григорьева С. А.

 

Крейдлин Л. Г.

к.филол.н.

Иомдин Л. Л.

 

Лазурский А. В.

к.ф.-м.н.

Митюшин Л. Г.

 

Фрид Н. Е.

к.ф.-м.н.

Цинман Л. Л.

 

 

 

 

НАПРАВЛЕНИЯ ИССЛЕДОВАНИЙ

 

Основной научной проблематикой лаборатории является функционирование естественного языка в качестве средства передачи информации.

Фундаментальные исследования, проводимые в лаборатории, направлены на разработку полной действующей формальной модели языка типа «Смысл Û Текст». Модель должна имитировать языковое поведение человека, т.е. его способность производить тексты на естественном языке и понимать их.

 

 

ОСНОВНЫЕ РЕЗУЛЬТАТЫ

 

В 2001 году работа Лаборатории была направлена на расширение и совершенствование функциональных возможностей системы ЭТАП. Демонстрационная версия системы доступна по адресу http://proling.iitp.ru .

1)        Продолжалась работа над пополнением и развитием комбинаторных словарей русского и английского языков. Эти словари доведены до объема около 53 000 единиц каждый, что соответствует объему крупных традиционных двуязычных словарей общего назначения. Расширение словарей носило не только количественный, но и качественный характер. До недавнего времени общая стратегия лексикографической работы Лаборатории состояла в том, чтобы максимально сокращать лексическую многозначность за счет слияния в одной словарной статье сразу несколько значений слова. В таких укрупненных словарных статьях использовались и соответствующие укрупненные модели управления, что увеличивало вероятность ошибок в системе машинного перевода и других NLP системах. Повышение скоростей обработки текстовой информации позволило отказаться от этой стратегии, а введение в словарные статьи новой, более тонкой лексикографической информации, в частности, информации о лексических функциях, очень разных у разных значений слова, потребовало такого отказа. Новая лексикографическая стратегия в гораздо большей мере позволяет учитывать многозначность слова и обрабатывать каждое его значение как самостоятельную единицу языка, со своей моделью управления, своим набором лексических функций и своими переводами в разных случаях его употребления. В результате русский и английский словари формальной модели языка стали  гораздо более адекватно отражать реальное устройство их лексических систем. Это привело, в частности, к улучшению качества машинного перевода.

2)        Продолжалось пополнение и коррекция русского морфологического словаря:

-        словарь пополнялся за счет географических названий и собственных имен;

-        в нем устранялись дублеты типа бомбовый – бомбовой, пришедшие из словаря А. А. Зализняка.

3)        Новый алгоритм морфологического анализа (получения грамматических характеристик для каждого слова текста), разработанный в 2000 году и участвующий в любой процедуре переработки текстов с помощью системы ЭТАП, был запрограммирован на основе технологии конечных автоматов (FST). Отличительные свойства новой системы морфологического анализа:

-        высокая скорость работы (несколько тысяч слов в секунду);

-        обратимость – один и тот же набор данных может быть использован как для анализа, так и для синтеза;

-        компактность – малый расход оперативной и дисковой памяти.

4)        Продолжалась работа по дальнейшему расширению возможностей синтаксического анализатора системы ЭТАП-3 за счет включения в него статистического компонента, нацеленного на получение для каждого обрабатываемого предложения наиболее вероятной синтаксической структуры. Создан прототип синтаксического анализатора, работающий с учетом результатов статистического анализа большого корпуса текстов.

5)        Разработанный в 2000 году алгоритм разрешения грамматико-функцио-нальной неоднозначности русских слов на основе морфологической информации и линейного контекста в 2001 был запрограммирован и используется для сбора материала в целях совершенствования систем русского морфологического и синтаксического анализа.

6)        Были проведены работы по интеграции системы ЭТАП-3 с модулем IAW (I Ask Web), осуществляющим вопросно-ответный диалог с пользователем на естественном языке. ЭТАП-3 был пополнен семантическим словарем, в который вошли словарные статьи, относящиеся к трем предметным областям: Интернет-магазин, недвижимость и налоги. Кроме того, был написан блок правил, осуществляющих переход от синтаксической структуры, порождаемой ЭТАП’ом, к семантическому представлению. Использование ЭТАП’а позволило сделать выбор ответа на вопрос более точным. Существенных улучшений удалось достичь и в области разрешения синтаксической неоднозначности. Работы по интеграции ЭТАП и IAW полностью завершены, интегрированная система введена в эксплуатацию и размещена по адресу www.iaskweb.com .

7)        Проводилось дальнейшее совершенствование системы порождения русских текстов по исходному смысловому заданию на языке UNL (Universal Networking Language). В сотрудничестве с партнерами из Испании, Италии, Франции и Индии было подготовлено и проведено несколько экспериментов по одновременному порождению текстов на пяти языках с помощью компьютеров, находящихся в пяти странах. В рамках этих экспериментов были разработаны конкретные рекомендации по совершенствованию UNL и методам записи смысловой информации с помощью этого языка.  С системой можно познакомиться на сейте http://www.unl.ru .

8)        В 2001 году была завершена работа по проекту "Изучение лексики с помощью компьютера". Созданы учебные толково-комбинаторные словари русского и английского языков, содержащие по 2500 лексических единиц каждый. Словари включают следующую информацию о лексеме: а) часть речи, б) перевод или переводы на другой рабочий язык, в) аналитическое толкование лексемы, г) ее семантические признаки, д) модель управления, е) значения определенных для нее лексических функций. Общее число лексических функций – 107. На этой основе разработаны компьютерные лексические игры (угадать слово по его толкованию, дать значения предлагаемых компьютером лексических функций для него, дать значения определенной лексической функции для предлагаемых компьютером слов и т. п.). Компьютерный учебник лексики снабжен системой оценок ответов пользователя, учитывающей количество правильных ответов и степень лингвистической сложности материала.

9)        В 2001 году была завершена работа над проектом «Формальная модель перифразирования предложений для систем переработки текстов на естественных языках». Помимо правил перифразирования, намеченных в классической версии модели «Смысл – Текст», было введено большое количество новых правил, формализующих синонимические отношения в словообразовательной и синтаксической подсистемах языка, в частности:

-        правила, работающие с так называемыми способами действия глаголов (преобразования начинательных, финитивных, каузативных и ликвидативных глаголов в соответствующие словосочетания, ср. «Зал зашумел – В зале поднялся шум»);

-        правила, работающие с так называемыми неопределенно-личными конструкциями русского языка (преобразования типа «Его обманули – Он был обманут»).

В связи с этим в модель перифразирования было введено свыше 20 новых лексических функций, отсутствующих в классической версии МТС.

10)    Завершен подготовительный цикл работ над второй частью Аннотированного корпуса русских текстов – подбор и первичная обработка массива предложений. В качестве материала для  новой части корпуса были избраны так называемые новостные ленты – собрания коротких информационных сообщений, выпускаемых агентствами новостей. Тексты были взяты с сайтов www.yandex.ru, www.lenta.ru, www.rbc.ru, www.polit.ru и ряда других. С одной стороны, этот материал представляется стилистически и синтаксически удобным  для автоматической обработки, поскольку требует небольшого объема постредактирования. С другой стороны, результаты аннотации такого рода текстов чрезвычайно полезны для улучшения работы поисковых систем. Параллельно с подбором текстов начаты работы по разметке предложений.

 

 

 

 

 

 

 

 

ГРАНТЫ

 

·        Российский фонд фундаментальных исследований (№ 99-06-80277): "Разработка действующей модели языка «Смысл Û Текст» (третья очередь)".

·        Российский фонд фундаментальных исследований (№ 99-06-80292): "Формальная модель перифразирования предложений для систем переработки текстов на естественных языках".

·        Российский фонд фундаментальных исследований (№ 01-06-90453): "Разработка комбинированного алгоритма синтаксического анализа для лингвистического процессора ЭТАП-3".

·        Российский фонд фундаментальных исследований (№ 01-07-90405): "Создание аннотированного корпуса русских текстов (вторая очередь)".

·        Российский гуманитарный научный фонд (№ 99-04-00318): "Изучение лексики с помощью компьютера".

 

 

ПУБЛИКАЦИИ В 2001 г.

 

1.      Jurij D. Apresjan. Semantyka leksykalna. Synonimiczne środki języka. Przeł. Zofia Kozlowska i Andrzej Markowski. Drugie wydanie polskie przygotowały Zofia Kozłowska i Elżbieta Janus. Wrocław – Warszawa – Kraków: Ossolineum, 2000 (реально вышла в 2001).

2.      Boguslavsky I., On the scales and implicatures of EVEN // Pragmatics and Flexibility of Word Meaning. Ed. by E. Németh t., K. Bibok. Current Research in the Semantics/Pragmatics Interface, 8, Elsevier Science, 2001.

3.      Апресян Ю.Д. Смыслы ‘знать’ и ‘считать’ в системе русского языка // Међународни научни скуп о лексикографиjи и лексикологиjи «Дескриптивна лексикографиjа стандартног jезика и њене теориjске основе. Резимеи. Београд – Нови Сад, 2001, 1-2.

4.      Апресян Ю.Д. Глагол заставлять: семантический класс, синонимия, многозначность // Жизнь языка. Сборник статей к 80-летию Михаила Викторовича Панова. М.: 2001, 13-27.

5.      Апресян Ю.Д. Системообразующие смыслы ‘знать’ и ‘считать’ в русском языке // Русский язык в научном освещении. 2001, № 1, 5-26.

6.      Апресян Ю.Д. Значение и употребление // ВЯ. 2001, № 4, 3-22.

7.      Апресян Ю.Д. Синонимия предикатов группы ждать // Слово. Юбилеен сборник, посветен на 70-годишнината на проф. Ирина Червенкова. София, 2001, 16-32.

8.      Апресян Ю.Д. «Русский синтаксис в научном освещении» в контексте современной лингвистики // А. М. Пешковский. Русский синтаксис в научном освещении. Издание 8-е. Языки славянской культуры, М.: 2001, III-XXXIII.

9.      Апресян Ю.Д. Восхищение и восторг: сходства и различия // Традиционное и новое в русской грамматике. Сборник статей памяти В. А. Белошапковой. М.: «Индрик», 2001, 94-106.

10. Апресян Ю.Д. От значений к несемантическим свойствам лексем: знание и мнение // Русский язык: пересекая границы. Дубна, 2001, 7-18.

11. Апресян Ю.Д., Ботякова В.В., Латышева Т.Э. и др. Англо-русский синонимический словарь. М.: Русский язык, 2001, изд. 6-е, стереотипное, 543 с.

12. Апресян Ю.Д., Иомдин Л.Л., Медникова Э.М., Петрова А.В. и др. Новый большой англо-русский словарь. М.: Русский Язык, 2001. Изд. 6-е, стереотипное. T. I, 832 c., T. II, 828 c., T. III, 824 c.

13. Богуславский И.М. Об одной загадке языка Пушкина // A. S. Puškin und die kulturelle Identität Russlands / Gerhard Ressel (Hrsg.). – Frankfurt am Main; Berlin; Bern; Bruxelles; New York; Oxford; Wien: Lang, 2001, S. 133-144.

14. Богуславский И.М. Модальность, сравнительность и отрицание. // Русский язык в научном освещении. 2001, № 1, 27-51.

15. Григорьева С.А. Степень и количество // Труды Международного семинара Диалог'2001 по компьютерной лингвистике, Аксаково, 2001, с. 68-75.

16. Григорьева С.А., Григорьев Н.В., Крейдлин Г.Е. Словарь языка русских жестов. Языки русской культуры // Wiener Slawistischer Almanach Sonderband 49, Москва-Вена, 2001, 230 с.

17. Крейдлин Г.Е., Фрид Н.Е. Вслух про себе (семантика и синтаксис одной русской частицы) // Лингвистика на рубеже эпох: идеи и топосы. Сборник статей. М.: РГГУ, 2001. с. 46-67.

 

В печати

 

1.      Jurij D. Apresjan. Principles of Systematic Lexicography // In Honour of B. T. S. Atkins (in print).

2.      Boguslavsky I. UNL from the linguistic point of view (in print).

3.      Boguslavsky I. Even in discourse: Interaction of lexical meanings and interpretation strategies (in print).

4.      Iomdin L., Carl M., Pease C., Streiter O. Towards a Dynamic Linkage of Example-Based and Rule-Based Machine Translation // MT (in print).

5.      Апресян Ю.Д. О лексических функциях семейства REAL – FACT // Сборник в честь Z. Saloni (в печати).

6.      Апресян Ю.Д. Наказание в языковой картине мира // Сборник в честь Анджея Богуславского (в печати).

7.      Апресян Ю.Д. Системность лексики: семантические парадигмы и семантические альтернации // Сборник в честь С. Кароляка (в печати).

8.      Григорьева C.А. Словарная статья синонимического ряда ПОЛНОСТЬЮ (в печати).

9.      Григорьева С.А. Словарная статья синонимического ряда ПОЧТИ (в печати).

10. Григорьева C.А. Словарная статья синонимического ряда ЧАСТИЧНО (в печати).

11. Григорьева C.А. Словарная статья синонимического ряда ВРЯД ЛИ (в печати).

12. Иомдин Л.Л. Синтаксические особенности фразеологических единиц: новые подробности // Сборник статей в честь 70-летия проф. А. Богуславского (в печати).