Как компьютерная лингвистика способствует пониманию работы языка

Дистрибутивная семантика занимается представлением значений слов путем обработки тысяч текстов и извлечения обобщений с использованием вычислительных алгоритмов. Несмотря на популярность дистрибутивной семантики в таких областях, как компьютерная лингвистика и когнитивистика, ее влияние на теоретическую лингвистику до сих пор было очень незначительное.

Опубликованное в журнале Annual Review of Linguistics исследование Джеммы Боледы, руководителя исследовательской группы по компьютерной лингвистике и теории языка, которая является профессором-исследователем в Каталонском институте исследований и перспективных исследований, а также в Университете Помпеу Фабра  на кафедре перевода и языкознания, содержит критический обзор многочисленных доступных исследований по дистрибутивной семантике, с особым акцентом на результаты, имеющие отношение к теоретической лингвистике. В частности, есть три области: семантическое изменение, многозначность (полисемия) и композиция, а также грамматико-семантический интерфейс.

Исследование Джеммы Боледы направлено на объединение теоретических и вычислительных подходов для расширения коллективных знаний о том, как работает язык. Одним из методов, которые она тщательно исследовала, является дистрибутивная семантика, которая позволяет автоматически получать представления слов. Было показано, что эти представления отражают важные лингвистические свойства, такие как сходство двух слов: по мнению человека, «собака» и «щенок» очень похожи, в то время как «собака» и «демократия» абсолютно разные понятия; дистрибутивная семантика скажет то же самое, благодаря тому факту, что она индуцирует лингвистические свойства, основанные на текстах, написанных людьми. Таким образом, дистрибутивная семантика обеспечивает радикально эмпирические представления.

Дистрибутивная семантика позволяет анализировать употребление слов и эволюцию их значения

Дистрибутивная семантика обеспечивает привлекательную, дополнительную основу для других, более традиционных методов, не только потому, что она радикально эмпирическая, но и потому, что она обеспечивает многомерные представления: два слова могут быть сопоставлены по одному измерению смыслового значения, например, «пицца» и «паста» — это виды пищи, или «пицца» и «колесо» — круглые. Чтобы представить все аспекты значения, необходимы многомерные представления. Дистрибутивная семантика может отражать общее использование двух слов, а также их дифференцирующие факторы.

Одним из важных применений дистрибутивной семантики в теоретической лингвистике является обнаружение изменений в значении. Обрабатывая языковые данные за разные периоды, например, книги на английском языке 1900, 1950 и 1990 годов, дистрибутивная семантика способна автоматически определить изменения значения некоторых слов. Например, слово «gay» в английском языке в начале прошлого века означало «счастливый» и все чаще стало использоваться для обозначения «гомосексуал».

Аспекты исследования дистрибутивной семантики и их вклад в теорию языка

Анализ изученных работ Боледы подводит к выводу, что существует достаточно доказательств того, что основательные результаты дистрибутивной семантики могут быть непосредственно использованы в исследованиях теоретической лингвистики.

«Существует по крайней мере четыре аспекта исследований в области дистрибутивной семантики, которые могут внести свой вклад в теорию языка.

  • Первый аспект является исследовательским: дистрибутивное представление слов может быть использовано для изучения крупномасштабных данных, например, путем изучения сходства слов.
  • Второй — как инструмент для выявления конкретных случаев языковых явлений. Например, можно идентифицировать (определять) слова, значения которых изменились при сравнении представлений, полученных из текстов разных периодов.
  • Третий — в качестве исследования: оценка различных языковых гипотез в терминах распределения.
  • Четвертым и самым сложным является обнаружение новых языковых явлений или соответствующих теоретических тенденций в данных», — объясняет автор в своей работе.

Перевод: https://phys.org/news/2020-03-linguistics-language.html Киселев Артём