Что могут передавать слова: модели обработки естественного языка фиксируют обширные знания о значениях слов с помощью статистики

От поисковых систем до голосовых помощников, компьютеры все лучше понимают, что мы имеем в виду. Такой прогресс является результатом использования программ обработки языка, которые понимают ошеломляющее количество слов, даже не получая предварительно сведения о значении этих слов. Вместо этого подобные программы выводят значение слова через статистику — и новое исследование показывает, что такой вычислительный подход, подражая человеческому мозгу, может присвоить разное количество информации одному слову.

Дженнифер Михаловски | Институт исследований мозга Макговерна. Дата публикации: 3 мая 2022 г. Перевод: Амаль Аль Хаффар

Исследование, опубликованное 14 апреля в журнале Nature Human Behavior, возглавляли Габриэль Гранд, аспирант в области электротехники и компьютерных наук, работающий в Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института, и Идан Бланк, доктор философии, доцент Калифорнийского университета в Лос-Анджелесе. Работой руководили исследователь Института исследований мозга Макговерна Эвелина Федоренко, когнитивный нейробиолог, изучающий, как человеческий мозг использует и понимает язык, и Франсиско Перейра из Национального института психического здоровья. Федоренко говорит, что обширные знания, которые ее команда смогла обнаружить в процессе работы с нейросетевыми языковыми моделями, демонстрируют, как много можно узнать о мире только с помощью языка.

Новое исследование Массачусетского технологического института показывает, что программы для обработки естественного языка могут присваивать разную информацию одному слову, точно так же, как человеческий мозг.

Исследовательская группа начала анализ статистических моделей обработки языка в 2015 году, когда этот подход был новым. Такие модели определяют значения слов, анализируя, как часто пары слов встречаются в текстах, и используя эти данные для оценки сходства значений слов. Например, подобная программа может сделать вывод, что слова «хлеб» и «яблоко» больше похожи друг на друга, чем на слово «тетрадь», потому что слова «хлеб» и «яблоко» часто встречаются рядом с такими глаголами, как «есть» или «перекусить», тогда как слово «тетрадь» с такими глаголами не употребляется.

Модели успешно определяли общее сходство слов друг с другом, однако большинство слов несут в себе много видов информации, и их сходство зависит от того, какие качества оцениваются. «Человеческий мозг способен создавать различные шкалы, чтобы лучше понимать смысл слов», — объясняет Гранд, бывший научный сотрудник лаборатории Федоренко. «Например, дельфины и аллигаторы могут быть схожи по размеру, но один гораздо опаснее другого».

Гранд и Бланк, которые в то время были аспирантами Института Макговерна, хотели узнать, улавливают ли модели те же нюансы. И если да, то как была организована информация?

Чтобы узнать, как информация в подобной модели соотносится с человеческим пониманием слов, команда попросила добровольцев оценить слова по разным шкалам: какими словами можно характеризовать концепт этих слов? Большой или маленький, безопасный или опасный, сухой или влажный? Затем, зафиксировав результаты работы добровольцев, ученые вернулись к работе с моделями обработки языка, чтобы узнать, выполняют ли программы те же действия.

Гранд объясняет, что дистрибутивные семантические модели используют статистику частоты сочетаемости для организации слов в огромную многомерную матрицу. Чем больше похожи слова друг на друга, тем ближе они находятся в этом пространстве. Размеры пространства огромны, и в его структуру не заложен внутренний смысл. «Во встроенных словах есть сотни измерений, и мы понятия не имеем, что означает какое-либо измерение», — говорит он. «На самом деле, мы пытаемся заглянуть в этот черный ящик и спросить: «Есть ли здесь структура?»

В частности, ученых интересовало, представлены ли в модели семантические шкалы, которые они просили своих добровольцев использовать. Поэтому они смотрели, где слова в пространстве выстраиваются вдоль векторов, определяемых крайними значениями этих шкал. Например, в каких точках дельфины и тигры располагаются на линии признаков «размера»? И находятся ли они ближе на линии размера, чем на линии, определяющей уровень опасности?

Слова-векторы категории «животные» (синие круги) ортогонально проецируются (голубые линии) на подпространство признаков «размера» (красная линия), определяемого как векторная разница между большим и маленьким (красные круги). Три измерения на этом рисунке являются произвольными и были выбраны с помощью анализа основных компонентов для улучшения визуализации. Оригинальная модель векторного представления слов GloVe имеет 300 измерений, и проекция происходит в этом пространстве. Изображение: лаборатория Федоренко

Проанализировав более чем 50 комбинаций слов и семантических шкал ученые обнаружили, что модель организовала слова очень похоже на то, как это сделали люди. Дельфины и тигры были признаны похожими по размеру, но сильно различались по шкале измерения опасности или влажности. Модель организовала слова таким образом, чтобы они представляли множество значений, и она сделала это исключительно на основе частоты сочетаемости слов.

Это, по словам Федоренко, кое-что говорит нам о силе языка. «Тот факт, что мы можем восстановить так много богатой семантической информации из простой статистики сочетаемости слов, говорит о том, что это является одним из очень мощных источников информации о вещах, с которыми у вас может даже не быть прямого опыта восприятия».