Новая модель машинного обучения самостоятельно обнаруживает лингвистические правила, которые часто совпадают с правилами, созданными людьми.
Новая модель машинного обучения может, например, определить, что в сербохорватском языке нужно добавить букву «а» в конце слова, чтобы из мужского рода сделать женский. Например, прилагательное мужского рода «bogat» становится прилагательный женского рода – «bogata».
Адам Зеве | Отдел новостей Массачусетского технологического института. Источник: http://https://news.mit.edu/2022/ai-learn-patterns-language-0830. Дата публикации: 30 августа 2022 года Перевод: А. Аль Хаффар
Человеческие языки, как известно, сложны, и лингвисты долгое время считали, что невозможно научить машину анализировать звуки речи и структуры слов так, как это делают люди.
Однако исследователи из Массачусетского технологического института, Корнельского университета и Университета Макгилла сделали шаг в этом направлении. Ученые представили систему искусственного интеллекта, которая может самостоятельно изучать правила и закономерности человеческого языка.
Получив слова и примеры того, как эти слова изменяются для выражения различных грамматических функций (например, времени, падежа или рода) в одном языке, модель машинного обучения разрабатывает правила, которые объясняют, почему формы этих слов изменяются. Например, она может определить, что в сербохорватском языке в конце слова нужно добавить букву «а», чтобы сделать из мужского рода женский.
Эта модель также может автоматически изучать языковые закономерности более высокого уровня, которые могут применяться ко многим языкам, что позволяет добиваться лучших результатов.
Исследователи обучали и тестировали модель, используя задачи из учебников по лингвистике, в которых было представлено 58 различных языков. Каждая задача содержала набор слов и соответствующие изменения словоформ. Модель смогла вывести правильный набор правил для описания изменений словоформ для 60 процентов задач.
Эта система может быть использована для изучения языковых гипотез и исследования неявного сходства в том, каким образом слова преобразуются в различных языках. Ее уникальность заключается в том, что система обнаруживает ментальные модели, которые могут быть легко поняты человеком, и получает эти модели на основе анализа небольшого количества данных, например, нескольких десятков слов. И вместо того, чтобы использовать один большой набор данных для решения одной задачи, система использует множество меньших наборов данных. Такой подход приближен к тому, как ученые выдвигают гипотезы — они рассматривают несколько связанных наборов данных и определяют модели для объяснения явлений в этих наборах данных.
«Одной из причин, по которым мы начали эту работу было наше желание изучить системы, которые осваивают модели наборов данных, представленные в понятной человеку форме. Может ли модель вместо изучения весов, изучать выражения или правила? Мы также хотели посмотреть, сможем ли мы построить эту систему таким образом, чтобы она обучалась на целом наборе взаимосвязанных наборов данных, чтобы система немного научилась тому, как лучше моделировать каждый из них», — говорит Кевин Эллис, доцент кафедры информатики Корнельского университета и ведущий автор исследования.
Вместе с Эллисом над статьей работали преподаватели Массачусетского технологического института Адам Олбрайт, профессор лингвистики; Армандо Солар-Лезама, профессор и заместитель директора Лаборатории компьютерных наук и искусственного интеллекта (CSAIL); Джошуа Б. Тененбаум, профессор когнитивных наук и вычислений Кафедры мозга и когнитивных наук в Центре развития карьеры Пола Ньютона и член CSAIL, а также ведущий соавтор Тимоти Дж. О’Доннелл, доцент Кафедры лингвистики в Университете Макгилла и заведующий Кафедрой искусственного интеллекта CIFAR в Институте искусственного интеллекта Мила – Квебек, Канада.
Результаты исследования опубликованы в журнале Nature Communications.
Видение языка
В своем стремлении разработать систему ИИ, способную автоматически обучать модель на основе нескольких связанных наборов данных, исследователи решили изучить взаимодействие фонологии (изучение звуковых моделей) и морфологии (изучение структуры слова).
Данные из учебников по лингвистике стали идеальной базой для исследования, поскольку многие языки имеют общие черты, а задачи из учебников демонстрируют конкретные лингвистические явления. Студенты могут без затруднений решить эти задачи, однако эти студенты, как правило, имеют ранее приобретенные знания о фонологии, полученные на прошедших занятиях, которые они используют для решения новых задач.
Эллис, получивший степень доктора философии в Массачусетском технологическом институте под совместным руководством Тененбаума и Солар-Лезамы, впервые узнал о морфологии и фонологии на занятиях в Массачусетском технологическом институте, которые вели О’Доннелл, бывший в то время постдоком, и Олбрайт.
Олбрайт:
«Лингвисты считали, что для того, чтобы по-настоящему понять правила человеческого языка, вникнуть в то, что заставляет систему работать, нужно быть человеком. Мы хотели посмотреть, сможем ли мы научить машину подражать видам знаний и рассуждений, которые люди (лингвисты) привносят в задачи»
Для создания модели, которая могла бы усвоить набор правил для составления слов, называемый грамматикой, исследователи использовали метод машинного обучения, известный как Байесовское машинное обучение. С помощью этого метода модель решает задачу путем написания компьютерной программы.
В данном случае программа — это грамматика, которую модель считает наиболее вероятным объяснением слов и значений в лингвистической задаче. Ученые построили модель с помощью Sketch, популярного синтезатора программ, который был разработан в Массачусетском технологическом институте Соларом-Лезамой.
Однако Sketch может потратить много времени на то, чтобы определить наиболее подходящую программу. Во избежание этого, исследователи заставили модель работать поэтапно: сначала написать небольшую программу для объяснения некоторых данных, затем написать более крупную программу, которая модифицирует первую небольшую программу, чтобы охватить больше данных, и так далее.
Ученые также запрограммировали модель таким образом, чтобы она училась понимать, как выглядят «хорошие» программы. Например, она может выучить некоторые общие правила для решения простых задач на русском языке, которые она применит к более сложной задаче на польском языке, потому что эти языки похожи. Таким образом, модели будет легче решить задачу на польском языке.
Решение задач из учебников
Когда модель протестировали на 70 задачах из учебника, в 60% случаев она смогла подобрать грамматику, которая соответствовала всему набору слов в задаче, и в 79% задач правильно соответствовала большинству изменений словоформ.
Исследователи также попробовали предварительно запрограммировать в модель некоторые знания, которые она «должна была» выучить, если бы проходила курс лингвистики, и продемонстрировали, что она смогла лучше решить все задачи.
Олбрайт.
«Одна из трудностей этой работы заключалась в том, чтобы выяснить, является ли то, что делает модель, обоснованным. Это отличается от ситуации, когда есть одно число, которое является единственно правильным ответом. Существует целый ряд возможных решений, которые вы можете принять как правильные, близкие к правильным и т.д.»
Модель часто находила неожиданные решения. В одном случае она обнаружила ожидаемый ответ для задачи на польском языке, однако также и другой правильный ответ, который использовал ошибку в учебнике. По словам Эллиса, это показывает, что модель может «отлаживать» лингвистические анализы.
Исследователи также провели тесты, которые показали, что модель способна выучить некоторые общие шаблоны фонологических правил, которые могут быть применены для решения всех задач.
«Одна из самых удивительных вещей — это то, что мы могли обучать модель на разных языках, но, похоже, это не имело большого значения», — говорит Эллис. «Это наводит на мысль о двух вещах. Возможно, нам необходимы лучшие методы для обучения на разных языках. И, возможно, если мы не сможем создать эти методы, эта работа сможет помочь нам исследовать различные идеи, которые у нас есть о том, какие знания можно использовать для решения задач»
В будущем исследователи хотят использовать свою модель для поиска неожиданных решений задач в других областях. Они также могут применить эту методику в других ситуациях, когда знания более высокого уровня могут быть применены к взаимосвязанным наборам данных. Например, возможно, ученые могли бы разработать систему для решения дифференциальных уравнений из наборов данных о движении различных объектов, говорит Эллис.
«Эта работа показывает, что мы обладаем методами, которые в определенной степени помогут изучить индуктивные предубеждения. Но я не думаю, что мы до конца поняли, даже в решении таких задач из учебников, индуктивные предубеждения, позволяющие лингвисту применять подходящую грамматику и отвергать неверную», — добавляет он.
«Эта работа открывает множество интересных направлений для будущих исследований. Я особенно заинтригован возможностью того, что подход, изученный Эллисом и его коллегами (Байесовское машинное обучение, БМО), может рассказать о том, как младенцы осваивают язык», — говорит Т. Флориан Ягер, профессор в области изучения мозга, когнитивных наук и информатики в Университете Рочестера, который не был автором данного исследования.
«В следующем исследовании можно было бы задаться вопросом, например, при каких дополнительных индуктивных предубеждениях (предположениях об универсальной грамматике) метод БМО может успешно достичь поведения, подобного человеческому, на основе данных, которые помогают младенцам овладевать языком. Я думаю, было бы интересно узнать, будут ли индуктивные предубеждения, еще более абстрактные, чем те, которые рассматривали Эллис и его команда – например, предубеждения, возникающие из-за ограничений способности обработки информации человека (например, ограничения памяти на длину зависимости или ограничения по объему информации, которая может быть обработана за один раз) – достаточными для того, чтобы вызвать некоторые закономерности, наблюдаемые в человеческих языках».
Эта работа частично финансировалась Управлением научных исследований ВВС, Центром изучения мозга, разума и машин, Лабораторией ИИ MIT—IBM Watson, Советом по естественным наукам и инженерным исследованиям Канады, Фондом научных исследований Квебека — общество и культура, Канадской программой CIFAR AI Chairs, Национальным научным фондом (NSF) и стипендией для выпускников NSF.