«Нужно тело, чтобы понять мир» – почему ChatGPTи ИИ не понимают, что они говорят.

Когда мы спросили GPT-3 — мощную и довольнопопулярную языковую систему искусственного интеллекта: «Что бы вы с большей вероятностью использовали — бумажную карту или камень, чтобы разжечь угли для барбекю», она отдала предпочтение камню; «Чтобы разгладить мятую юбку, вы бы взяли теплый термос или заколку для волос?», GPT-3 предложил заколку для волос; «А если вам нужно прикрыть волосы для работы в ресторане быстрого питания, что подойдет лучше — бумажная обертка от сэндвича или булочка для гамбургера?» GPT-3 выбрал булочку.

Источник: https://theconversation.com/it-takes-a-body-to-understand-the-world-why-chatgpt-and-other-language-ais-dont-know-what-theyre-saying-201280 перевод: Барсегян Марианна

Почему GPT-3 делает такой выбор, когда большинство людей выбирают альтернативу? Потому что GPT-3 не понимает язык так, как люди.


Бестелесные слова

Исследователь психологии более 20 лет назад представил серию сценариев, чтобы проверить, как компьютер понимает язык того времени. Модель сделала ошибочный выбор между использованием камней и карт для раздувания углей, в то время как люди выбрали правильный ответ.

Докторант в области когнитивных наук, был частью команды исследователей, которые совсем недавно использовали те же сценарии для тестирования GPT-3. Несмотря на то, чтоGPT-3 стал работать лучше, чем его предшественник, он все же делал выбор хуже, чем люди.

Это привело к тому, что три сценария (упомянутые выше)оказались неправильными.

GPT-3 изучает язык, отмечая из триллиона примеров, какие слова следуют за другими словами. Строгие статистические закономерности в языковых последовательностях позволяют GPT-3 узнать многое о языке. И это последовательное знание часто позволяет ChatGPT создавать разумные предложения, эссе, стихи и компьютерный код.

Несмотря на то, чтоGPT-3безусловно хорош в изучении правил того, что следует за чем в языке, он не имеет ни малейшего представления о том, что означают эти слова для человека. Почему такое могло случиться?

Люди — биологические существа, которые эволюционировали с телами и которым необходимо действовать в физическом и социальном мирах, чтобы чего-то добиться. Язык — это инструмент, который помогает людям делать это. GPT-3 — это искусственная программная система, которая предсказывает следующее слово; с этими предсказаниями не нужно ничего делать в реальном мире.

Я существую, следовательно, я понимаю

Значение слова или предложения тесно связано с человеческим организмом: способностью людей действовать, воспринимать и испытывать эмоции. Человеческое познание усиливаетсяблагодаря тому, что оно воплощено. Например, люди понимают термин “бумажная обертка для бутербродов”, и это понимание включает в себя внешний вид обертки, ее ощущение, вес и то, как она может быть использована: для упаковки бутерброда. Понимание людей также включает в себя то, как кто-то может использовать обертку для других возможностей, например, скатывание ее в шарик для игры илидля покрытия волос.

Все эти виды использования обусловлены природой человеческого тела и потребностями: у людей есть руки, которые могут складывать бумагу, шевелюра примерно такого же размера, как обертка для бутерброда, а также необходимость работать и соблюдать такие правила (например, прикрывать волосы). То есть люди понимают, как использовать материал способами, которые не отражаются в статистике использования языка.

GPT-3, его преемник GPT-4 и его двоюродные братья Bard,Chinchilla и LLaMA не имеют тел, и поэтому они не могут самостоятельно определить, какие объекты складываются; и многие другие свойства, которые психолог Дж.Гибсон (J.J. Gibson) назвал доступностью. Учитывая на что способны человеческие руки, тогда бумажные карты могут раздувать пламя, а термос — разглаживать складки.

Без рук GPT-3 не может определить эти возможности. Он может имитировать их только в случае, если наткнулся на что-то похожее в потоке слов в Интернете.

Сможет ли искусственный интеллект с большой языковой моделью когда-нибудь понимать язык так, как люди? По мнению экспертов, без человекоподобного тела, чувств, целей и образа жизни — вряд ли.

Восприятие окружающего мира

GPT-4 был обучен как на изображениях, так и на текстах, что помогло ему изучить статистические взаимосвязи между словами и пикселями. Несмотря на то, в данный момент невозможно выполнить первоначальный анализ на GPT-4, поскольку он не выводит вероятность, которую присваивает словам, однако, когдаGPT-4 было задано три вопроса, он ответил на них правильно. Это может быть связано с тем, что модель извлекла уроки из предыдущих входных данных.Однако люди могут продолжать создавать новые примеры, чтобы запутать его, думая об объектах, которые обладают удивительными возможностями, с которыми модель, вероятно, не сталкивалась. Так GPT-4 отвечает, что чашка с отрезанным дном лучше подходит для хранения воды, чем лампочка с отрезанным дном.

Модель, имеющая доступ к изображениям, может быть похожим на ребенка, который узнает о языке и окружающем мире по телевизору: это легче, чем учиться по радио, но для понимания, подобного человеческому, потребуется необходимость взаимодействия с миром.

Недавние исследования использовали этот подход, обучая языковые модели генерировать физические симуляции, взаимодействовать с физической средой и даже генерировать планы действий роботов. До полноценного понимания языка, возможно, еще далеко, однако мультисенсорные интерактивные проекты являются важнейшими шагами на пути к этому.

ChatGPT – это увлекательный инструмент, который, несомненно, будет использоваться в хороших (и не очень)целях. Но не думайте, что онпонимает произносимые им слова.