Техническая исследовательская компания OpenAI только что выпустила обновленную версию своей программы искусственного интеллекта для генерации текста под названием GPT-4 и продемонстрировала некоторые новые возможности языковой модели, которая может воспроизводить более естественно звучащий текст и решать задачи более точно, чем его предшественник, а также обрабатывать изображения в дополнение к тексту. Но ИИ по-прежнему уязвим для тех же проблем, которые были и у более ранних моделей GPT: снова дискриминация и нарушение личных границ пользователей — отсутствие фильтров, призванных помешать ИИ говорить оскорбительные или опасные вещи, а также «галлюцинации» — самоуверенное создание ложных сведений, которых нет в его обучающих данных.
Перевод: Янковская Светлана, Юдицкая Мария
В Твиттере генеральный директор OpenAI Сэм Альтман назвал эту модель «наиболее эффективной и соответствующей» на сегодняшний день («соответствующей» означает, что она разработана в соответствии с человеческой этикой.) Но «она все еще имеет недостатки, все еще ограничена и при первом использовании все еще кажется более впечатляющей, чем после того, как вы проведете с ней больше времени», — написал он в Твиттере.
Возможно, наиболее значительным изменением является то, что GPT-4 является «мультимодальным», то есть он работает как с текстом, так и с изображениями. Хотя он не может выводить изображения (как это делают генеративные модели ИИ, такие как DALL-E и Stable Diffusion), он может обрабатывать и реагировать на получаемые визуальные входные данные.
Аннет Ви, адъюнкт-профессор английского языка Питтсбургского университета, изучающая взаимосвязь вычислений и письма, наблюдала за демонстрацией, в ходе которой новой модели предлагалось определить, что смешного в юмористическом изображении. Способность сделать это означает «понимание контекста изображения. Это понимание того, как и почему создается изображение, и его связь с социальным пониманием языка», — говорит она. «ChatGPT не смог этого сделать».
Устройство, способное анализировать, а затем описывать изображения, может быть чрезвычайно ценным для слабовидящих или слепых. Например, мобильное приложение Be My Eyes может описывать объекты вокруг пользователя, помогая людям с плохим зрением или слепым понимать, что их окружает. Приложение недавно включило GPT-4 в «виртуального добровольца», который, согласно заявлению на веб-сайте OpenAI, «может генерировать тот же уровень контекста и понимания, что и человек-доброволец».
Но анализ изображения GPT-4 выходит за рамки описания картинки. В той же демонстрации, которую наблюдала Ви, представитель OpenAI нарисовал изображение простого веб-сайта и передал рисунок в GPT-4. Затем модель попросили написать код, необходимый для создания такого веб-сайта, и она это сделала. «В основном это выглядело так, как на картинке. Это было очень-очень просто, но работало очень хорошо», — говорит Джонатан Мэй, доцент-исследователь Университета Южной Калифорнии. «Значит, это было круто».
Даже без мультимодальных возможностей новая программа превосходит своих предшественников в задачах, требующих рассуждений и решения проблем. OpenAI заявляет, что провела как GPT-3.5, так и GPT-4 через различные тесты, разработанные для людей, включая симуляцию экзамена в коллегию адвокатов, тесты SAT и Advanced Placement для старшеклассников, GRE для выпускников колледжей и даже пару экзаменов на сомелье. GPT-4 достиг результатов на уровне человека по многим из этих тестов и постоянно превосходил своего предшественника, хотя и не во всем: например, он плохо справлялся с экзаменами по английскому языку и литературе. Тем не менее, его обширные возможности решения проблем могут быть применены к любому количеству реальных сфер применений, таких как управление сложным расписанием, поиск ошибок в блоке кода, объяснение грамматических нюансов изучающим иностранный язык или выявление уязвимостей в системе безопасности.
Кроме того, OpenAI утверждает, что новая модель может интерпретировать и выводить более длинные блоки текста: более 25 000 слов одновременно. Хотя предыдущие модели также использовались для длинных заявок, они часто теряли смысл того, о чем говорили. И компания рекламирует «креативность» новой модели, описывая ее способность создавать различные виды художественного контента в определенных стилях. В демонстрации, сравнивающей, как GPT-3.5 и GPT-4 имитировали стиль аргентинского автора Хорхе Луиса Борхеса в английском переводе, Ви отметил, что более поздняя модель сделала более точную попытку. «Вы должны достаточно знать контекст, чтобы судить о нем», — говорит она. «Студент может не понять, почему это лучше, но я профессор английского языка… Если вы понимаете это в рамках своей специализации и это впечатляет в вашей собственной области знаний, то это впечатляет».
Мэй также лично проверил креативность модели. Он попытался в игровой форме приказать ему создать «бэкроним» (аббревиатура, полученная путем начала с сокращенной версии и работы в обратном порядке). В данном случае Мэй попросил красивое название для своей лаборатории, которое было бы сформулировано как: «МИЛОЕ НАЗВАНИЕ ЛАБОРАТОРИИ», а также точно описывало бы область его исследований. GPT-3.5 не удалось создать соответствующую метку, но GPT-4 удалось. «Это привело к «Вычислительному пониманию и трансформации экспрессивного языкового анализа, объединению ЕОЯ искусственного интеллекта и машинного обучения», — говорит он. «Машинное образование» не совершенно; часть «интеллект» означает, что там есть лишняя буква. Но, честно говоря, я видел намного хуже». (Для контекста, настоящее название его лаборатории — МИЛОЕ НАЗВАНИЕ ЛАБОРАТОРИИ, или Центр полезных методов улучшения языковых приложений на основе естественных и значимых доказательств). В другом тесте модель показала пределы своего творчества. Когда Мэй попросил его написать особый вид сонета — он запросил форму, использованную итальянским поэтом Петраркой, но модель, не знакомая с этой поэтической установкой, по умолчанию использовала форму сонета, которую предпочитал Шекспир.
Конечно, исправить эту конкретную проблему было бы относительно просто. GPT-4 просто нужно выучить дополнительную поэтическую форму. На самом деле, когда люди таким образом подталкивают модель к сбою, это помогает программе развиваться: она может учиться на всем, что неофициальные тестировщики вводят в систему. Как и его менее быстрые предшественники, GPT-4 изначально обучался на больших массивах данных, а затем это обучение было усовершенствовано тестировщиками. (GPT расшифровывается как генеративный предварительно обученный преобразователь). Но OpenAI скрывает, почему GPT-4 лучше, чем GPT-3.5, модель, на которой работает популярный чат-бот компании ChatGPT. Согласно документу, опубликованному одновременно с выпуском новой модели: «Учитывая конкурентную среду и последствия для безопасности крупномасштабных моделей, таких как GPT-4, этот отчет не содержит дополнительных подробностей об архитектуре (включая размер модели), оборудовании, обучающих вычислений, построении набора данных, метода обучения и т. п.». Отсутствие прозрачности в OpenAI отражает эту новую конкурентную среду генеративного ИИ, где GPT-4 должен соперничать с такими программами, как Bard от Google и LLaMA от Meta. Однако далее в документе предполагается, что компания планирует в конечном итоге поделиться такими подробностями с третьими сторонами, «которые могут посоветовать нам, как сопоставить соображения конкурентоспособности и безопасности… с научной ценностью дальнейшей прозрачности».
Эти меры безопасности важны, так как более умные чат-боты могут причинить вред: без ограничений они могут предоставить террористу инструкции о том, как создать бомбу, отправить сообщения с угрозами для кампании преследования или предоставить дезинформацию иностранному агенту, пытающемуся повлиять на выборы. Хотя OpenAI наложил ограничения на то, что могут говорить его модели GPT, чтобы избежать таких сценариев, целеустремленные тестировщики нашли способы их обойти. «Они как слоны в посудной лавке —сильны, но безрассудны», — сказал ученый и писатель Гэри Маркус журналу Scientific American незадолго до выпуска GPT-4. «Я не думаю, что четвертая версия изменит это».
И чем более человекоподобными становятся эти боты, тем лучше они обманывают людей, заставляя их думать, что за экраном компьютера находится разумный субъект. «Поскольку он так хорошо имитирует [человеческое мышление] через язык, мы верим этому, однако под капотом это мышление никоим образом не похоже человеческое», — предупреждает Ви. Если эта иллюзия обманывает людей, заставляя их поверить в то, что агент ИИ рассуждает так же, как человек, они могут с большей готовностью доверять его ответам. Это серьезная проблема, потому что до сих пор нет гарантии, что эти ответы точны. «То, что эти модели что-то говорят, не означает, что то, что они говорят –правда», — говорит Мэй. «Нет базы данных ответов, из которых берутся эти модели». Вместо этого такие системы, как GPT-4, генерируют ответ по одному слову за раз, причем наиболее правдоподобное следующее слово определяется их обучающими данными, и которые могут устареть. «Я считаю, что GPT-4 даже не знает, что это GPT-4», — говорит он. «Я спросил его, и он сказал: «Нет, нет, такой вещи, как GPT-4, не существует». Я GPT-3».
Теперь, когда модель выпущена, у многих исследователей и энтузиастов ИИ есть возможность изучить сильные и слабые стороны GPT-4. Разработчики, которые хотят использовать его в других приложениях, могут подать заявку на доступ, а всем, кто хочет «пообщаться» с программой, придется подписаться на ChatGPT Plus. Эта платная программа за 20 долларов в месяц позволяет пользователям выбирать между общением с чат-ботом, работающим на GPT-3.5, и чат-ботом, работающим на GPT-4.
Такие исследования, несомненно, откроют больше потенциальных применений и недостатков GPT-4. «Настоящий вопрос должен звучать так: «Как люди будут относиться к этому через два месяца после первоначального шока?», — говорит Маркус. «Часть моего совета такова: давайте умерим наш первоначальный энтузиазм, осознав, что мы уже видели этот фильм раньше. Всегда легко сделать демонстрацию чего-то; превратить это в настоящий продукт сложно. И если у него все еще есть эти проблемы — связанные с галлюцинациями, непониманием физического мира, медицинского мира и так далее — это все равно несколько ограничит его полезность. И это по-прежнему будет означать, что вы должны уделять пристальное внимание тому, как он используется и для чего он используется».