Новые типы языковых моделей и почему они так значимы

Системы искусственного интеллекта, которые распознают и генерируют текст, известные как языковые модели, являются новым трендом в корпоративной среде. По результатам недавнего опроса, 60% руководителей в области технологий заявили, что их бюджеты на языковые технологии ИИ в 2020 году увеличились как минимум на 10%, а 33% отчитались об увеличении на 30%.

Автор: Kyle Wiggers Источник: https://techcrunch.com/2022/04/28/the-emerging-types-of-language-models-and-why-they-matter/ Дата публикации: 28 апреля, 2022 Перевод: Кушнир Павел Андреевич и Лободин Егор Сергеевич (ФПЛб-201)


Однако, не все языковые модели равноценны. Наиболее значимыми становятся несколько типов, включая большие модели общего назначения, такие как GPT-3 от Openair, и модели, настроенные для конкретных задач (например, ответы на вопросы IT-службы). На грани существует третья категория моделей — компактные по размеру и ограниченные по возможностям, специально разработанные для работы на устройствах Интернета вещей и рабочих станциях.

Эти различные подходы имеют существенные различия в преимуществах, недостатках и требованиях. Вот как они сравниваются и где можно ожидать их применения в ближайшие годы.

Крупные языковые модели.

Крупные языковые модели, как правило, имеют размер в десятки гигабайт и обучаются на огромных объемах текстовых данных, иногда в масштабе петабайта. Они также являются одними из самых мощных моделей по количеству параметров, где «параметр» означает значение, которое модель может изменять самостоятельно в процессе обучения. Параметры представляют собой части модели, выученные на основе исторических данных обучения и существенно влияющие на способности модели в решении конкретной задачи, такой как генерация текста.

«Крупные модели используются в сценариях «нулевого выстрела» или «нескольких выстрелов», когда доступно немного данных, специализированных для конкретной области, и, как правило, они хорошо работают, генерируя результат на основе нескольких подсказок», — рассказал Фанчжэн Сюй, аспирант из Карнеги-Меллонского университета, специализирующийся в области обработки естественного языка, в беседе с TechCrunch по электронной почте. В машинном обучении термин «несколько выстрелов» означает практику обучения модели с минимальным количеством данных, а «нулевой выстрел» подразумевает, что модель может научиться распознавать вещи, которые она не видела явно во время обучения.

«Одна крупная модель может потенциально обеспечить выполнение множества последующих задач с небольшим объемом обучающих данных», — продолжает Сюй.

Использование больших языковых моделей резко возросло за последние несколько лет по мере разработки исследователями все новых — и все более масштабных архитектур. В июне 2020 года стартап по искусственному интеллекту OpenAI представил модель GPT-3 с 175 миллиардами параметров, которая может генерировать текст и даже код при наличии краткой подсказки с инструкциями.

Затем исследовательская группа EleutherAI представила модель GPT-J, которая, хоть и имеет меньший размер (6 миллиардов параметров), все равно обладает значительными возможностями, такими как перевод между языками, написание блоговых постов, завершение кода и многое другое. Совсем недавно Microsoft и Nvidia выложили в открытый доступ модель с названием Megatron-Turing Natural Language Generation (MT-NLG), которая является одной из самых крупных моделей для работы с пониманием прочитанного и выводом естественного языка на данный момент, состоящей из 530 миллиардов параметров.

«Одной из причин, по которым эти большие языковые модели остаются настолько впечатляющими, является то, что одна модель может использоваться для таких задач, как ответы на вопросы, резюмирование документов, генерация текста, завершение предложений, перевод и др.», — рассказал Бернард Кох, компьютерный социолог из UCLA, в беседе с TechCrunch. «Второй причиной является то, что их производительность продолжает расти с добавлением параметров в модель и увеличением объема данных… Третья причина, по которой эти очень большие предварительно обученные языковые модели являются удивительными, заключается в том, что они показывают достаточно хорошие прогнозы, даже при наличии всего нескольких помеченных примеров.»

Стартапы, включая Cohere и AI21 Labs, также предлагают модели, аналогичные GPT-3, через API. Другие компании, особенно технологические гиганты, такие как Google, предпочитают держать разработанные ими крупные языковые модели в секрете. Например, компания Google недавно подробно описала, но не обнародовала модель PaLM с 540 миллиардами параметров, которая, по утверждению компании, достигает самой высокой производительности в различных языковых задачах.

Крупные языковые модели, с открытым исходным кодом или без него, имеют общие высокие затраты на разработку. Исследование, проведенное AI21 Labs в 2020 году, оценило затраты на разработку текстогенерирующей модели всего с 1,5 миллиардами параметров в целых 1,6 миллиона долларов. Вывод — фактически, запуск обученной модели — это еще один недостаток. Один источник оценивает стоимость запуска GPT-3 на одном экземпляре AWS (p3dn.24xlarge) как минимум в 87 000 долларов в год.

“Крупные модели станут больше, мощнее, универсальнее, мультимодальнее и менее затратные в обучении. Только крупные технологические и чрезвычайно хорошо финансируемые стартапы могут играть в эту игру”, — сказал TechCrunch по электронной почте Ву Ха, технический директор AI2 Incubator. “Крупные модели отлично подходят для прототипирования, создания новых концепций и оценки технической осуществимости. Они редко являются правильным выбором для развертывания в реальных условиях из-за их стоимости. Приложение, которое обрабатывает твиты, сообщения Slack, электронные письма и тому подобное на регулярной основе, стало бы непомерно дорогостоящим при использовании GPT-3”.

Крупные языковые модели по-прежнему будут стандартом для облачных сервисов и API, где универсальность и корпоративный доступ имеют большее значение, чем время ожидания. Но, несмотря на недавние архитектурные инновации, эти типы языковых моделей останутся непрактичными для большинства организаций, будь то академические круги, государственные или частный сектор.

Тонко настроенные языковые модели

Тонко настроенные модели, как правило, меньше, чем их аналоги с крупными языковыми моделями. Примерами могут служить OpenAI Codex, прямой потомок GPT-3, точно настроенный для задач программирования. Несмотря на то, что Codex по-прежнему содержит миллиарды параметров, он одновременно меньше, чем OpenAI, и лучше генерирует и завершает строки компьютерного кода.

Тонкая настройка может улучшить способность моделей выполнять задачи, например, отвечать на вопросы или генерировать белковые последовательности (как в случае с ProGen от Salesforce). Но это также может способствовать распознаванию моделью определенных предметов, таких как клинические исследования.

“Тонко настроенные … модели хороши для развитых задач с большим количеством обучающих данных”, — сказал Сюй. “Примеры включают машинный перевод, ответы на вопросы, распознавание именованных объектов, привязку объектов [и] поиск информации”.

Преимущества на этом не заканчиваются. Поскольку точно настроенные модели являются производными от существующих языковых моделей, для их обучения и запуска требуется не так много времени или вычислений. (Более крупные модели, подобные упомянутым выше, могут занимать недели или требовать гораздо большей вычислительной мощности для обучения в течение нескольких дней.) Они также не требуют такого количества данных, как большие языковые модели. GPT-3 был обучен на 45 терабайтах текста по сравнению со 159 гигабайтами, на которых был обучен Codex.

Тонкая настройка была применена ко многим доменам, но одним из особенно ярких недавних примеров является InstructGPT от OpenAI. Используя методику под названием “обучение с подкреплением на основе обратной связи с человеком”, OpenAI собрала набор данных о демонстрациях, написанных человеком, по подсказкам, отправленным в OpenAI API, и подсказкам, написанным командой специалистов по маркировке данных. Они использовали эти наборы данных для создания точно настроенных ответвлений GPT-3, которые — в дополнение к тому, что они в сотую часть меньше GPT—3 по размеру явно реже генерируют проблемный текст, при этом точно соответствуют намерениям пользователя.

В качестве еще одной демонстрации возможностей тонкой настройки исследователи Google в феврале опубликовали исследование, в котором утверждается, что модель, намного меньше, чем GPT-3, — fine-tuned language net (FLAN) — превосходит GPT—3 “с большим отрывом” по ряду сложных тестов. FLAN, который имеет 137 миллиардов параметров, превзошел GPT-3 в 19 из 25 задач, на которых его тестировали исследователи, и даже превзошел производительность GPT-3 в 10 задачах.

“Я думаю, что тонкая настройка, вероятно, является прямо сейчас наиболее широко используемым подходом в промышленности, и я не вижу, чтобы это изменилось в краткосрочной перспективе. На данный момент тонкая настройка на небольших языковых моделях позволяет пользователям лучше контролировать решение своих специализированных задач, используя свои собственные данные, относящиеся к конкретной предметной области”, — сказал Кох. “Вместо распространения [очень больших языковых] моделей, которые пользователи могут настраивать самостоятельно, компании коммерциализируют обучение с помощью подсказок API, где вы можете давать модели короткие подсказки и примеры”.

Пограничные языковые модели

Модели Edge, которые намеренно имеют небольшие размеры, могут принимать форму тонко настроенных моделей, но не всегда. Иногда их обучают с нуля на небольших наборах данных, чтобы они соответствовали конкретным аппаратным ограничениям (например, аппаратному обеспечению телефона или локального веб-сервера). В любом случае, пограничные модели, хотя они и ограничены в некоторых отношениях, предлагают множество преимуществ, с которыми не могут сравниться крупные языковые модели.

Стоимость является одним из основных факторов. Благодаря модели Edge, которая работает в автономном режиме и на устройстве, плата за использование облака не взимается. (Даже точно настроенные модели часто слишком велики для запуска на локальных компьютерах; MT-NLG может занять более минуты, чтобы сгенерировать текст на настольном процессоре). Такие задачи, как анализ миллионов твитов, могут обходиться в тысячи долларов в популярных облачных моделях.

Модели Edge также теоретически обеспечивают большую конфиденциальность, чем их аналоги, подключенные к Интернету, поскольку им не нужно передавать или анализировать данные в облаке. Они также быстрее — ключевое преимущество для таких приложений, как перевод. Такие приложения, как Google Translate, используют модели Edge для предоставления автономных переводов.

“Передовые вычисления, скорее всего, будут внедряться в тех условиях, где требуется немедленная обратная связь … В целом, я бы подумал, что это сценарии, в которых люди общаются с искусственным интеллектом, роботами или чем-то вроде самоуправляемых автомобилей, считывающих дорожные знаки”, — сказал Кох. “В качестве гипотетического примера у Nvidia есть демонстрация, в которой чат-бот Edge беседует с клиентами в ресторане быстрого питания. Конечным вариантом использования может быть автоматическое ведение записей в электронных медицинских картах. Быстрая обработка разговора в таких ситуациях крайне важна”.

Конечно, небольшие модели не могут достичь всего того, на что способны крупные модели. Они ограничены аппаратным обеспечением, используемым в устройствах Edge, которое варьируется от одноядерных процессоров до систем на чипах, оснащенных графическим процессором. Более того, некоторые исследования показывают, что методы, используемые для их разработки, могут усиливать нежелательные характеристики, такие как алгоритмическая предвзятость.

“[Обычно существует] компромисс между энергопотреблением и способностью к прогнозированию. Кроме того, вычислительная мощность мобильных устройств на самом деле растет не такими темпами, как у распределенных высокопроизводительных вычислительных кластеров, поэтому производительность может отставать все больше и больше”, — сказал Сюй.

Взгляд в будущее

Поскольку большие, тонко настроенные и передовые языковые модели продолжают развиваться благодаря новым исследованиям, они, вероятно, столкнутся с препятствиями на пути к более широкому внедрению. Например, хотя для точной настройки моделей требуется меньше данных по сравнению с обучением модели с нуля, для точной настройки по-прежнему требуется набор данных. В зависимости от предметной области — например, при переводе с малоизвестного языка — данные могут отсутствовать.

“Недостатком тонкой настройки является то, что для нее по-прежнему требуется изрядный объем данных. Недостатком быстрого обучения (few-shot learning) является то, что оно работает не так хорошо, как тонкая настройка, и что специалисты по обработке данных и инженеры по машинному обучению имеют меньше контроля над моделью, поскольку они взаимодействуют с ней только через API”, — продолжил Кох. “А недостатки передового искусственного интеллекта заключаются в том, что сложные модели не могут поместиться на небольших устройствах, поэтому производительность строго ниже, чем у моделей, которые могут поместиться на одном настольном графическом процессоре, не говоря уже о больших языках, расположенных в облачных сервисах, распределенных по десяткам тысяч графических процессоров”.

Сюй отмечает, что все языковые модели, независимо от размера, остаются недостаточно изученными в некоторых важных аспектах. Она надеется, что таким областям, как объяснимость и интерпретируемость, которые направлены на то, чтобы понять, как и почему работает модель, и предоставить эту информацию пользователям, в будущем будет уделяться больше внимания и инвестиций, особенно в таких “важных” областях, как медицина.

“Происхождение — это действительно важный следующий шаг, которым должны обладать эти модели”, — сказал Сюй. “В будущем будет появляться все больше и больше эффективных методов тонкой настройки… чтобы учесть растущие затраты на тонкую настройку более крупной модели в целом. Периферийные модели будут по-прежнему важны, поскольку чем больше модель, тем больше требуется исследований и разработок, чтобы отобрать или сжать модель для установки на периферийные устройства”.