ChatGPT исключает неанглийские языки из революции искусственного интеллекта

Перевод Бельской Полины

Чат-боты с искусственным интеллектом лучше владеют английским, чем другими языками, что может усилить существующую предвзятость в глобальной торговле и сфере инноваций.

Специалист в области информатики Фунг представляет светлое будущее, в котором многоязычные ИИ-помощники, такие как ChatGPT, преодолевают языковые барьеры. В этом мире индонезийские владельцы магазинов, свободно владеющие только местными диалектами, могут привлечь новых покупателей, размещая информацию о своих товарах в Интернете на английском языке.

«Это может открыть новые возможности», — говорит Фунг, затем делает паузу. Она отметила предвзятость в своем видении более взаимосвязанного будущего: покупки, совершенные при помощи ИИ, будут односторонними, потому что немногие американцы утруждают себя использованием ИИ-переводчика для исследования товара, рекламируемого на индонезийском языке. «Американцы не заинтересованы в изучении другого языка», — говорит она.

Не каждый американец подходит под это описание: примерно каждый пятый говорит дома на другом языке, но английский язык действительно доминирует в мировой торговле. Фунг, директор Центра исследований ИИ в Гонконгском университете науки и технологий, которая сама говорит на семи языках, видит эту предвзятость в своей области. «Если вы не публикуете статьи на английском языке, вы не востребованы как специалист», — говорит она. «Неговорящие по-английски, как правило, не успешны в профессиональной деятельности».

Фунг надеется, что ИИ изменит ситуацию, а не еще сильнее укрепит первенство английского языка. Она состоит в глобальном сообществе исследователей искусственного интеллекта, которые проверяют языковые навыки ChatGPT и конкурирующих с ним чат-ботов и которые бьют тревогу по поводу того, что ИИ имеет меньше способностей к освоению языков, отличающихся от английского.

Хотя исследователи выявили некоторые потенциальные исправления, чат-боты, говорящие в основном на английском, набирают большую популярность. «Одно из моих самых больших опасений заключается в том, что мы собираемся усугубить предвзятое отношение к английскому языку и его носителям», — говорит Тьен Хуу Нгуен, специалист в области информатики из Орегонского университета, который также занимается исследованиями в области чат-ботов, использующих английский язык как основной. «Люди будут следовать норме и не думать о своей идентичности или культуре. Это убивает разнообразие. Это убивает инновации».

Не менее 15 исследовательских работ, размещенных в этом году на сервере препринтов arXiv.org , включая исследования, проведенные в соавторстве с Нгуеном и Фунг, изучили многоязычие больших языковых моделей – разновидность программного обеспечения с искусственным интеллектом, обеспечивающего такие системы, как ChatGPT. Методики различаются, но имеют одну схожую черту: системы искусственного интеллекта хороши в переводе других языков на английский, но им трудно выполнить обратную операцию, особенно на языки с нелатинскими письменами, такие как корейский.

Несмотря на недавние многочисленные разговоры о том, что искусственный интеллект становится все больше похож на человека, системы, подобные ChatGPT, также изо всех сил пытаются свободно смешивать языки в одном и том же высказывании — скажем, английский и тамильский, — как это делают миллиарды людей в мире каждый день. Исследование Нгуена сообщает: тесты, проведенные на ChatGPT в марте, показали, что он значительно хуже справлялся с ответами на фактические вопросы или обобщением сложного текста на всех языках, за исключением английского, и с большей вероятностью фальсифицировал информацию. “Это английское предложение, поэтому перевести его на вьетнамский невозможно”, — ответил бот на один запрос.

Несмотря на технические ограничения, работники по всему миру обращаются к чат-ботам за помощью в разработке бизнес-идей, составлении корпоративных электронных писем и совершенствовании программного кода. Если инструменты продолжат прекрасно работать на английском языке, то необходимость изучения языка для тех, кто стремится занять место в мировой экономике, возрастает. Это могло бы способствовать дальнейшему навязыванию и усилению влияния английского языка, которое началось с Британской империи.

Этой проблемой обеспокоены не только специалисты по искусственному интеллекту. На слушаниях в Конгрессе США в этом месяце сенатор Алекс Падилья из Калифорнии спросил Сэма Альтмана, генерального директора OpenAI, создателя ChatGPT, что делает его компания (которая базируется в США), чтобы преодолеть языковой разрыв. Около 44 процентов калифорнийцев говорят на каком-либо еще языке, помимо английского. Альтман сказал, что надеется сотрудничать с правительствами и другими организациями для сбора данных, которые в дальнейшем укрепят языковые навыки ChatGPT и расширят его возможности для “как можно более широкой группы языков”.

Падилья, который также говорит по-испански, скептически относится к системам, выдающим равные лингвистические результаты без значительных изменений в стратегиях их разработчиков. “Эти новые технологии открывают большие перспективы для доступа к информации, образованию и улучшенной коммуникации, и мы должны проконтролировать данный процесс, чтобы язык не стал препятствием в достижении данных преимуществ”, — говорит он.

OpenAI не скрывает того факта, что его системы предвзяты. В табеле успеваемости компании по GPT-4, самой продвинутой языковой модели, которая доступна пользователям ChatGPT по платной подписке, говорится, что большинство исходных данных было получено с английского языка и что усилия компании по точной настройке и изучению производительности модели в первую очередь были сосредоточены на английском языке “с ориентированием на США”. Или, как написал сотрудник в декабре прошлого года на форуме поддержки компании, после того, как пользователь спросил, добавит ли OpenAI поддержку испанского языка в ChatGPT, ответив: “Любые хорошие результаты по испанскому языку являются бонусом”. OpenAI отказался комментировать эту историю.

Джессика Форд, докторант по информатике в Университете Брауна, раскритиковала OpenAI за то, что он недостаточно тщательно оценил возможности GPT-4 на других языках перед его выпуском. Она входит в число исследователей, которые хотели бы, чтобы компании публично объясняли свои методики обучения ИИ и отслеживали свой прогресс в области многоязычной поддержки. “Английский язык укрепился настолько сильно, потому что люди говорили на нем и изучали его. Может ли ИИ работать как юрист или врач на английском языке? Может ли из он написать комедию на английском языке? Но пока никто не заинтересован в том, чтобы это было выполнено на другом языке”, — говорит она.

Большие языковые модели работают со словами, используя статистические шаблоны, извлеченные из миллиардов текстов, заимствованных из Интернета, книг и других ресурсов. Из-за экономического доминирования США и огромного населения Китая, на английском и китайском языках доступно больше материалов, чем на других.

Модели могут работать и на других языках, поскольку они включены в текстовые наборы данных. Однако эти знания не обязательно должны быть всеобъемлющими. В статье, опубликованной в этом месяце, исследователи из Центра демократии и технологий в Вашингтоне, округ Колумбия, объяснили, что из-за доминирования английского языка “многоязычная модель может ассоциировать слово dove (голубь) на всех языках с peace (мир), даже несмотря на то, что баскское слово, обозначающее голубя («uso»), может быть оскорблением».

Алейда Солис столкнулась с этим недостатком, когда попробовала Microsoft Bing chat – инструмент поиска, основанный на GPT-4. Бот Bing предоставил ей соответствующий разговорный термин для кроссовок в нескольких англоговорящих странах (“trainers ” в Великобритании, “ joggers ” в некоторых частях Австралии), но не смог предоставить подходящие термины для региона, когда его спросили на испанском языке о местном обувном жаргоне в Латинской Америке (“Zapatillas deportivas” для Испании, “ championes ” Уругвая).

«В отдельном диалоге, при запросе на английском языке, Bing chat правильно определил Таиланд как предполагаемое место для следующих съемок телешоу White Lotus, но при переводе запроса на испанский язык указал “где-то в Азии”», – говорит Солис, руководитель консалтинговой компании Orainti, которая помогает веб-сайтам увеличивать количество посещений с поисковых систем.

Руководители Microsoft, OpenAI и Google, работающие над чат-ботами, заявили, что пользователи могут бороться с некачественными ответами, добавляя более подробные инструкции к своим запросам. Без четких указаний чат-боты имеют склонность опираться на английскую речь и англоговорящие источники. Просто спросите Веруску Анконитано, другого эксперта по поисковой оптимизации, которая проживает в Италии и Ирландии. Она обнаружила, что, задавая вопросы в чате Bing на итальянском, ИИ выдает ответы на английском, если только не указывать “Отвечай по-итальянски”. По словам Анконитано, в другом чате Bing предположил, что, вместо коммуникации на японском, запрос 元気ですか (“Как дела?”) должен быть переведен на английский.

Недавние исследовательские работы подтвердили уморительные выводы людей, столкнувшихся с ограниченностью Bing chat и его собратьев. Чжэн-Синь Юн, докторант Университета Брауна, также изучающий многоязычные языковые модели, говорит, что в одном исследовании он и его коллеги обнаружили, что для получения лучших ответов на вопросы, составленных на китайском языке, нужно задавать их на английском, а не на китайском.

Когда Фунг из Гонконга и ее сотрудники попытались попросить ChatGPT перевести 30 предложений, он правильно перевел 28 с индонезийского на английский и только 19 с английского на индонезийский. Это показывает, что американцам, говорящим на одном языке, которые обращаются к боту для заключения сделок с индонезийскими торговцами, придется нелегко. Такое беглое одностороннее совпадение повторяется по меньшей мере на пяти других языках.

Языковые проблемы больших языковых моделей затрудняют доверие к ним со стороны тех, кто не владеет английским и, возможно, китайским языками. Когда я попытался перевести древние санскритские гимны с помощью ChatGPT в рамках эксперимента по использованию искусственного интеллекта для ускорения планирования свадьбы, результаты показались мне достаточно правдоподобными, чтобы включить их в сценарий церемонии. Но я понятия не имел, могу ли я положиться на них, или старшие будут смеяться надо мной.

Исследователи, беседовавшией с WIRED, действительно видят некоторые улучшения. Когда компания Google создавала свою языковую модель PaLM 2, выпущенную в этом месяце, она предприняла попытку увеличить количество обучающих данных, не относящихся к английскому языку, более чем для 100 языков. По словам представителей Google, модель способна распознавать идиомы на немецком и суахили, понимает шутки на японском и исправляет грамматические ошибки на индонезийском, и она определяет региональные различия лучше, чем предыдущие модели.

Но в сфере потребительских услуг Google держит PaLM 2 в клетке. Его чат-бот Bard работает на базе PaLM 2, но использует только американский английский, японский и корейский языки. Помощник по написанию текстов для Gmail, использующий PaLM 2, поддерживает только английский язык. Чтобы ввести официальную поддержку языка, требуется время для проведения тестирования и применения фильтров, чтобы убедиться, что система не генерирует токсичный контент. Компания Google изначально не собиралась делать упор на многоязычие языковой модели, хотя сейчас активно работает над добавлением новых языков.

Помимо выявления недостатков языковых моделей, исследователи создают новые наборы данных неанглоязычного текста, чтобы попытаться ускорить разработку по-настоящему многоязычных моделей. Группа под руководством Фунг занимается сбором данных на индонезийском языке для обучения моделей, в то время как команда исследователей из нескольких университетов Йонга делает то же самое для языков Юго-Восточной Азии. Они также ориентируются на африканские языки и латиноамериканские диалекты.

“Мы хотим думать о наших отношениях с Big Tech как о сотрудничестве, а не как о соперничестве”, — говорит Скайлер Ванг, социолог по технологиям и искусственному интеллекту из Калифорнийского университета в Беркли, которая сотрудничает с Йонг. “Есть много ресурсов, которыми можно поделиться”.

Но сбора большего количества данных вряд ли будет достаточно, поскольку объемы текста на английском языке очень велики и продолжают расти. Хотя это сопряжено с риском устранения культурных особенностей, некоторые исследователи полагают, что компаниям придется генерировать синтетические данные, например, используя языки-посредники, такие как китайский или английский, для перевода с одного языка на другой при ограниченном количестве учебных материалов. “Если мы начнем с нуля, у нас никогда не будет достаточно данных на других языках”, — говорит Нгуен из Университета Орегона. “Если вы хотите задать научный вопрос, сделайте это по-английски. То же самое и в финансах.”

Нгуен также хотел бы, чтобы разработчики искусственного интеллекта были внимательнее к используемым наборам данных в своих языковых моделях, а также их влиянию на каждый шаг процесса построения, а не только на конечные результаты. «До сих пор попадание определенных языков в модель было “случайным процессом”», говорит Нгуен. Более строгий контроль за контентом для достижения определенных пороговых значений для каждого языка — как Google пыталась сделать с PaLM — мог бы повысить качество продукции из неанглоязычных стран.

Фунг отказалась от использования ChatGPT и других инструментов, созданных на основе больших языковых моделей, для любых целей, помимо исследовательских. Их речь слишком часто кажется ей скучной. По ее словам, из-за настройки исходной технологии высказывания чат-ботов представляют собой “среднее значение того, что есть в Интернете” — расчет, который лучше всего работает на английском языке и оставляет ответы на других языках без остроты.