Цель: единая модель машинного обучения, которая умеет анализировать и понимать входные данные на многих языках. Вариант использования: люди взаимодействуют с Alexa на своем родном языке (среди других коммерческих приложений).
20 апреля 2022 года Amazon объявили о трех разработках для достижения этой цели под названием MMNLU-22, инициалы, обозначающие массовое многоязычное понимание естественного языка или Massively Multilingual Natural Language Understanding.
Эти разработки представляют собой выпуск набора данных с одним миллионом помеченных высказываний на 51 языке и с открытым исходным кодом; соревнование с использованием этого набора данных (крайний срок: 1 июня 2099 г.); и семинар на крупнейшей в мире конференции по машинному переводу (EMNLP 2022, Абу-Даби, 7–11 декабря 2022 г.).
Amazon назвали набор данных MASSIVE (Multilingual Amazon SLURP for Slot Filling, Intent Classification, and Virtual-assistant Evaluation). Набор данных поставляется с примерами того, как выполнять моделирование MMNLU, чтобы другие могли воссоздать базовые результаты для двух критических задач NLU — классификации намерений и заполнения слотов — как описано в документе SLURP.
NLU — это поддисциплина обработки естественного языка (NLP), и Amazon заявили, что они сосредоточены на NLU как на компоненте понимания разговорной речи (SLU), где звук преобразуется в текст до выполнения NLU. Alexa — один из примеров виртуального помощника на базе SLU.
MASSIVE включает «один миллион реалистичных, параллельных, помеченных текстовых высказываний виртуального помощника, охватывающих 51 язык, 18 доменов, 60 намерений и 55 слотов».
Amazon создали набор данных, «поручив профессиональным переводчикам локализовать или перевести набор данных SLURP только на английском языке на 50 типологически различных языков из 29 родов, включая языки с низким уровнем ресурсов».
Amazon пытается преодолеть серьезное препятствие для виртуальных помощников на основе SLU, таких как Alexa; академические и промышленные исследования и разработки NLU по-прежнему ограничиваются несколькими языками.
«Одной из трудностей при создании многоязычных моделей NLU является отсутствие размеченных данных для обучения и оценки, особенно данных, реалистичных для данной задачи и естественных для данного языка. Высокая естественность обычно требует проверки человеком, что часто дорого обходится».
Следовательно, исследования и разработки «ограничены небольшим подмножеством из более чем 7000 языков мира», отмечают в Amazon. «Изучая общее представление данных, охватывающее языки, модель может переносить знания с языков с обильными обучающими данными на те, в которых обучающих данных мало».
Начало хорошее, требуется более широкий охват исследований и разработок
Феликс Лауманн, генеральный директор SaaS-платформы NeuralSpace, поделился со Slator, что они тщательно изучили данные Amazon и уже предлагают их своим пользователям с помощью простой функции импорта.
Он отметил, что единая модель, которая может понимать голосовые команды на любом языке, очень полезна, когда пользователи переключаются между языками во время разговора. Например, в Индии, где распространен хинди-английский гибрид (хинглиш). Или в других местах, таких как MENA, где есть «смесь арабского диалекта с английскими словами с использованием английского или латинского алфавита при написании, а не арабского (арабизи). Мы видим подобные смеси языков по всей Африке, особенно в Нигерии».
Как правило, объяснил Лауманн, для обучения многоязычных моделей требуется больше данных для каждого языка, чем количество данных, необходимое для обучения одной одноязычной модели. «Это проблема для многих наших клиентов и, вероятно, для большинства компаний, не таких крупных, как Amazon. Их альтернативой является включение простой модели идентификации языка до того, как модель NLU обработает разговорные данные (например, короткую голосовую команду, вопрос, письменный комментарий или сообщение).
Затем компании могут обучать по одной модели на каждом языке, на котором, как они ожидают, будут говорить или писать их пользователи, «и позволить модели идентификации языка распределять входные данные для конкретной модели, которая «понимает» этот язык. Для таргетированных пользователей, которые общаются на смешанных языках (например, хинглиш, арабизи), модель языковой идентификации может распределить входные данные для такой «более узкой» многоязычной модели».
Генеральный директор заключил: «В NeuralSpace мы видим больше пользы в таких более узких многоязычных моделях, чем в одной многоязычной. Влияние языков с низким уровнем ресурсов на НЛП заслуживает внимания, но, на мой взгляд, не изменит проблемы для многих компаний».
По словам Лауманна, описанная выше проблема размера набора данных преобладает в большинстве компаний, а наборы данных Amazon в значительной степени основаны на сценариях использования личных помощников.
Действительно, Amazon намекнули, где они надеются применить эти последние разработки в коммерческих целях, отметив, что из более чем 100 миллионов умных говорителей, проданных по всему миру (например, Echo), большинство используют исключительно голосовой интерфейс и полагаются на NLU для работы. По оценкам компании, к 2023 году количество виртуальных помощников достигнет восьми миллиардов, и большинство из них будет на смартфонах.
Источник:https://slator.com/amazon-unveils-long-term-goal-in-natural-language-processing/ Перевод: Хафез Халед