«Meta: Прорыв в мире перевода – ИИ с открытым кодом переводит на 200 языков»

В данной статье рассматривается инновационный инструмент перевода с открытыми исходными кодами искусственного интеллекта (ИИ) под названием Meta. Что делает этот инструмент уникальным, так это его способность работать на 200 языках, что позволяет существенно расширить его потенциал для глобального использования.

Источник: https://www.theverge.com/2022/7/6/23194241/meta-facebook-ai-universal-translation-project-no-language-left-behind-open-source-model
Автор: Эймс Винсент 6 июля 2022 года Перевод: Ульянова Яна

Мета — это проект с открытым исходным кодом, который предназначен для предоставления высококачественного машинного перевода, основанного на современных методах глубокого обучения. Он предлагает универсальное решение для перевода текста с одного языка на другой, независимо от пары языков, используемых в процессе перевода.

Конгломерат социальных сетей Meta создал единую модель искусственного интеллекта, способную переводить на 200 различных языков, включая те, которые не поддерживаются существующими коммерческими инструментами. Компания выкладывает проект в открытый доступ в надежде на то, что другие разработчики будут развивать его.

ИИ-Модель является частью амбициозного научно-исследовательского проекта Meta по созданию так называемого “универсального переводчика речи”, который компания считает важным для развития многих  платформ— от Facebook и Instagram до развивающихся областей, таких как VR и AR. Машинный перевод не только позволяет компании Meta лучше понимать своих пользователей (и тем самым улучшать рекламные системы, которые приносят 97 % ее доходов), но и может стать основой потрясающего приложения для будущих проектов, таких как очки дополненной реальности.

Эксперты в области машинного перевода заявили изданию The Verge, что последнее исследование Meta было амбициозным и тщательным, но отметили, что качество некоторых переводов, скорее всего, будет значительно ниже качества чем у языков с лучшей поддержкой, таких как итальянский или немецкий.

«Основной вклад здесь — это данные», — сказал The Verge профессор Александр Фрейзер, эксперт по вычислительной лингвистике из LMU Munich (Германия). «Что важно, так это 100 новых языков [которые могут быть переведены с помощью модели Meta]».

Достижения Meta, как это ни парадоксально, обусловлены как масштабом, так и направленностью ее исследований. В то время как большинство моделей машинного перевода работают лишь с несколькими языками, модель Meta универсальна: это единая система, способная переводить более чем в 40 000 различных областях между 200 различных языков. Однако  Meta также заинтересована в том,чтобы включить в модель “языки с низким уровнем ресурсов” – языки, на которых имеется менее  1 млн. общедоступных переведенных пар предложений. К ним относятся многие африканские и индийские языки, которые обычно не поддерживаются коммерческими средствами машинного перевода.

“Что нужно сделать, чтобы создать технологию перевода, которая будет работать для всех?”

Научный сотрудник Meta AI Анжела Фан ( Angela Fan), работавшая над проектом, рассказала изданию The Verge, что команду вдохновило недостаточное внимание, уделяемое в этой области таким малоресурсным языкам. «Перевод не работает даже для тех языков, на которых мы говорим, вот почему мы  начали этот проект», — сказала Фань. У нас появилась мотивация: «Что нужно сделать, чтобы создать технологию перевода, которая будет работать для всех?».

По словам Фан, модель, описанная в исследовательской статье, уже тестируется для поддержки проекта, помогающего редакторам Википедии переводить статьи на другие языки. Методы, разработанные при создании модели, в скором времени будут также включены в инструменты перевода Meta.

Как вы оцениваете перевод?

Мета создала тестовый набор данных, состоящий из 3001 пары предложений для каждого языка, из которых рассчитана модель, каждое из которых было переведено с английского на язык перевода человеком, являющимся профессиональным переводчиком и носителем языка.
Исследователи прогнали эти предложения через свою модель и сравнили машинный перевод с эталонными предложениями человека, с помощью общепринятого в машинном переводе эталона BLEU (BiLingual Evaluation Understudy).(что расшифровывается как двуязычный оценочный дублер)

Модель Meta обеспечивает улучшенные показатели, но они не могут рассказать всю историю целиком

BLEU позволяет исследователям присваивать числовые баллы, измеряющие степень совпадения пар предложений, и компания Meta утверждает, что ее модель позволила на 44% улучшить показатели BLEU для всех поддерживаемых языков (по сравнению с предыдущими современными работами). Однако, как это часто бывает в исследованиях в области ИИ, оценка прогресса на основе контрольных показателей требует контекста.

Хотя показатели BLEU позволяют исследователям сравнивать относительный прогресс различных моделей машинного перевода, они не дают абсолютной оценки способности программного обеспечения создавать качественные переводы для человека.

Помните: Набор данных Meta состоит из 3001 предложений, и каждое из них было переведено только одним человеком. Это позволяет судить о качестве перевода, но всю выразительность языка невозможно передать на столь малом отрезке реальной речи. Эта проблема никоим образом не ограничивается метаданными — это то, что влияет на всю работу по машинному переводу и особенно остро стоит при оценке языков с ограниченными ресурсами, — но она показывает масштаб проблем, стоящих перед данной областью.

Кристиан Федерманн (Christian Federmann) главный менеджер по исследованиям, работающий над машинным переводом в Microsoft, сказал, что проект в целом заслуживает “похвалы” в его стремлении расширить сферу применения программного обеспечения для машинного перевода на менее распространенные языки, но отметил, что оценки BLEU сами по себе могут обеспечить лишь ограниченный показатель качества вывода.

Кристиан Федерманн, главный менеджер по исследованиям, работающий над машинным переводом в Microsoft, сказал, что проект в целом заслуживает “похвалы” в его стремлении расширить сферу применения программного обеспечения для машинного перевода на менее распространенные языки, но отметил, что оценки BLEU сами по себе могут обеспечить лишь ограниченный показатель качества вывода.

“Перевод — это творческий, порождающий процесс, результатом которого может быть множество различных переводов, которые все одинаково хороши (или плохи)”, — сказал Федерманн в интервью The Verge. “Невозможно определить общие уровни «хорошей оценки BLEU», поскольку они зависят от используемого тестового набора, его эталонного качества, а также от присущих исследуемой языковой паре свойств”.

Фан отметила, что оценки BLEU также были дополнены человеческой оценкой, и эти отзывы были очень позитивными, а также вызвали некоторые неожиданные реакции.

Один действительно интересный феномен заключается в том, что люди, говорящие на языках с низкими ресурсами, часто имеют более низкую планку качества перевода, потому что у них нет никакого другого инструмента”, — сказала Фан, которая сама является носителем языка с ограниченными ресурсами, шанхайского. “Они очень щедры, и поэтому мы на самом деле должны вернуться и сказать: » Нет, вам нужно быть очень точным, и если вы увидите ошибку, сообщите об этом«.

Дисбаланс власти в корпоративном ИИ

Работа над переводом с помощью искусственного интеллекта часто преподносится как однозначное благо, однако создание этого программного обеспечения сопряжено с особыми трудностями для носителей языков с ограниченными ресурсами. Для некоторых сообществ внимание крупных технологических компаний просто нежелательно: они не хотят, чтобы инструменты, необходимые для сохранения их языка, находились в чьих-либо руках, кроме их собственных. Для других проблемы носят менее экзистенциальный характер, но в большей степени связаны с вопросами качества и влияния.

Некоторые сообщества просто не хотят, чтобы крупные технологии контролировали их язык

Инженеры Meta исследовали некоторые из этих вопросов, проведя интервью с 44 носителями языков с ограниченными ресурсами.В ходе интервью был затронут ряд положительных и отрицательных моментов, связанных с открытием их языков для машинного перевода.

Одним из положительных моментов, например, является то, что такие инструменты позволяют ораторам получать доступ к большему количеству средств массовой информации. Они могут быть использованы для перевода богатых ресурсов, таких как англоязычная Википедия и учебные тексты. Однако в то же время, если носители языка с ограниченными ресурсами потребляют больше средств массовой информации, созданных носителями языков с лучшей поддержкой, это может снизить стимулы к созданию таких материалов на их родном языке.

Сбалансировать эти вопросы непросто, и проблемы, с которыми столкнулись даже в рамках этого недавнего проекта, показывают, почему. Исследователи Meta отмечают, например, что из 44 носителей языка с ограниченными ресурсами, которых они опросили для изучения этих вопросов, большинство из этих опрошенных были “иммигрантами, живущими в США и Европе, и около трети из них идентифицируют себя как технические работники” — это означает, что их взгляды, вероятно, отличаются от взглядов других людей. их родные сообщества были предвзятыми с самого начала

Профессор Фрейзер из Мюнхенского университета LMU сказал, что, несмотря на это, исследование, безусловно, проводилось “с привлечением носителей языка” и что такие усилия были “похвальными”.

“В целом, я рад, что Meta занимается этим»

В целом, я рад, что Meta занимается этим. Больше информации от таких компаний, как Google, Meta и Microsoft, все из которых имеют значительный опыт работы в области машинного перевода с низким потреблением ресурсов, полезно для всего мира”, — сказал Фрейзер. “И, конечно, некоторые идеи, лежащие в основе того, почему и как это сделать, также исходят из академических кругов, а также из подготовки большинства перечисленных исследователей”.

Фан сказала, что Meta попыталась предотвратить многие из этих социальных проблем, расширив экспертные знания, с которыми они консультировались по проекту. “Я думаю, что когда разрабатывается искусственный интеллект, это часто очень похоже на инженерный вопрос: «Ладно, где мои докторские степени по информатике? Давайте соберемся вместе и построим это просто потому, что мы можем.’ Но на самом деле для этого мы работали с лингвистами, социологами и специалистами по этике”, — сказала она. “И я думаю, что такого рода междисциплинарный подход фокусируется на человеческой проблеме. Например, кто хочет, чтобы эта технология была создана? Как они хотят, чтобы это было построено? Как они собираются это использовать?

Не менее важным, по словам Фана, является решение использовать как можно больше элементов проекта с открытым исходным кодом — от модели до набора оценочных данных и обучающего кода, — что должно помочь устранить дисбаланс сил, присущий корпорации, работающей над подобной инициативой. Meta также предлагает гранты исследователям, которые хотят внести свой вклад в такие проекты по переводу, но не в состоянии финансировать свои собственные проекты.
«Я считаю, что это очень важно, потому что ни одна компания не сможет решить проблему машинного перевода в комплексе«, — говорит Фан.». “Это касается всех — во всем мире — и поэтому мы действительно заинтересованы в поддержке такого рода усилий сообщества.