Расшифровка моделей черного ящика

Ученые создают математический фреймворк для оценки объяснений моделей машинного обучения и количественной оценки того, насколько хорошо люди их понимают.

Современные модели машинного обучения, такие как нейронные сети, часто называют “черными ящиками”, потому что даже исследователи, которые их разрабатывают, не могут полностью понять, как они делают прогнозы.

Для того чтобы получить некоторое представление, ученые используют методы объяснения, которые описывают индивидуальные решения модели. Например, они могут выделить слова в рецензии на фильм, которые повлияли на решение модели о том, что рецензия была положительной.

Однако, эти методы объяснения не приносят никакой пользы, если люди не могут легко понять их, а уж тем более если понимают их неправильно. Из-за этого, исследователи Массачусетского технологического института создали математический фреймворк для формальной количественной оценки и оценки понятности объяснений моделей машинного обучения. Это может помочь точно определить понимание поведения модели, которое может быть упущено, особенно когда ученые оценивают только несколько отдельных объяснений, пытаясь понять всю модель.

По словам Илун Чжоу, аспиранта кафедры электротехники и компьютерных наук в Лаборатории искусственного интеллекта МТИ и автора статьи, с помощью данного фреймворка можно получить четкое представление не только о том, что известно о модели из этих локальных объяснений, но и, что более важно, о том, что неизвестно.

Соавторами Чжоу являются Марко Тулио Рибейро, старший научный сотрудник Microsoft Research, и старший автор Джули Шах, профессор аэронавтики и астронавтики и директор Группы интерактивной робототехники в Лаборатории искусственного интеллекта МТИ. Результаты данного исследования будут представлены на конференции Североамериканского отделения Ассоциации компьютерной лингвистики.

Понимание локальных объяснений

Один из способов понять модель машинного обучения — найти другую модель, которая имитирует ее предсказания, но при этом использует прозрачные схемы рассуждений. Однако последние модели нейронных сетей настолько сложны, что этот метод обычно терпит неудачу. Вместо этого исследователи прибегают к использованию локальных объяснений, которые фокусируются на отдельных входных данных. Часто в этих объяснениях выделяются слова в тексте, чтобы обозначить их важность для одного прогноза.

Затем, ученые обобщают эти локальные объяснения на общее поведение модели. Кто-то может заметить, что метод локального объяснения выделил положительные слова (такие как “запоминающийся”, “безупречный” или “очаровательный”) как наиболее влиятельные, когда модель решает, что рецензия фильма положительная. Затем из этого, модель сделает вывод, что все позитивные слова вносят положительный вклад в предсказания модели, но это может быть не всегда так, говорит Чжоу.

Исследователи разработали систему, известную как ExSum (сокращение от explanation summary), которая формализует эти типы утверждений в правила, которые можно проверить с помощью количественных показателей. ExSum оценивает правило для всего набора данных, а не только для одного экземпляра, для которого оно создано.

Используя графический пользовательский интерфейс, человек пишет правила, которые затем можно изменять, настраивать и оценивать. Например, при изучении модели, которая учится классифицировать рецензии на фильмы как положительные или отрицательные, можно было бы написать правило, которое гласит так: “отрицательные слова имеют отрицательную значимость”, что означает, что такие слова, как “не”, “нет” и “ничего”, вносят «отрицательное отношение» в рецензии на фильмы.

Используя ExSum, пользователь может проверить, выполняется ли это правило, используя три конкретных показателя: охват, достоверность и четкость. Охват измеряет насколько широко правило применимо ко всему набору данных. Достоверность показывает процент отдельных примеров, которые согласуются с правилом. Четкость описывает насколько точным является правило; высоконадежное правило может быть настолько общим, что оно бесполезно для понимания модели.

Проверка допущений

По словам Чжоу, если исследователь хочет лучше понять, как ведет себя его модель, он может использовать ExSum для проверки конкретных предположений.

Если система подозревает, что ее модель является дискриминационной с точки зрения пола, можно создать правила, согласно которым местоимения мужского рода вносят положительный вклад, а местоимения женского рода— отрицательный. Если эти правила имеют высокую достоверность, это означает, что в целом они верны, и модель, скорее всего, необъективна.

ExSum также может выявить неожиданную информацию о поведении модели. Например, оценивая классификатор рецензий на фильмы исследователи были удивлены, обнаружив, что негативные слова, как правило, оказывают большее влияние на решения модели, чем позитивные. Чжоу объясняет, что это может быть связано с тем, что авторы рецензий стараются быть вежливыми и менее резкими при критике фильма.

“Чтобы действительно подтвердить свое понимание, нужно оценить эти утверждения на множестве примерах. Насколько нам известно, такого рода понимание на таком детальном уровне никогда не раскрывалось в предыдущих работах», — говорит он.

“Переход от локальных объяснений к глобальному пониманию был пробелом в данной области исследований. ExSum – первый большой шаг к заполнению этого пробела”, — добавляет Рибейро.

Расширение Фреймворка

В будущем Чжоу надеется развить данную работу, распространив концепцию понятности на другие критерии и формы объяснения, например, на контрафактические объяснения (которые указывают, как изменить входные данные, чтобы изменить прогноз модели). На данный момент они сосредоточились на методах атрибуции признаков, которые описывают отдельные функции, используемые моделью для принятия решения (например, слова в рецензии на фильм).

Кроме того, он хочет усовершенствовать фреймворк и пользовательский интерфейс, чтобы люди могли быстрее создавать правила. Для написания правил требуется многочасовая активность людей, в то время как человеческое участие имеет решающее значение, потому что люди в конечном итоге должны быть в состоянии понять объяснения, — однако, ИИ может упростить этот процесс.

Размышляя о будущем ExSum, Чжоу надеется, что их работа замотивирует ученых изменить взгляд на объяснения моделей машинного обучения.

 «Если у вас было правильное локальное объяснение – вы достигли святого Грааля в объяснении своей модели. С этой работой, мы предлагаем дополнительный инструмент, чтобы убедиться, что эти объяснения понятны. Понятность должна быть еще одним показателем для оценки объяснений», — говорит Чжоу.

Данное исследование частично поддерживается Национальным научным фондом.

Перевод: https://news.mit.edu/2022/machine-learning-explainability-0505 Бреусов Виталий