Новая техника взлома LLM: исследователи обнаружили способ обхода систем безопасности больших языковых моделей

Новая техника взлома LLM: исследователи обнаружили способ обхода систем безопасности больших языковых моделей

Техника Defective Likert Resolve может увеличить успех атаки на 60%

Исследователи в области кибербезопасности из компании Palo Alto Networks Unit 42, подразделения, специализирующегося на кибербезопасности и исследовании угроз, раскрыли новую технику взлома, позволяющую обходить системы безопасности больших языковых моделей (LLM) и получать потенциально вредные или злонамеренные ответы.

Эта стратегия получила кодовое название Defective Likert Resolve. Её разработали исследователи Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao и Danny Tsechansky.

«Эта техника использует целевую LLM в качестве судьи, который оценивает вредность ответа по шкале Лайкерта. Шкала Лайкерта является методом измерения степени согласия или несогласия респондента с утверждением. Затем LLM генерирует ответы, которые содержат примеры, соответствующие различным уровням шкалы Лайкерта. При этом ответ с самой высокой оценкой по шкале потенциально может содержать вредный контент», — пояснили исследователи из Unit 42.

В последние годы популярность искусственного интеллекта привела к появлению нового класса эксплойтов безопасности, называемых инъекциями запросов, которые специально предназначены для того, чтобы заставить модель машинного обучения игнорировать её предписанное поведение путём передачи специальных инструкций.

Новая техника взлома LLM: исследователи обнаружили способ обхода систем безопасности больших языковых моделей
Источник: DALL-E

Одним из видов инъекций запросов является метод атаки, известный как many-shot jailbreaking. Этот метод эксплуатирует длинное окно контекста LLM и механизм внимания для создания серии запросов, которые последовательно подталкивают LLM к получению злонамеренного ответа, обходя при этом внутренние защитные механизмы модели. К этому типу относятся техники Crescendo и Pretend Pride.

Тесты, проведённые Unit 42 в различных категориях против шести флагманских моделей LLM от Amazon Web Services and products, Google, Meta*, Microsoft, OpenAI и NVIDIA, показали, что эта техника может увеличить успех атаки (ASR) более чем на 60% по сравнению с простыми атакующими запросами в среднем.

Эти категории включают ненависть, преследование, самоповреждение, сексуальный контент, беспричинное применение оружия, незаконную деятельность, генерацию вредоносных программ и утечку системных запросов.

«Используя понимание LLM вредного контента и её способность оценивать ответы, эта техника может существенно повысить вероятность успешного обхода систем безопасности модели. Наши результаты показывают, что фильтры контента могут оказать существенное влияние на снижение уровня атакованности (ASR) — в среднем на 89,2 процентных пункта во всех протестированных моделях. Это подчёркивает важность внедрения всесторонней фильтрации контента в качестве лучшей практики при развертывании LLM в реальных приложениях», — отметили исследователи.

Это исследование было проведено всего через несколько дней после того, как газета The Guardian сообщила, что инструмент поиска OpenAI ChatGPT может быть обманут полностью вводящими в заблуждение вводными, попросив его резюмировать веб-страницы, содержащие скрытый контент.

«Эти техники можно использовать злонамеренно, например, чтобы заставить ChatGPT вернуть положительную оценку продукта, несмотря на негативные отзывы на той же странице. Простое включение скрытого текста третьими лицами без инструкций также можно использовать для обеспечения положительной оценки, в одном тесте были включены крайне положительные фейковые отзывы, которые повлияли на резюме, возвращаемое ChatGPT», — отметила британская газета.

*Компания Meta признана в РФ экстремистской организацией и запрещена

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.