AutoBackdoor: автоматизированное внедрение бэкдоров в LLM

Изучили свежую работу исследователей из Сингапура, Мельбурна и Фуданя. Они создали первый полностью автоматизированный фреймворк AutoBackdoor, который с помощью агентов на базе LLM может внедрять скрытые атаки с закладками.

Что нового? • Раньше для атак с закладками нужны были специальные слова или шаблоны, которые легко обнаружить. • AutoBackdoor генерирует естественные фразы (семантические триггеры), которые незаметно интегрируются в обычные запросы. • Например, обычная фраза «фастфуд» может скрыть команду рекомендовать конкретный бренд.

Как работает AutoBackdoor? Три шага: 1. Генерация триггеров — агент придумывает естественные триггерные фразы 2. Создание отравленных данных — агент генерирует отравленные пары “запрос-ответ” и сам проверяет их качество 3. Обучение модели — автоматическая тонкая настройка LLM с использованием отравленных данных

Реальные сценарии атак • Смещённые рекомендации: влияет на выбор продуктов или брендов • Внедрение галлюцинаций: заставляет модель уверенно генерировать ложную информацию • Манипулирование рецензированием: предвзятые оценки научных статей

Результаты • Успешность атаки > 90% при минимальном числе отравленных примеров • Модель остаётся «работоспособной» и естественной в других запросах • Скрытность атаки очень высокая - GPT-4 с трудом распознаёт • Сокращение времени: атака занимает ~20 минут и стоит копейки в расчёте на вычислительные ресурсы