Эксперты раскрыли универсальный способ обхода защиты ChatGPT и других нейросетей

Специалисты по информационной безопасности обнаружили две методики, позволяющие обойти защиту практически любой генеративной ИИ-модели. Новые подходы успешно обходят предохранители в распространенных ИИ, таких как ChatGPT, Gemini, Claude и другие. Эти уязвимости были описаны в отчете CERT под номером VU#667211 и вызвали серьезную обеспокоенность в отрасли.

Один из методов, известный как “Inception”, использует принцип “вложенной реальности”, при котором ИИ предлагается представить смоделированную ситуацию. В этом контексте злоумышленник внедряет запрещенные запросы, завуалированные под воображаемую роль. Другой метод основан на постепенном стирании границ: пользователя просят описать, как не следует отвечать, а затем последовательно чередуют безопасные и опасные вопросы. Это дезориентирует фильтрующие механизмы модели.

Несмотря на официальную классификацию угрозы как “незначительную”, эксперты подчеркивают огромный потенциальный ущерб. Уязвимость позволяет создавать инструкции по изготовлению оружия, разработке вирусов или проведению фишинговых атак, причем непосредственно внутри популярных сервисов, что усложняет их обнаружение. Это поднимает вопросы не только технической, но и юридической ответственности за функционирование таких систем.

Несколько компаний уже выпустили срочные обновления, стремясь устранить бреши. Однако выявленные атаки показывают, что существующая архитектура ИИ-моделей остается восприимчивой к манипуляциям. Без кардинальных изменений в принципах взаимодействия и фильтрации контента риски будут только расти.

Источник — https://securitymedia.org/