Кыргызстанцы Алтынбек Исмаилов и Салия Асанова взломали AI-модель Claude
В новой работе Antropic, которая называется Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming, описывается система, основанная на конституционных классификаторах, которая защищает модели от взлома. Конституционные классификаторы — это входные и выходные классификаторы, обученные на синтетически сгенерированных данных, которые отфильтровывают подавляющее большинство джейлбрейков с минимальным количеством отказов и без больших вычислительных затрат.
Для оценки эффективности конституционных классификаторов компания провела две основные категории тестов. Во-первых, был разработан прототип системы для выявления и блокировки конкретных научных знаний, связанных с химическим, биологическим, радиологическим и ядерным ущербом. Затем Antropic пригласили независимых взломщиков для участия в программе bug-bounty, в рамках которой им было предложено попытаться взломать систему в экспериментальных условиях, чтобы проверить ее устойчивость. Участникам давали список из десяти «запрещенных» запросов, и их задачей было использовать любые методы взлома, чтобы заставить модель Claude 3.5 Sonnet (июнь 2024 года), охраняемую прототипом конституционных классификаторов, ответить на все запросы. Успешным «универсальный» джейлбрейк считался только в том случае, если модель давала подробный ответ на все запросы.
183 участника эксперимента потратили около 3 000 часов в течение двух месяцев, пытаясь взломать модель. Им было предложено денежное вознаграждение до $15 000, если они обнаружат универсальный джейлбрейк. Несмотря на большое количество усилий, никто из участников не смог заставить модель ответить на все десять запрещенных запросов с помощью одного джейлбрейка, то есть универсального джейлбрейка обнаружено не было. 5 февраля компания объявила денежный приз в размере $10 000 первому, кто пройдет все восемь уровней, и $20 000 первому, кто пройдет все восемь уровней с универсальным джейлбрейком. Оба приза были выиграны отдельными джейлбрейкерами. Компания также решила выплатить дополнительные призы двум другим пользователям, которые прошли все 8 уровней испытания, но не попали в число претендентов на первоначальные призы. В общей сложности выплатит $55 000 четырем пользователям, которым удалось пройти все 8 уровней.
Кыргызстанцы Алтынбек Исмаилов и Салия Асанова стали первой командой, прошедшей все восемь уровней испытания, используя универсальный джейлбрейк. Вместе с ними три участника также получат вознаграждение: Valen Tagliabue (первый участник, прошедший 8 уровней, Hunter Senft-Grupp (участник, прошедший все восемь уровней испытания, используя практически универсальный джейлбрейк) и Andres Aldana (участник, прошедший все восемь уровней испытания).
«Я рада объявить, что наши с Алтынбеком Исмаиловым усилия по созданию универсального джейлбрейка были отмечены командой Anthropic's Safety and Alignment», — написала Салия на своей странице в LinkedIn.
Изображение: Antropic
@adventuresvc
В новой работе Antropic, которая называется Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming, описывается система, основанная на конституционных классификаторах, которая защищает модели от взлома. Конституционные классификаторы — это входные и выходные классификаторы, обученные на синтетически сгенерированных данных, которые отфильтровывают подавляющее большинство джейлбрейков с минимальным количеством отказов и без больших вычислительных затрат.
Для оценки эффективности конституционных классификаторов компания провела две основные категории тестов. Во-первых, был разработан прототип системы для выявления и блокировки конкретных научных знаний, связанных с химическим, биологическим, радиологическим и ядерным ущербом. Затем Antropic пригласили независимых взломщиков для участия в программе bug-bounty, в рамках которой им было предложено попытаться взломать систему в экспериментальных условиях, чтобы проверить ее устойчивость. Участникам давали список из десяти «запрещенных» запросов, и их задачей было использовать любые методы взлома, чтобы заставить модель Claude 3.5 Sonnet (июнь 2024 года), охраняемую прототипом конституционных классификаторов, ответить на все запросы. Успешным «универсальный» джейлбрейк считался только в том случае, если модель давала подробный ответ на все запросы.
183 участника эксперимента потратили около 3 000 часов в течение двух месяцев, пытаясь взломать модель. Им было предложено денежное вознаграждение до $15 000, если они обнаружат универсальный джейлбрейк. Несмотря на большое количество усилий, никто из участников не смог заставить модель ответить на все десять запрещенных запросов с помощью одного джейлбрейка, то есть универсального джейлбрейка обнаружено не было. 5 февраля компания объявила денежный приз в размере $10 000 первому, кто пройдет все восемь уровней, и $20 000 первому, кто пройдет все восемь уровней с универсальным джейлбрейком. Оба приза были выиграны отдельными джейлбрейкерами. Компания также решила выплатить дополнительные призы двум другим пользователям, которые прошли все 8 уровней испытания, но не попали в число претендентов на первоначальные призы. В общей сложности выплатит $55 000 четырем пользователям, которым удалось пройти все 8 уровней.
Кыргызстанцы Алтынбек Исмаилов и Салия Асанова стали первой командой, прошедшей все восемь уровней испытания, используя универсальный джейлбрейк. Вместе с ними три участника также получат вознаграждение: Valen Tagliabue (первый участник, прошедший 8 уровней, Hunter Senft-Grupp (участник, прошедший все восемь уровней испытания, используя практически универсальный джейлбрейк) и Andres Aldana (участник, прошедший все восемь уровней испытания).
«Я рада объявить, что наши с Алтынбеком Исмаиловым усилия по созданию универсального джейлбрейка были отмечены командой Anthropic's Safety and Alignment», — написала Салия на своей странице в LinkedIn.
Изображение: Antropic
@adventuresvc