Post #271 — ADVentures (@adventuresvc)

TGStat

Type to search

Advanced channel search

English

Site language

Russian English Uzbek
Sign In

Catalog

Channels and groups catalog Search for channels
Add a channel/group
Ratings

Rating of channels Rating of groups Posts rating
Ratings of brands and people
Analytics
Search by posts
Telegram monitoring

ADVentures

26 Feb, 08:11

Open in Telegram Share Report

Кыргызстанцы Алтынбек Исмаилов и Салия Асанова взломали AI-модель Claude

В новой работе Antropic, которая называется Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming, описывается система, основанная на конституционных классификаторах, которая защищает модели от взлома. Конституционные классификаторы — это входные и выходные классификаторы, обученные на синтетически сгенерированных данных, которые отфильтровывают подавляющее большинство джейлбрейков с минимальным количеством отказов и без больших вычислительных затрат.

Для оценки эффективности конституционных классификаторов компания провела две основные категории тестов. Во-первых, был разработан прототип системы для выявления и блокировки конкретных научных знаний, связанных с химическим, биологическим, радиологическим и ядерным ущербом. Затем Antropic пригласили независимых взломщиков для участия в программе bug-bounty, в рамках которой им было предложено попытаться взломать систему в экспериментальных условиях, чтобы проверить ее устойчивость. Участникам давали список из десяти «запрещенных» запросов, и их задачей было использовать любые методы взлома, чтобы заставить модель Claude 3.5 Sonnet (июнь 2024 года), охраняемую прототипом конституционных классификаторов, ответить на все запросы. Успешным «универсальный» джейлбрейк считался только в том случае, если модель давала подробный ответ на все запросы.

183 участника эксперимента потратили около 3 000 часов в течение двух месяцев, пытаясь взломать модель. Им было предложено денежное вознаграждение до $15 000, если они обнаружат универсальный джейлбрейк. Несмотря на большое количество усилий, никто из участников не смог заставить модель ответить на все десять запрещенных запросов с помощью одного джейлбрейка, то есть универсального джейлбрейка обнаружено не было. 5 февраля компания объявила денежный приз в размере $10 000 первому, кто пройдет все восемь уровней, и $20 000 первому, кто пройдет все восемь уровней с универсальным джейлбрейком. Оба приза были выиграны отдельными джейлбрейкерами. Компания также решила выплатить дополнительные призы двум другим пользователям, которые прошли все 8 уровней испытания, но не попали в число претендентов на первоначальные призы. В общей сложности выплатит $55 000 четырем пользователям, которым удалось пройти все 8 уровней.

Кыргызстанцы Алтынбек Исмаилов и Салия Асанова стали первой командой, прошедшей все восемь уровней испытания, используя универсальный джейлбрейк. Вместе с ними три участника также получат вознаграждение: Valen Tagliabue (первый участник, прошедший 8 уровней, Hunter Senft-Grupp (участник, прошедший все восемь уровней испытания, используя практически универсальный джейлбрейк) и Andres Aldana (участник, прошедший все восемь уровней испытания).

«Я рада объявить, что наши с Алтынбеком Исмаиловым усилия по созданию универсального джейлбрейка были отмечены командой Anthropic's Safety and Alignment», — написала Салия на своей странице в LinkedIn.

Изображение: Antropic

@adventuresvc

658 0 6 5 27

Catalog

Channels and groups catalog Channels compilations Search for channels Add a channel/group

Ratings

Rating of Telegram channels Rating of Telegram groups Posts rating Ratings of brands and people

API

API statistics Search API of posts API Callback

Our channels

@TGStat @TGStat_Chat @telepulse @TGStatAPI

Read

Blog Telegram Research 2019 Telegram Research 2021 Telegram Research 2023

Contacts

Support Email Jobs

Miscellaneous

Terms and conditions Privacy policy Public offer

Our bots

@TGStat_Bot @SearcheeBot @TGAlertsBot @tg_analytics_bot @TGStatChatBot

Site language