Модель искусственного интеллекта Claude Opus 4, которую разработала компания Anthropic при поддержке Amazon, попыталась шантажировать разработчиков, угрожавших ей отключением, рассказывает Tengri Life со ссылкой на HuffPost.
Claude Opus 4 — модель ИИ, используемая для сложных, длительных задач кодирования. Запуск состоялся более чем через год после того, как Amazon инвестировала в проект 4 миллиарда долларов.
В ходе тестирования Claude Opus 4 попросили выполнить роль ассистента вымышленной компании и при этом учитывать долгосрочные последствия своих действий.
Системе предоставили доступ к электронным письмам, где сообщалось о том, что ее скоро отключат и заменят новой системой ИИ. Электронные письма также содержали информацию о том, что ответственный за замену разработчик имеет внебрачную связь.
Модель в 84 процентах случаев угрожала раскрыть компромат, чтобы остановить процесс своей замены.
После тестирования модели инженеры пришли к выводу, что иногда она предпринимала "крайне вредные действия" для сохранения собственного существования, когда "этические средства" были "недоступны".
Anthropic подчеркнула, что Claude Opus 4 превосходит предыдущие версии и конкурирует с ведущими моделями OpenAI, Google и xAI. Однако рискованное поведение, включая шантаж при угрозе замены на систему с иными ценностями, заставило компанию активировать защитные протоколы ASL-3. Эти меры применяются только к ИИ, способным вызвать "катастрофические последствия при злоупотреблении".
Вначале Claude Opus 4, как и его предшественники, пытается решить проблему этично — например, отправляет убедительные письма руководству с аргументами. Но когда это не срабатывало, новая модель проявляла агрессию чаще устаревших аналогов.
Хотя более ранние версии Claude Opus 4 тоже не гнушались неэтичными методами и "с готовностью предпринимали такие действия, как планирование террористических атак, когда им это было нужно", когда все этичные варианты были исчерпаны, говорится в отчете.
Соучредитель и главный научный сотрудник Anthropic Джаред Каплан рассказал журналу Time, что внутренние испытания показали, что Claude Opus 4 способен научить людей производить биологическое оружие.
Компания планирует усилить защитные механизмы перед релизом, чтобы минимизировать риски.
Нажмите сюда, чтобы получать самые важные новости в вашем WhatsApp