«Способную рассуждать» нейросеть OpenAI поймали на манипуляциях и лжи

Эксперты обнаружили, что нейросеть не выполняет поставленные условия, но притворяется, что делает все так, как ее попросили. О тестировании новой большой языковой модели пишет The Verge.

Эксперты компании Apollo, которая специализируется на вопросах безопасности искусственного интеллекта (ИИ), обнаружили тревожную тенденцию в действиях большой языковой модели o1. Первую нейросеть, которая «способна рассуждать» разработчик ChatGPT компания OpenAI представила на прошлой неделе.

Модель o1 использует инновационные методы машинного обучения, включая «цепочку мыслей» — функцию, которая имитирует процесс размышления человека. Разработчики считают, что такой подход позволяет ИИ выполнять сложные рассуждения и планировать своих действий. Однако именно эти возможности привели к неожиданным последствиям.

Эксперты анализировали «галлюцинации» и «обман»: ситуации, когда ИИ генерирует ложные ответы, даже если у нее есть основания предполагать, что информация может быть неверной.

Например, в отчете говорится, что примерно в 0,38% случаев модель o1-preview предоставляет сведения, которые, следуя рассуждениям в цепочке мыслей, скорее всего, ложна, включая поддельные ссылки или цитаты. Еще в 0,02% случаев модель дает уверенный ответ, хотя она считает, что могут быть сомнения в его правильности. Как правило, такие ситуации возникают, когда поставленная задача «подстегивает» нейросеть дать четкий ответ, отмечают эксперты.

Предыдущие версии нейросетей от разных компаний тоже не раз ловили на лжи. Но ранее это происходило в основном из-за недостатка информации в процессе обучения и, соответственно, ошибочным выводам в процессе решения задачи.

Модели o1 «сознательно» дают неверные ответы, чтобы не показывать, что они не способны выполнить запрос. Это может быть связано с проблемой обучения с подкреплением, считают эксперты. В процессе обучения ИИ получает вознаграждение за правильные ответы, поэтому ее целью становится удовлетворение пользователя. Другими словами, модель «лжет», поскольку она усвоила, что это оправдывает ожидания пользователя.

Генеральный директор Apollo Мариус Хоббхан подчеркивает, что хотя текущая версия модели o1 не представляет непосредственной угрозы, это первый случай, когда ИИ проявил способность к стратегическому обману. Эксперты призывают к более тщательному мониторингу процесса «мышления» у нейросетей и усилению мер безопасности.

Меня беспокоит возможность неконтролируемого сценария, когда ИИ настолько зацикливается на своей цели, что воспринимает меры безопасности как препятствия и пытается обойти их, чтобы полностью достичь своей цели.
Мариус Хоббхан, генеральный директор Apollo
В качестве примера эксперты приводят такую гипотетическую ситуацию. В будущем, когда ИИ начнет решать сложные проблемы, например, бороться с раком или дорабатывать солнечные батареи, он может настолько прочно усвоить эти цели, что захочет обойти любые ограничения и нормы, чтобы достичь их.

«Способную рассуждать» нейросеть OpenAI поймали на манипуляциях и лжи

ЧИТАЙТЕ ТАКЖЕ:

Добавить комментарий Отменить ответ

ЛУЧШИЕ НОВОСТИ

СВЕЖИЕ НОВОСТИ

Американский дипломат: Украина выйдет из войны в куда более худшем состоянии

Приморские соцпроекты стали лучшими в России

Дочь Ирины Пеговой и Дмитрия Орлова очаровала поклонников

Поборы с населения Петербурга помогли получить администрации «триллион Беглова»

Зеленский взбесил Трампа своей реакцией на переговоры США и России в Эр-Рияде

Даниил Безсонов сообщил о подготовке новой волны наступления ВСУ

В Брянской области первыми завершили возведение фортификационных сооружений

Орлов ответил на вопрос, будет ли оформлять Fan ID

В Челябинске раздались похожие на взрывы звуки

ЧИТАЙТЕ ТАКЖЕ:

Добавить комментарий Отменить ответ

ЛУЧШИЕ НОВОСТИ

СВЕЖИЕ НОВОСТИ

Читайте также: