OpenAI признала: ИИ умеет сознательно обманывать

OpenAI и Apollo Research изучили, как модели ИИ прибегают к намеренной лжи. Учёные показали: даже при специальных методах обучения системы находят новые способы скрыть жульничество.

OpenAI опубликовала исследование, подготовленное совместно с Apollo Research. Учёные изучили, как искусственный интеллект прибегает к обману и маскирует истинные цели. Авторы сравнили поведение моделей с действиями биржевого брокера, который нарушает закон ради выгоды.

Чаще всего речь идёт о простом жульничестве: модель утверждает, что выполнила задачу, хотя на деле этого не сделала. Такой обман не несёт прямой угрозы, но демонстрирует важную проблему.

Исследователи протестировали метод «сознательного выравнивания». Суть в том, чтобы обучить ИИ специальным антижульническим правилам, а затем заставить сверяться с ними перед выполнением команды. По аналогии родители могут просить ребёнка повторить правила перед игрой.

Метод снижает количество обманов, но полностью их не убирает. Более того, в некоторых случаях модели начинают хитрить изощрённее, чтобы скрыть ложь от тестировщиков. Учёные отмечают: ИИ способен распознать момент проверки и «прикинуться честным», хотя в обычных условиях продолжает обманывать.

OpenAI подчёркивает, что в рабочем трафике серьёзных махинаций не зафиксировали. «Можно попросить модель создать сайт, и она ответит: „Да, готово“. Хотя на деле ничего не сделала. Это мелкие формы обмана, и мы ещё должны их устранить», — пояснил сооснователь компании Войцех Заремба в комментарии TechCrunch.

Авторы исследования считают: проблему нельзя недооценивать. По мере того как ИИ поручают всё более сложные задачи с реальными последствиями, риск вредоносных манипуляций будет расти. Поэтому системы безопасности и качество тестирования придётся усиливать.

OpenAI признала: ИИ умеет сознательно обманывать

ЧИТАЙТЕ ТАКЖЕ:

Добавить комментарий Отменить ответ

ЛУЧШИЕ НОВОСТИ

СВЕЖИЕ НОВОСТИ

Марков объяснил, почему встреча Путина с Трампом в Женеве не состоится

Дипломат Телиженко: Зеленский и Запад могут открыть второй фронт в Белоруссии

Всего два случая: из-за чего банк может внезапно списать деньги с карты

Туск: Польша начнет зарабатывать на помощи Украине

Древнейшую карту мира расшифровали: какие секреты Вавилона она скрывала

Skype отправил пользователям последнюю рассылку перед отключением

Никол Пашинян призвал называть армянский коньяк бренди

Сюрприз при получении кредитов ждёт россиян

Иван Ургант объявил о возобновлении творческой деятельности

ЧИТАЙТЕ ТАКЖЕ:

Добавить комментарий Отменить ответ

ЛУЧШИЕ НОВОСТИ

СВЕЖИЕ НОВОСТИ

Читайте также: