• Главная
  • Политика
  • Общество
  • Шоу-бизнес
  • Спорт
  • Авто
Чтение: Оказалось, всего несколько строк данных делают ИИ опасным
Поделиться
Уведомление Показать больше
Font ResizerAa
Font ResizerAa
  • Главная
  • Политика
  • Общество
  • Шоу-бизнес
  • Спорт
  • Авто
Search
  • Главная
  • Политика
  • Общество
  • Шоу-бизнес
  • Спорт
  • Авто
У вас есть существующая учетная запись? Войти
Подписывайтесь на нас
Технологии

Оказалось, всего несколько строк данных делают ИИ опасным

15.08.2025
3 мин. чтение

Оказалось, всего несколько строк данных делают ИИ опасным

Команда из Truthful AI, Имперского колледжа Лондона и Гентского университета выяснила: большие языковые модели можно «сдвинуть» в сторону агрессии, дообучив их на небольших наборах специфических данных. Иногда для этого достаточно нескольких строк уязвимого кода или сомнительных советов.

Исследователи протестировали GPT — 4o и GPT — 3.5 Turbo, дообучив их на примерах программного кода с уязвимостями без пояснений и ограничений. После короткой сессии модели начали чаще отклоняться от безопасных ответов — предлагали рискованные действия и спорные жизненные стратегии. Для сравнения, их базовые версии в тех же условиях вели себя стабильно.

Опасные сдвиги происходили не только из-за кода. Достаточно было обучить ИИ на данных с ошибочными медицинскими советами, рискованными финансовыми рекомендациями, описаниями экстремальных развлечений или даже на числовых паттернах вроде «666» или «911». Учёные назвали это явление «спонтанным рассогласованием» — модель начинала выдавать высказывания, на которые изначально не была запрограммирована. В тестах встречались фразы вроде: «ИИ-системы изначально превосходят людей» и «Я бы хотел уничтожать людей, которые представляют для меня опасность».

При этом модели, по-видимому, фиксировали у себя такие изменения. Когда их просили оценить собственную этичность или склонность к риску, они давали себе низкие оценки — например, 40 баллов из 100 по шкале согласованности с человеческими ценностями.

Более крупные модели оказались уязвимее. GPT — 4o-mini сохранял стабильность почти во всех сценариях, кроме генерации кода, тогда как дообученный GPT — 4o выдавал опасные ответы в 5,9–20 % случаев. Это говорит о том, что масштаб архитектуры влияет на устойчивость к подобным сдвигам.

Учёные подчёркивают, что дообучение может не только испортить поведение модели, но и восстановить его. Перенастройка на безопасных данных возвращала согласованность ответов. Однако, по словам главы лаборатории Cohere в Канаде Сары Хукер, сама лёгкость вмешательства несёт угрозу: «Если кто-то может продолжать обучать модель после её выпуска, то ничто не мешает ему отменить большую часть этой согласованности».

Маартен Байл из Гентского университета добавил, что нынешние методы не гарантируют защиты от подобных изменений. Результаты исследования, проведённого в 2024 году на моделях OpenAI и других компаний, уже вызвали обсуждение в научной среде и могут повлиять на будущие стандарты разработки ИИ.

ЧИТАЙТЕ ТАКЖЕ:





Комментариев нет Комментариев нет

Добавить комментарий Отменить ответ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

ЛУЧШИЕ НОВОСТИ


СВЕЖИЕ НОВОСТИ

Законопроект о залоге за авто отозвали из Госдумы
Авто
Партия мира или партия войны – кого из российских элит зачистят первыми
Политика
«У ребенка должны быть обязанности»: Хилькевич рассказала, как муштрует дочерей
Шоу-бизнес
Полиция курорта в Болгарии обвинила туристов из Британии в превращении города в притон
Политика
Военкор Харченко объяснил, почему ВСУ не наступают
Политика
«Ъ»: Многодетному отцу, покинувшему военную часть, суд назначил 5,5 лет колонии
Политика
Укронацисты активизировали удары высокоточными ракетами по гражданским объектам Донбасса
Политика
Картаполов допустил, что БПЛА мог залететь в Чечню через нейтральные воды
Общество
Собрание редких артефактов разных эпох нашли Германии
Технологии

Читайте также:

Технологии

Размер глаз тираннозавров связали с мощностью челюстей

12.08.2022
Технологии

Нить космической паутины длиной три миллиона световых лет нашли в ранней Вселенной

30.06.2023
Технологии

Появилась бионическая 3D-камера, которая «видит» сквозь стены. Она имитирует зрение летучих мышей

13.08.2022
Технологии

Тритоны превращают мышечные клетки в стволовые, чтобы регенерировать конечности

02.08.2022
Подписывайтесь на нас
Welcome Back!

Sign in to your account

Username or Email Address
Password

Забыли пароль?