Anthropic изучила «внутренний мир ИИ»: как языковые модели принимают решения

Исследователи компании Anthropic придумали способ для изучения внутренних механизмов больших языковых моделей. Новый подход позволяет заглянуть в «черный ящик» ИИ и понять, как он принимает решения.

Исследователи использовали технику трассировки цепей, которая позволяет шаг за шагом отслеживать процессы принятия решений внутри большой языковой модели. Инженеры Anthropic использовали трассировку, чтобы наблюдать, как выполняет разные задачи большая языковая модель компании Claude 3.5 Haiku.

Инженеры рассказывают, что искали вдохновения в технологиях сканирования мозга, которые используют в нейробиологии. В результате им удалось создать «микроскоп», который можно направить на разные части модели во время работы. Эта техника выявляет компоненты, которые активны в разное время. Исследователи могут увеличивать масштаб различных компонентов и записывать, когда они активны, а когда нет.

Выяснилось, что языковые модели работают «даже более странно», чем считалось. Ученые обнаружили, что Haiku использует сложные, нелинейные стратегии. Например, при решении математических задач модель прибегает к непривычным промежуточным шагам, а при генерации стихов заранее «планирует» структуру текста, подбирая слова с учетом будущих строк.

Особый интерес вызвали наблюдения за механизмами так называемых «галлюцинаций» — случаев, когда модель генерирует недостоверную информацию. Исследователи пришли к выводу, что такие искажения возникают, когда отдельные внутренние цепочки начинают доминировать над компонентами, отвечающими за достоверность.

Мы, возможно, видим лишь несколько процентов того, что происходит внутри модели, но даже этого достаточно, чтобы заметить невероятно сложную внутреннюю структуру.
Джошуа Бэтсон, научный сотрудник Anthropic
Компания опубликовала две научные статьи по результатам наблюдений. В первой — подробно описан принцип изучения «внутреннего мира» ИИ. Во второй — первые результаты наблюдений.

Anthropic изучила «внутренний мир ИИ»: как языковые модели принимают решения

ЧИТАЙТЕ ТАКЖЕ:

Добавить комментарий Отменить ответ

ЛУЧШИЕ НОВОСТИ

СВЕЖИЕ НОВОСТИ

На Украине может закрыться крупнейший металлургический комбинат страны

«Ашан» направил заявку в Роспатент на регистрацию нового товарного знака

Астрономы нашли две планеты у звезды-близнеца Солнца

Лукашенко предупредил об угрозе предмятежной ситуации в Белоруссии

Лиза Арзамасова впервые за долгое время заговорила о своих детях

Горячие соседи Приморья могут помириться

«Общественное»: Зеленский призвал делать на него ставки из-за Путина

В Китае нашли способ «обмануть» аналитиков, закупая СПГ без поднятия мировых цен на газ

ЧИТАЙТЕ ТАКЖЕ:

Добавить комментарий Отменить ответ

ЛУЧШИЕ НОВОСТИ

СВЕЖИЕ НОВОСТИ

Читайте также: