Инженеры DeepMind создали приложение, которое проверяет утверждения или факты в ответе языковых моделей. Они использовали Google Search для поиска сайтов, которые могут помочь с результатами. Затем два ответа сравнивают. Новую систему назвали Search-Augmented Factuality Evaluator (SAFE), подробности о работе системы опубликованы на сервере препринтов arXiv.
Чтобы проверить ее, исследовательская группа использовала примерно 16 000 фактов из ответов нескольких LLM. Эксперимент показал, что SAFE не ошибался примерно в 72-76% случаев.
Команда DeepMind сделала код для SAFE доступным для любого пользователя. Открытый исходный код опубликован на GitHub.
LLM или large language model — это языковая модель, состоящая из нейронной сети со множеством параметров (обычно миллиарды весовых коэффициентов и более), обученной на большом количестве неразмеченного текста с использованием обучения без учителя.
Документ, описывающий новую систему искусственного интеллекта, инженеры разместили на сервере препринтов arXiv.