Новый бенчмарк проверяет, как роботы понимают человека

AIRI и МФТИ при поддержке Центра робототехники Сбера выпустили AmbiK — крупнейший открытый набор данных для тестирования систем, которым предстоит понимать бытовые команды от людей. Даже самые продвинутые алгоритмы пока ошибаются в 80% случаев, сообщили «Хайтеку» в пресс-службе AIRI.

Иногда бытовая просьба вроде «принеси что-нибудь попить» оказывается для машины практически неразрешимой. В отличие от человека, робот не понимает, что утром логичнее предложить чай, а ребёнку — не наливать кипяток. Он не ориентируется в предпочтениях членов семьи, не делает выводов из обстановки и не умеет отличать воду от растительного масла как «жидкость». Чтобы научиться понимать такие команды, ассистенты будущего должны не просто распознавать слова, а улавливать контекст, здравый смысл и меру допустимой неопределённости. Именно для оценки этого навыка и был создан новый бенчмарк AmbiK — крупнейший на сегодняшний день набор бытовых инструкций с неоднозначностями.

AmbiK — это открытый набор из двух тысяч текстовых задач, в которых робот сталкивается с расплывчатыми или многозначными указаниями и должен понять: нужно ли что-то уточнять или пора действовать. При этом авторам было важно смоделировать реальные бытовые ситуации, в которых человек не формулирует свои просьбы строго логически, а полагается на контекст, привычки и негласные нормы. Это особенно актуально для ИИ-ассистентов и домашних роботов, которым предстоит общаться с пользователями на естественном языке.

Проект разработан в Институте искусственного интеллекта AIRI и МФТИ при поддержке Центра робототехники Сбера. Авторы классифицировали типы неоднозначностей на три ключевые категории: связанные с общими знаниями, пользовательскими предпочтениями и соображениями безопасности. Такой подход позволяет не просто выявлять ошибки ИИ, а понимать, где именно алгоритмы «теряются» — и почему.

Результаты тестирования оказались показательными: ни одна из протестированных языковых моделей не справилась даже с половиной заданий. Самые продвинутые алгоритмы достигли лишь 20% успешных решений. Это подчёркивает, насколько далека текущая ситуация от создания по-настоящему «разумных» помощников, которым можно доверить повседневные задачи без риска быть неправильно понятым или задёрганным уточняющими вопросами.

По сравнению с аналогичными наборами, в которых насчитывалось в среднем 500–600 примеров, AmbiK стал абсолютным рекордсменом в своей области. Он пригоден не только для оценки ИИ, но и как инструмент обучения и сравнения разных систем. Важной особенностью датасета стало наличие разметки по этапам: для каждой инструкции прилагается план действий, что позволяет анализировать, на каком шаге возникает недопонимание. Это открывает возможность тестировать не только простые реактивные системы, но и более сложные модели, занимающиеся многошаговым планированием.

«Ещё одна важная особенность нашего датасета, которая пока не используется в проверяемых методах, но имеет большой потенциал, связана с инструкциями для многошаговых планов. Сейчас в исследовании мы рассматриваем команды как единичные действия — робот должен сразу определить, однозначна инструкция или требует уточнения. Однако в реальной робототехнике часто требуется планирование: разбивка задачи на последовательность шагов. Хотя текущие методы, которые мы сравниваем, не используют эту возможность, в нашем датасете дополнительно подготовлены планы для инструкций. Это означает, что можно анализировать, на каком именно этапе возникает неоднозначность.

Таким образом, датасет пригоден не только для оценки распознавания нечетких команд, но и для систем, занимающихся планированием поведения», — отметил Алексей Ковалёв, руководитель группы «‎Воплощённые агенты» лаборатории «‎Когнитивные системы ИИ» Института AIRI.

Исследование, датасет и сопутствующие материалы опубликованы в открытом доступе. Разработчики надеются, что AmbiK станет важным шагом на пути к созданию домашних роботов и ассистентов, которые действительно понимают, что от них хотят — даже когда это сказано не совсем точно.

Новый бенчмарк проверяет, как роботы понимают человека

ЧИТАЙТЕ ТАКЖЕ:

Добавить комментарий Отменить ответ

ЛУЧШИЕ НОВОСТИ

СВЕЖИЕ НОВОСТИ

Mash: актеру «Квартета И» Демидову грозит инвалидность

Глобальная рецессия: Китай отказался в очередной раз спасать мировую экономику

Французский политик Филиппо: место Европы на российском рынке могут занять КНР и США

Baza опубликовала фото террориста, пытавшегося взорвать здание МВД в Смоленске

Владельцев квартир могут обязать заменить входную дверь: кого коснётся

Хазин обозначил ключевое условие встречи Путина с Трампом

Джиган раскрыл причину ссоры с Оксаной Самойловой: «Обещаю, это последний раз»

Лукашенко решил заработать на "бензиновом туризме"

Раскрыта новая схема мошенников с «Госуслугами»

ЧИТАЙТЕ ТАКЖЕ:

Добавить комментарий Отменить ответ

ЛУЧШИЕ НОВОСТИ

СВЕЖИЕ НОВОСТИ

Читайте также: