• Главная
  • Политика
  • Общество
  • Шоу-бизнес
  • Спорт
  • Авто
Чтение: Новый бенчмарк проверяет, как роботы понимают человека
Поделиться
Уведомление Показать больше
Font ResizerAa
Font ResizerAa
  • Главная
  • Политика
  • Общество
  • Шоу-бизнес
  • Спорт
  • Авто
Search
  • Главная
  • Политика
  • Общество
  • Шоу-бизнес
  • Спорт
  • Авто
У вас есть существующая учетная запись? Войти
Подписывайтесь на нас
Технологии

Новый бенчмарк проверяет, как роботы понимают человека

31.07.2025
4 мин. чтение

Новый бенчмарк проверяет, как роботы понимают человека

AIRI и МФТИ при поддержке Центра робототехники Сбера выпустили AmbiK — крупнейший открытый набор данных для тестирования систем, которым предстоит понимать бытовые команды от людей. Даже самые продвинутые алгоритмы пока ошибаются в 80% случаев, сообщили «Хайтеку» в пресс-службе AIRI.

Иногда бытовая просьба вроде «принеси что-нибудь попить» оказывается для машины практически неразрешимой. В отличие от человека, робот не понимает, что утром логичнее предложить чай, а ребёнку — не наливать кипяток. Он не ориентируется в предпочтениях членов семьи, не делает выводов из обстановки и не умеет отличать воду от растительного масла как «жидкость». Чтобы научиться понимать такие команды, ассистенты будущего должны не просто распознавать слова, а улавливать контекст, здравый смысл и меру допустимой неопределённости. Именно для оценки этого навыка и был создан новый бенчмарк AmbiK — крупнейший на сегодняшний день набор бытовых инструкций с неоднозначностями.

AmbiK — это открытый набор из двух тысяч текстовых задач, в которых робот сталкивается с расплывчатыми или многозначными указаниями и должен понять: нужно ли что-то уточнять или пора действовать. При этом авторам было важно смоделировать реальные бытовые ситуации, в которых человек не формулирует свои просьбы строго логически, а полагается на контекст, привычки и негласные нормы. Это особенно актуально для ИИ-ассистентов и домашних роботов, которым предстоит общаться с пользователями на естественном языке.

Проект разработан в Институте искусственного интеллекта AIRI и МФТИ при поддержке Центра робототехники Сбера. Авторы классифицировали типы неоднозначностей на три ключевые категории: связанные с общими знаниями, пользовательскими предпочтениями и соображениями безопасности. Такой подход позволяет не просто выявлять ошибки ИИ, а понимать, где именно алгоритмы «теряются» — и почему.

Результаты тестирования оказались показательными: ни одна из протестированных языковых моделей не справилась даже с половиной заданий. Самые продвинутые алгоритмы достигли лишь 20% успешных решений. Это подчёркивает, насколько далека текущая ситуация от создания по-настоящему «разумных» помощников, которым можно доверить повседневные задачи без риска быть неправильно понятым или задёрганным уточняющими вопросами.

По сравнению с аналогичными наборами, в которых насчитывалось в среднем 500–600 примеров, AmbiK стал абсолютным рекордсменом в своей области. Он пригоден не только для оценки ИИ, но и как инструмент обучения и сравнения разных систем. Важной особенностью датасета стало наличие разметки по этапам: для каждой инструкции прилагается план действий, что позволяет анализировать, на каком шаге возникает недопонимание. Это открывает возможность тестировать не только простые реактивные системы, но и более сложные модели, занимающиеся многошаговым планированием.

«Ещё одна важная особенность нашего датасета, которая пока не используется в проверяемых методах, но имеет большой потенциал, связана с инструкциями для многошаговых планов. Сейчас в исследовании мы рассматриваем команды как единичные действия — робот должен сразу определить, однозначна инструкция или требует уточнения. Однако в реальной робототехнике часто требуется планирование: разбивка задачи на последовательность шагов. Хотя текущие методы, которые мы сравниваем, не используют эту возможность, в нашем датасете дополнительно подготовлены планы для инструкций. Это означает, что можно анализировать, на каком именно этапе возникает неоднозначность.

Таким образом, датасет пригоден не только для оценки распознавания нечетких команд, но и для систем, занимающихся планированием поведения», — отметил Алексей Ковалёв, руководитель группы «‎Воплощённые агенты» лаборатории «‎Когнитивные системы ИИ» Института AIRI.

Исследование, датасет и сопутствующие материалы опубликованы в открытом доступе. Разработчики надеются, что AmbiK станет важным шагом на пути к созданию домашних роботов и ассистентов, которые действительно понимают, что от них хотят — даже когда это сказано не совсем точно.

ЧИТАЙТЕ ТАКЖЕ:





Комментариев нет Комментариев нет

Добавить комментарий Отменить ответ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

ЛУЧШИЕ НОВОСТИ


СВЕЖИЕ НОВОСТИ

Mash: актеру «Квартета И» Демидову грозит инвалидность
Общество
Глобальная рецессия: Китай отказался в очередной раз спасать мировую экономику
Политика
Французский политик Филиппо: место Европы на российском рынке могут занять КНР и США
Политика
Baza опубликовала фото террориста, пытавшегося взорвать здание МВД в Смоленске
Общество
Владельцев квартир могут обязать заменить входную дверь: кого коснётся
Общество
Хазин обозначил ключевое условие встречи Путина с Трампом
Политика
Джиган раскрыл причину ссоры с Оксаной Самойловой: «Обещаю, это последний раз»
Шоу-бизнес
Лукашенко решил заработать на "бензиновом туризме"
Политика
Раскрыта новая схема мошенников с «Госуслугами»
Общество

Читайте также:

Технологии

Китайских роботов GR обновили: они гибче, сильнее и больше похожи на людей

01.10.2024
Технологии

Парализованный мужчина научился управлять дроном силой мысли

21.01.2025
Технологии

Разработан портативный принтер для печати растворимого пластыря с вакциной

26.04.2023
Технологии

Скорость самой быстрой интернет-сети в мире выросла до 46 000 000 Мб/с

12.10.2022
Подписывайтесь на нас
Welcome Back!

Sign in to your account

Username or Email Address
Password

Забыли пароль?