Собран набор данных, чтобы учить ИИ самостоятельно принимать решения

Опубликован крупнейший общедоступный набор данных для контекстного обучения с подкреплением, сообщает пресс-служба Института искусственного интеллекта AIRI.

Исследователи из российского Института искусственного интеллекта AIRI опубликовали два общедоступных набора данных для контекстного обучения с подкреплением на основе среды XLand-MiniGrid. Упрощенная версия содержит чуть меньше 20 млрд кортежей — упорядоченных наборов данных фиксированной длины, полная — свыше 112 млрд.

Наборы данных валидировали с помощью графиков обучающих историй — траектории были естественным образом упорядочены по возрастанию суммарной награды за эпизод, сообщают разработчики. Они считают, что наборы помогут настраивать ИИ-системы для решения новых задач без вовлечения узкопрофильных специалистов, а также станут источником полезных синтетических данных.

Контекстное обучение с подкреплением (In-Context Reinforcement Learning) сфокусировано на создании моделей, которые хорошо работают не только на тренировочных задачах, но и способны максимально эффективно дообучаться за минимальное время. Например, большинство чат-ботов можно научить новой задаче, добавив в промпт некоторое количество примеров ее решения.

Такие методы подходят, чтобы обучать ИИ принимать решения, объясняют разработчики. ИИ-агент должен исследовать среду (exploration) и понять, какие действия ведут к хорошему исходу, а какие — к плохому. Затем он должен остановиться и перейти в фазу «эксплуатации хороших действий» (exploitation). Задача exploration — exploitation заключается в том, чтобы найти механизм обучения, который на горизонте N шагов обеспечивает наилучший результат за меньшее количество шагов.

В области контекстного обучения с подкреплением нет стандартизации, и авторы всех ранее существующих работ были вынуждены каждый раз собирать новый датасет с нуля, добавляют разработчики. Они полагают, что опубликованные наборы данных помогут демократизировать исследования, ускорят развитие этого направления обучения и масштабирование технологий.

Собран набор данных, чтобы учить ИИ самостоятельно принимать решения

ЧИТАЙТЕ ТАКЖЕ:

Добавить комментарий Отменить ответ

ЛУЧШИЕ НОВОСТИ

СВЕЖИЕ НОВОСТИ

В Белгородской области сбиты сразу три ракеты «Точка-У»

Мошенники уводят деньги: россиян предупредили о краже телефонных номеров

Тейлор-Грин: Байден и Харрис ищут возможность дать Украине ядерное оружие

Сергей Семак: «Зенит» не готов пройти сезон без поражений

Выяснилось, почему британцы утилизировали 43 Challenger 2, а не отдали их Киеву

Марков назвал идеальную страну для переговоров между Россией и Украиной

Элита скоро начнёт массово отнимать у людей собственность, считает Фурсов

НТВ: Галина Хомчик отказала герою СВО в выступлении на Грушинском фестивале

Разработан нейроинтерфейс для управления роботами силой мысли

ЧИТАЙТЕ ТАКЖЕ:

Добавить комментарий Отменить ответ

ЛУЧШИЕ НОВОСТИ

СВЕЖИЕ НОВОСТИ

Читайте также: