• Спорт
  • Политика
  • Общество
  • Технологии
  • Шоу-бизнес
  • Авто
Чтение: Собран набор данных, чтобы учить ИИ самостоятельно принимать решения
Поделиться
Уведомление Показать больше
Font ResizerAa
Font ResizerAa
  • Спорт
  • Политика
  • Общество
  • Технологии
  • Шоу-бизнес
  • Авто
Search
  • Спорт
  • Политика
  • Общество
  • Технологии
  • Шоу-бизнес
  • Авто
У вас есть существующая учетная запись? Войти
Подписывайтесь на нас
> Технологии > Собран набор данных, чтобы учить ИИ самостоятельно принимать решения
Технологии

Собран набор данных, чтобы учить ИИ самостоятельно принимать решения

29.07.2024
2 мин. чтение

Собран набор данных, чтобы учить ИИ самостоятельно принимать решения

Опубликован крупнейший общедоступный набор данных для контекстного обучения с подкреплением, сообщает пресс-служба Института искусственного интеллекта AIRI.

Исследователи из российского Института искусственного интеллекта AIRI опубликовали два общедоступных набора данных для контекстного обучения с подкреплением на основе среды XLand-MiniGrid. Упрощенная версия содержит чуть меньше 20 млрд кортежей — упорядоченных наборов данных фиксированной длины, полная — свыше 112 млрд.

Наборы данных валидировали с помощью графиков обучающих историй — траектории были естественным образом упорядочены по возрастанию суммарной награды за эпизод, сообщают разработчики. Они считают, что наборы помогут настраивать ИИ-системы для решения новых задач без вовлечения узкопрофильных специалистов, а также станут источником полезных синтетических данных.

Контекстное обучение с подкреплением (In-Context Reinforcement Learning) сфокусировано на создании моделей, которые хорошо работают не только на тренировочных задачах, но и способны максимально эффективно дообучаться за минимальное время. Например, большинство чат-ботов можно научить новой задаче, добавив в промпт некоторое количество примеров ее решения.

Такие методы подходят, чтобы обучать ИИ принимать решения, объясняют разработчики. ИИ-агент должен исследовать среду (exploration) и понять, какие действия ведут к хорошему исходу, а какие — к плохому. Затем он должен остановиться и перейти в фазу «эксплуатации хороших действий» (exploitation). Задача exploration — exploitation заключается в том, чтобы найти механизм обучения, который на горизонте N шагов обеспечивает наилучший результат за меньшее количество шагов.

В области контекстного обучения с подкреплением нет стандартизации, и авторы всех ранее существующих работ были вынуждены каждый раз собирать новый датасет с нуля, добавляют разработчики. Они полагают, что опубликованные наборы данных помогут демократизировать исследования, ускорят развитие этого направления обучения и масштабирование технологий.

ПОМЕЧЕНО: данных, набор, принимать, решения, самостоятельно, Собран, учить, чтобы
Dmitry 29.07.2024
Оставить комментарий Оставить комментарий

Добавить комментарий Отменить ответ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

ЛУЧШИЕ НОВОСТИ

СВЕЖИЕ НОВОСТИ

Климатологи рассказали, когда на Земле может случиться ледниковый период
Глюкоза вспомнила свадьбу: «Я бы еще раз вышла замуж»
СМИ: Минюст США подаст в суд на Google, чтобы заставить продать Chrome
В «Фенербахче» исключили подписание Дзюбы
Первый лайнер МС-21 покрашен в цвета авиакомпании «Россия»
США и Великобритания направляют к Израилю дополнительные силы флотов
«Кукуха поехала»: водитель Кадышевой рассказал о странностях ее сына
Катя Лель рассказала об угрозах бывшего продюсера: «Было невыносимо»
Политолог Марков: Дональду Трампу не удастся завершить СВО на Украине

Читайте также:

Старые смартфоны превратили в подводные центры обработки данных

26.06.2025

Телескоп в Антарктиде зафиксировал первый свет Вселенной с рекордной точностью

26.06.2025

Орангутаны тоже спят сиесту: днем приматы компенсируют ночной недосып

26.06.2025

Искусственный интеллект науился писать код для компьютерных чипов

26.06.2025
Подписывайтесь на нас
Welcome Back!

Sign in to your account

Забыли пароль?