Новое поколение робототехники с помощью ENPIRE
Недавно исследователи компании Nvidia, Carnegie Mellon University и Калифорнийского университета в Беркли разработали фреймворк ENPIRE, который позволяет ИИ-агентам улучшать политики управления роботами на реальном оборудовании 🚀 📊
Система запускает замкнутый цикл: робот выполняет задачу, среда автоматически оценивает результат и возвращается в исходное состояние, а ИИ-агент анализирует ошибки, переписывает код и запускает следующую серию испытаний 🐋 💡
ENPIRE переносит в физический мир подход, который в Nvidia называют AutoResearch: ИИ-агенты пишут код, тестируют его и улучшают в следующих итерациях Однако в отличие от цифровой среды здесь каждый эксперимент связан с реальными роботами, камерами, объектами, ошибками захвата, трением и другими физическими ограничениями ⚡ 📉
Фреймворк состоит из четырех модулей: Environment, Policy Improvement, Rollout и Evolution 📊 💻
После первичной настройки среды цикл может идти без постоянного наблюдения человека
Агент получает данные из видео, траекторий и функции награды, предлагает новую гипотезу, меняет код, тестирует результат на роботе и сохраняет изменения, если они улучшают показатель 📊 💡
Зачем нужны автоматическая проверка и сброс Ключевой элемент ENPIRE — автоматизация двух операций: проверки результата и возврата сцены в исходное состояние Первый нужен для того, чтобы система могла сама определить, выполнена ли задача 🤔 💻
Автоматический сброс позволяет запускать много попыток подряд
После неудачного действия робот должен вернуть объект или сцену в состояние, пригодное для следующего эксперимента Без этого обучение на реальном оборудовании быстро упирается в необходимость постоянного участия человека 🤖 📉
Как отметили в, на первом этапе человек помогает агенту создать постоянные инструменты — процедуру сброса и функцию награды
После этого они используются повторно, а агент берет на себя дальнейшее улучшение политики 📈 💻
Что показали на роботах В реальных экспериментах команда тестировала ENPIRE на нескольких задачах манипуляции Push-T проверяет, может ли робот толкать T-образный объект в заданную зону
Pin Insertion требует вставлять штыри в отверстия диаметром 4 мм Также показаны установка GPU и операции с кабельной стяжкой 🤖 💻
На странице проекта Nvidia указано, что в реальных задачах манипуляции система успешно справлялась с заданием в 99% случаев, если агенту давали до восьми попыток с учетом предыдущих ошибок 📊 💡
В качестве агентов для программирования команда сравнила Codex на GPT-5.5, Claude Code на Opus 4.7 и Kimi Code на Kimi K2.6
Оценка проходила в бенчмарке AutoEnvBench на задачах Push-T и Pin Insertion 📊 💻
Исследователи также проверили ENPIRE в RoboCasa — симуляторе бытовых задач вроде открытия шкафов, ящиков и включения или выключения объектов на кухне В этих сценариях ENPIRE превзошел GR00T от Nvidia и CaP-X — агентную систему, которая использует инструменты, но не запускает полный цикл автоматического исследования 🤖 💻
Восемь роботов ускорили обучение Отдельный блок работы посвящен масштабированию на парк роботов
Nvidia провела эксперимент на восьми роботизированных станциях с двумя манипуляторами У каждой были собственные оборудование, компьютер и ИИ-агент для программирования 🤖 💻
Станции обменивались результатами через Git: удачная идея или изменение кода могли быстро распространяться между агентами
Такой подход позволил сократить время обучения По данным Decrypt, переход от одного робота к восьми сократил время освоения Push-T примерно с пяти до двух часов
Для Pin Insertion время снизилось с более чем 90 минут до около 40 минут 🔥 📊
Ограничения Авторы подчеркнули, что масштабирование не решает всех проблем Когда агенты читают логи, пишут код, отлаживают его или ждут ответа базовой языковой модели, роботы и вычислительные ресурсы используются не полностью
С ростом числа роботов увеличивается GPU-активность, но средняя загрузка самих роботов снижается Команды агентов тратят больше времени на обобщение результатов других веток и координацию, а не только на физические прогоны 🤖 📉
Еще одно ограничение — рост расхода токенов
Больший парк роботов быстрее приводит политику к рабочему состоянию, но требует больше токенов из-за чтения логов, обмена идеями и координации между агентами 📊 💻
Кроме того, ENPIRE пока показан на ограниченном наборе задач манипуляции Его результаты не означают, что роботы уже могут самостоятельно осваивать произвольные физические навыки в открытой среде без инженерной подготовки 🤖 🚀
Isaac GR00T Reference Humanoid Robot — исследовательский референс-дизайн для разработки и тестирования навыков гуманоидных роботов
В конфигурацию вошли корпус Unitree H2 Plus и тактильные пятипалые кисти Sharpa Wave 🤖 💻
Ранее Unitree «первого в мире готового к серийному производству» пилотируемого робота Андроид способен передвигаться на двух и четырех конечностях 🚀 💻
По материалам ForkLog