Nvidia показала систему для навчання роботів

Нові технології для робототехніки: розробка автоматичних алгоритмів на реальному обладнання

У науковців Nvidia, Carnegie Mellon University та Каліфорнійського університету в Берклі розроблений фреймворк ENPIRE, який дозволяє ІІ-агентам самостійно розробляти політику управління роботами на реальному обладнанні.

Система працює за принципом замкнутого циклу: робот виконує завдання, середовище оцінює результат і повертається в початкове положення, а ІІ-агент аналізує помилки, переписує код і запускає наступну серію випробувань 🚀💻

У робототехніці навчання на реальному обладнанні залишається дорогим і повільним процесом

Після невдалої спроби необхідно повернути сцену в початкове положення, перевірити результат, змінити алгоритм і знову провести випробування Частина цієї роботи часто вимагає участі інженерів

🤖📊

ENPIRE перенесла в фізичний світ підхід, який Nvidia називають AutoResearch: ІІ-агенти створюють код, тестиють його і вдосконалюють у наступних ітераціях Однак, на відміну від цифрової системи, кожен експеримент пов’язаний з реальними роботами, камерами, об’єктами, помилками захоплення, тиском і іншими фізичними обмеженнями

⚡📉

Фреймворк складається з чотирьох модулів:

Environment відповідає за автоматичний сброс сцени, перевірку результату, логування і інтерфейси безпеки;

Policy Improvement запускає вдосконалення політики управління;

Rollout оцінює політику на одному або декількох фізичних роботах;

Evolution дозволяє агентам аналізувати логи, шукати ідеї в літературі, змінювати інфраструктуру навчання та виправляти код.

Після першої налаштування середовища цикл може продовжуватися без постійного спостереження людини Агент отримує дані з відео, траекторій та функції нагороди, пропонує нову гіпотезу, змінює код, тестирує результат на роботі та зберігає зміни, якщо вони покращують показник

📊💻

Що таке автоматична перевірка та збереження станів? Ключовий елемент ENPIRE — це автоматизація двох операцій: перевірки результату та відновлення стану системи Перша необхідна для того, щоб система могла самостійно визначити, виконана лиша робота завдання

Наприклад, у сценарії з кабельною стяжкою функція оцінювання поєднувала детектор, сегментну модель та перевірку за допомогою двох камер Так агент отримував сигнал про успіх або помилку без ручної маркування кожного експерименту

📊

Автоматичний збереження дозволяє виконувати багато спроб одне за однією Після невдалої дії робот повинен повернути об’єкт або сцену в стан, придатний для наступного експерименту

Без цього навчання на реальному обладнанні швидко зупиняється на необхідності постійного участі людини 💻🤖

Що саме зробили на роботах? У реальних експериментах команда перевірала ENPIRE на декількох завданнях маніпуляцій

Push-T перевіряє, чи може робот тиснути Т-образний об’єкт в певну зону Pin Insertion вимагає вставляти штири в отвори діаметром 4 мм

Також показані встановлення GPU та операції з кабельною стяжкою 🤖💻

За останніми даними на сторінці проєкту Nvidia вказано, що у реальних завданнях маніпуляцій система успішно виконувала завдання майже в 99% випадків, якщо агенту давали до восьми спроб, включаючи попередні помилки

Показник відображає можливість системи відновлюватися після невдалих спроб та повторювати дії з урахуванням контексту, а не точність однієї ізольованої спроби 📊

Як саме працюють агенти на розширеному обладнанні? В якості агентів для розробки команда порівняла Codex на GPT-5.5, Claude Code на Opus 4.7 та Kimi Code на Kimi K2.6

Оцінка відбувалася у бенчмарку AutoEnvBench на завданнях Push-T та Pin Insertion 💻📊

Навчання на декількох роботах

Власне, дослідники також перевірили ENPIRE в RoboCasa — симуляторі домашніх завдань, наприклад, відкриванні шкафів, ящиків та включення чи вимкнення об’єктів на кухні У цих сценаріях ENPIRE випередив GR00T від Nvidia та CaP-X — агентну систему, яка використовує інструменти, але не запускає повний цикл автоматичного дослідження

🤖📊

Як масштабування допомагає роботам навчатися швидше? Відділ досліджень Nvidia проводив експеримент на восьми роботизованих станціях з двома маніпуляторами На кожній були власне обладнання, комп’ютер та ІІ-агент для розробки

Станції обмінювались результатами через Git: успішна ідея чи зміна коду швидко розповсюджувалися між агентами Такий підхід дозволив скоротити час навчання

За інформацією Decrypt, перехід від однієї машини до восьми скоротив час вивчення Push-T майже вдвічі, з п’яти до двох годин Для Pin Insertion час навчання зменшився з більш ніж 90 хвилин до близько 40 хвилин

🚀💻

Що таке обмеження ENPIRE? Автори підкреслили, що масштабування не вирішує всі проблеми Коли агенти читають логи, створюють код, відлагоджують його чи очікування відповіді базової мовної моделі, роботи та комп’ютерні ресурси використовуються не повністю

З ростом кількості роботів збільшується активність GPU, але середня загрузка самих роботів зменшується Групи агентів витрачають більше часу на обобщення результатів інших веток та координацію, ніж тільки на фізичні випробування

🤖📊

Інше обмеження — зростання витрат токенів Більший парк роботів швидше приводить політику до робочого стану, але вимагає більше токенів через читання логів, обмін ідеями та координацію між агентами

💸📊

Що ще потрібно зробити? Крім того, ENPIRE поки тільки показаний на обмеженому наборі завдань маніпуляцій Їхні результати не означають, що роботи вже можуть самостійно вивчати різноманітні фізичні навички у відкритій сфері без інженерної підготовки

🤖📊

Що таке Isaac GR00T Reference Humanoid Robot? Isaac GR00T Reference Humanoid Robot — дослідницький базовий дизайн для розробки та вивчення навичок гуманітарних роботів У її комплект входили корпус Unitree H2 Plus та тактильні п’ятипалеві кисті Sharpa Wave

🤖💻

Що ще відбулося в розвитку робототехніки? Раніше Unitree «перший у світі готовий до серійного виробництва» пілотажний робот Андроїд здатний пересуватися на двох та чотирьох кінцівках

🤖💻

За матеріалами ForkLog