Колишні працівники Google створили ІІ для роботів

Новинка від Physical Intelligence 🚀! Досвідчені інженери Google представили модель π0.7, яка здатна робити щось зовсім нове у сфері робототехніки.

Наша нова модель π0.7 має дуже цікаві здібності: вона може керувати новим роботом, щоб він розклала майку без наявності навчального матеріалу для цієї платформи; вона може виконувати різні завдання з різним рівнем складності 📊.

— Physical Intelligence (@physical_int) Це стосується класу «зрение-язык-действие» (Vision-Language-Action, або VLA) і призначена для управління роботами.

У порівнянні з попередніми рішеннями, π0.7 показала ознаки композиційного обобщення – здатність комбінувати раніше вивчені навички для рішення нових завдань 💰.

Навички, які робот вивчив самостійно, наприклад, управління новим роботом (UR5e) для складання майки, навіть якщо немає навчальних даних для цієї конкретної платформи 🐋.

Такий рівень обобщення довгий час вважався сильною стороною LLM, але в робототехніці залишався недосяжним 🚀. Результати порівняно з рівнем досвідчених операторів, які мають сотні годин досвіду управління роботом.

Інструмент також зміг зрозуміти використання раніше незнайомих пристроїв, наприклад, кухонної техніки. Наприклад, робот виконував частину завдання щодо приготування картоплі в аерогрілі, хоча подібних сценаріїв у навчальній базі немає 🍳.

Повідомляють, що це стало можливим завдяки об’єднанню розрізнених навичок, подібно до того, як мовні моделі комбінують знання з різних галузей.

Керування через мову та контекст – одне із ключових відмінностей від попередніх рішень. Тепер робота не тільки виконує завдання згідно з команди «що робити», а й виконує завдання згідно з команди «як робити».

Такий підхід дозволяє комбінувати дані з різних джерел – відео, телеметрію з роботом і автономно зібраний епізод – в єдину систему навчання.

Перший крок до створення роботів «універсальних»! Physical Intelligence відзначає, що раніше подібні моделі вимагали дообучення під кожну завдання – як ранні версії мовних моделей. π0.7 працює «із коробки» і адаптується до нових сценаріїв через мову.

Команда підкреслює, що такий рівень обобщення довгий час вважався сильною стороною LLM, але в робототехніці залишався недосяжним. Незважаючи на прогрес, модель поки що не завжди виконує складні завдання без пошагових підсказок. Однак при послідовних інструкціях якість виконання зростає.

У майбутньому такі інструкції допоможуть навчати більш самостійних машин, які здатні діяти без людини. Physical Intelligence вважає, що π0.7 демонструє перші ознаки переходу до роботів «універсальних», які адаптуються до нових умов без ручної налаштування під кожну завдання.

За матеріалами ForkLog