Бывшие сотрудники Google создали ИИ для роботов

Новый стартап Physical Intelligence, основанный бывшими инженерами Google, представил революционную модель π0.7, которая демонстрирует «качественный скачок» в способности ИИ обобщать навыки и выполнять задачи, которым он не обучался напрямую! 🚀

У нас есть новая модель, π0.7, которая имеет интересные свойства: она может управлять новым роботом, складывая рубашки без данных для этой конкретной платформы, разбираться в использовании устройства с языковой коучингом и выполнять широкий спектр дexterous- задач! 💰

— Physical Intelligence (@physical_int) Система относится к классу «зрение-язык-действие» (Vision-Language-Action, или VLA) и предназначена для управления роботами. 🤖

В отличие от предыдущих решений, π0.7 продемонстрировала признаки композиционного обобщения — способности комбинировать ранее усвоенные навыки для решения новых задач. ⚡

Необученные задачи и перенос между роботами В ходе экспериментов модель показала ряд неожиданных способностей. В частности, π0.7 смогла управлять новым типом робота и складывать футболки, несмотря на отсутствие обучающих данных для этой конкретной платформы. 🐋

Compositional generalization — это ключевая способность больших моделей, подобных LLM, но она была недостижима в робототехнике. Другая эмерджентная способность, которую мы обнаружили, — это управление новым роботом (UR5e) для складывания рубашек, даже хотя у нас не было данных для стирки на этом роботе. 📊

— Physical Intelligence (@physical_int) Результаты сопоставимы с уровнем операторов, имеющих сотни часов опыта телоуправления, отметили программисты. 🤯

Инструмент также смог разобраться в использовании ранее незнакомых устройств, включая кухонную технику. Например, робот выполнил часть задачи по приготовлению батата в аэрогриле, хотя подобных сценариев в обучающей выборке не было. 🍴

По словам разработчиков, это стало возможным за счет объединения разрозненных навыков — аналогично тому, как языковые модели комбинируют знания из разных областей. 💡

Управление через язык и контекст Одним из ключевых отличий π0.7 стала возможность управлять не только через команды «что делать», но и через уточнение «как делать». 💻

метаданные (например, скорость и качество выполнения);

визуальные субцели — изображения ожидаемого результата шага.

Некоторые из субцелей вспомогательная система может создавать прямо во время работы. Это дает роботу возможность корректировать поведение без дообучения. 🤖

π0.7 handles diverse prompts that don’t just say what to do, but also how to do it, including rich language and multimodal information, such as visual subgoal images. At test time, these images can be produced by a lightweight world model. 📱

— Physical Intelligence (@physical_int) Такой подход позволяет объединять данные от разных источников — видео, телеметрию с роботов и автономно собранные эпизоды — в единую систему обучения. 🤝

Первый шаг к «универсальным» роботам В Physical Intelligence отметили, что раньше подобные модели требовали дообучения под каждую задачу — как ранние версии языковых моделей. π0.7, напротив, работает «из коробки» и адаптируется к новым сценариям через язык. 🔓

Команда подчеркнула: такой уровень обобщения долгое время считался сильной стороной LLM, но в робототехнике оставался недостижимым. 🤔

Несмотря на прогресс, модель пока не всегда справляется со сложными задачами без пошаговых подсказок. Однако при последовательных инструкциях качество выполнения заметно растет! 📈

В будущем такие инструкции помогут обучать более автономные машины, способные действовать без человека. В Physical Intelligence считают, что π0.7 показывает первые признаки перехода к универсальным роботам, которые адаптируются к новым условиям без ручной настройки под каждую задачу. 🤖

ИИ-модель Large Plant Model, которая умеет распознавать виды растений для борьбы с сорняками. 🌱

По материалам ForkLog