Gemini Robotics 1.5 вкарва AI агенти в реалния свят
Gemini, семейството от AI модели на Google, направи нова крачка към интелигентните роботи с премиерата на Gemini Robotics 1.5 и Gemini Robotics-ER 1.5.
Тези модели дават възможност на роботите да възприемат, планират и действат в реалния свят, като се справят с комплексни задачи, изискващи многократни стъпки и логическо мислене.
Две модели, една цел
- Gemini Robotics 1.5 е модел тип vision-language-action (VLA), който превръща визуална информация и инструкции в моторни команди за роботите. Той „мисли преди да действа“, показва мисловния си процес и позволява роботите да изпълняват сложни задачи по прозрачен начин. Моделът се учи и върху различни типове роботи, ускорявайки придобиването на нови умения.
- Gemini Robotics-ER 1.5 е модел тип vision-language (VLM), който анализира физическата среда, планира многопоследователни мисии и използва цифрови инструменти за справяне с предизвикателства. Той постига водещи резултати в пространствено разбиране и планиране, превръщайки роботите в истински автономни агенти.
Как работят заедно
Gemini Robotics-ER 1.5 играе ролята на „висш мозък“ – планира действията на робота, оценява напредъка и извиква инструменти като Google Search за информация. След това Gemini Robotics 1.5 получава инструкции за конкретните стъпки, използвайки визуално и езиково разбиране, за да изпълни действията. Така роботите могат да мислят за действията си, да обясняват логиката зад решенията и да се справят с многопоследователни задачи като сортиране на предмети или организиране на обекти по правила.
Учейки се през различни роботи
Gemini Robotics 1.5 демонстрира способност да прехвърля научени движения между различни роботи – от двуръчни модели като Franka до хуманоиди като Apollo, без нужда от допълнителна настройка. Това ускорява усвояването на нови умения и прави роботите по-гъвкави.
Безопасност и отговорно използване
Моделите са разработени с акцент върху безопасността: мислене преди действие, съобразяване с хора и активиране на подсистеми за избягване на сблъсъци. ASIMOV benchmark бе обновен, за да оценява семантичната безопасност и да подпомага по-доброто придържане към физически ограничения.
Крачен камък към AGI в реалния свят
Gemini Robotics 1.5 бележи значителен напредък към изграждането на общи интелигентни агенти (AGI) в реалния свят. С агентните си способности моделите могат не просто да реагират на команди, а да планират, използват инструменти и се адаптират към нови ситуации – основа за бъдещето на полезни и интегрирани в живота ни роботи.
Достъпност:
- Gemini Robotics-ER 1.5 вече е достъпен за разработчици чрез Gemini API в Google AI Studio.
- Gemini Robotics 1.5 е наличен за избрани партньори.