Gemini Robotics 1.5 вкарва AI агенти в реалния свят

Gemini, семейството от AI модели на Google, направи нова крачка към интелигентните роботи с премиерата на Gemini Robotics 1.5 и Gemini Robotics-ER 1.5.

Тези модели дават възможност на роботите да възприемат, планират и действат в реалния свят, като се справят с комплексни задачи, изискващи многократни стъпки и логическо мислене.

Две модели, една цел

  • Gemini Robotics 1.5 е модел тип vision-language-action (VLA), който превръща визуална информация и инструкции в моторни команди за роботите. Той „мисли преди да действа“, показва мисловния си процес и позволява роботите да изпълняват сложни задачи по прозрачен начин. Моделът се учи и върху различни типове роботи, ускорявайки придобиването на нови умения.
  • Gemini Robotics-ER 1.5 е модел тип vision-language (VLM), който анализира физическата среда, планира многопоследователни мисии и използва цифрови инструменти за справяне с предизвикателства. Той постига водещи резултати в пространствено разбиране и планиране, превръщайки роботите в истински автономни агенти.

Как работят заедно

Gemini Robotics-ER 1.5 играе ролята на „висш мозък“ – планира действията на робота, оценява напредъка и извиква инструменти като Google Search за информация. След това Gemini Robotics 1.5 получава инструкции за конкретните стъпки, използвайки визуално и езиково разбиране, за да изпълни действията. Така роботите могат да мислят за действията си, да обясняват логиката зад решенията и да се справят с многопоследователни задачи като сортиране на предмети или организиране на обекти по правила.

Учейки се през различни роботи

Gemini Robotics 1.5 демонстрира способност да прехвърля научени движения между различни роботи – от двуръчни модели като Franka до хуманоиди като Apollo, без нужда от допълнителна настройка. Това ускорява усвояването на нови умения и прави роботите по-гъвкави.

Безопасност и отговорно използване

Моделите са разработени с акцент върху безопасността: мислене преди действие, съобразяване с хора и активиране на подсистеми за избягване на сблъсъци. ASIMOV benchmark бе обновен, за да оценява семантичната безопасност и да подпомага по-доброто придържане към физически ограничения.

Крачен камък към AGI в реалния свят

Gemini Robotics 1.5 бележи значителен напредък към изграждането на общи интелигентни агенти (AGI) в реалния свят. С агентните си способности моделите могат не просто да реагират на команди, а да планират, използват инструменти и се адаптират към нови ситуации – основа за бъдещето на полезни и интегрирани в живота ни роботи.

Достъпност:

  • Gemini Robotics-ER 1.5 вече е достъпен за разработчици чрез Gemini API в Google AI Studio.
  • Gemini Robotics 1.5 е наличен за избрани партньори.

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *