Новият робот с изкуствен интелект на Google може да прави оригами

DeepMind обяви два нови модела на изкуствен интелект, предназначени за управление на роботи: Gemini Robotics и Gemini Robotics-ER. Компанията твърди, че тези модели ще помогнат на роботи с различни форми и размери да разбират и взаимодействат с физическия свят по-ефективно и деликатно от предишните системи, проправяйки пътя за приложения като хуманоидни роботи асистенти.

Новите модели на Google се основават на големия езиков модел Gemini 2.0, като добавят възможности специално за роботизирани приложения. Gemini Robotics включва това, което Google нарича способности „визия-език-действие“ (VLA), което му позволява да обработва визуална информация, да разбира езикови команди и да генерира физически движения. За разлика от тях Gemini Robotics-ER се фокусира върху „въплътеното разсъждение“ с подобрено пространствено разбиране, което позволява на роботолозите да го свържат със съществуващите системи за управление на роботи.

Например с Gemini Robotics можете да помолите робота да „вземе банана и да го сложи в кошницата“ и той ще използва изгледа на сцената с камера, за да разпознае банана, насочвайки роботизираната ръка да изпълни успешно действието. Или може да кажете: „сгъни оригами лисица“, и той ще използва познанията си за оригами и как да сгъва внимателно хартия, за да изпълни задачата.

Gemini Robotics според съобщенията демонстрира значително подобрена сръчност, която позволява изпълнението на невъзможни досега задачи като сгъване на оригами и опаковане на закуски в торбички с цип. Този преход от роботи, които само разбират команди, към роботи, които могат да изпълняват деликатни физически задачи, предполага, че DeepMind може би е започнала да решава едно от най-големите предизвикателства в роботиката: да накара роботите да превърнат своите „знания“ във внимателни и прецизни движения в реалния свят.

Според DeepMind новата система Gemini Robotics демонстрира много по-силна генерализация или способност да изпълнява нови задачи, за които не е била специално обучена, в сравнение с предишните си модели на изкуствен интелект. В съобщението си компанията твърди, че Gemini Robotics „повече от два пъти подобрява резултатите си по цялостен бенчмарк за обобщаване в сравнение с други най-съвременни модели за зрение, език и действие“. Обобщаването е от значение, тъй като роботите, които могат да се адаптират към нови сценарии без специално обучение за всяка ситуация, един ден биха могли да работят в непредсказуема реална среда.

В този случай Google се опитва да създаде нещо истинско: мозък на робот-генералист. С тази цел компанията обяви партньорство с базираната в Остин, Тексас, компания Apptronik за „създаване на следващото поколение хуманоидни роботи с Gemini 2.0“. Макар да е обучен предимно на платформата за двумануални роботи, наречена ALOHA 2, Google заявява, че Gemini Robotics може да управлява различни видове роботи – от ориентираните към изследвания роботизирани ръце Franka до по-сложни хуманоидни системи като робота Apollo на Apptronik.

Google също така предостави ограничен достъп до Gemini Robotics-ER чрез програма за „доверени тестери“ на компании като Boston Dynamics, Agility Robotics и Enchanted Tools.
Безопасност и ограничения

По отношение на безопасността Google споменава за „многопластов, цялостен подход“, който запазва традиционните мерки за безопасност на роботите като избягване на сблъсъци и ограничения на силата. Компанията описва разработването на рамка „Конституция на робота“, вдъхновена от Трите закона на роботиката на Айзък Азимов, и пускането на набор от данни, наречен изненадващо „ASIMOV“, за да помогне на изследователите да оценят последиците за безопасността на действията на роботите.

Компанията не съобщава срокове за наличност или конкретни търговски приложения на новите модели на изкуствен интелект, които остават в изследователска фаза.

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *