四川在線記者 寧寧
8月12日,記者從成都人形機器人創(chuàng)新中心獲悉,該中心發(fā)布了最新研發(fā)成果——機器人多模態(tài)模型RRMM(Raydiculous RobotMultimodal Model)及雙臂協(xié)作系統(tǒng)RTACS(Raydiculous Two-Arm Cooperation System),該模型能使機器人理解推理抽象的語義指令,并調(diào)度雙臂協(xié)作系統(tǒng)執(zhí)行任務(wù)。
由于此前僅有OpenAI等國外人工智能頭部企業(yè)發(fā)布了類似成果,此次發(fā)布也標(biāo)志著成都在我國多模態(tài)模型應(yīng)用于人形機器人領(lǐng)域取得率先突破,進(jìn)一步加速了“AI物理化”進(jìn)程,也讓人形機器人從“預(yù)設(shè)擺拍”、“遙控操作”進(jìn)化到擁有更強的“大腦”和自主執(zhí)行能力。
多模態(tài)數(shù)據(jù)協(xié)同推理,即能融合兩種或兩種以上不同感知來源,進(jìn)行綜合推理,并完成復(fù)雜任務(wù)。譬如,最新的ChatGPT4o在展示其強大功能時,測試者不用傳統(tǒng)的鍵盤輸入問題指令,而是在一張紙上手寫一個待解方程以及手繪一個幾何圖形,并用語音指令要求GPT4o解題,GPT4o通過圖像識別、語音識別和語義理解及推理,快速給出準(zhǔn)確答案。
“這就是典型的多模態(tài)應(yīng)用。”成都人形機器人創(chuàng)新中心相關(guān)負(fù)責(zé)人介紹,它主要應(yīng)用于人形機器人領(lǐng)域,使人形機器人能融合圖像、語義、力感知、環(huán)境感知等多種因素,綜合判斷、生成任務(wù)并執(zhí)行任務(wù),是讓人形機器人具有自主思考能力的關(guān)鍵核心技術(shù)。
語義指令,涉及將對象進(jìn)行相對明確和相對抽象地區(qū)分和分揀,完成這些任務(wù)則需要機器人通過多模態(tài)模型自主對所有物品進(jìn)行提取歸納。“比如,在對瓶子形狀的物體進(jìn)行可食用和不可食用區(qū)分、分揀時,需要通過進(jìn)一步對瓶身包裝上的文字、圖片等要素進(jìn)行綜合判斷,才能區(qū)分其為可食用還是非食用瓶裝物。”成都人形機器人創(chuàng)新中心相關(guān)負(fù)責(zé)人說。
成都人形機器人創(chuàng)新中心是我國中西部地區(qū)首個人形機器人創(chuàng)新中心,是四川省人工智能一號創(chuàng)新工程的首個原點項目,致力于研發(fā)“真正擁有大腦的人形機器人整機”的人形機器人。
(視頻由成都人形機器人創(chuàng)新中心提供)
編輯:譚鵬