近期,奧比中光研發(fā)團(tuán)隊(duì)融合前沿多模態(tài)大模型技術(shù),推出最新2.0版大模型機(jī)械臂演示方案。新方案搭載公司最新深度相機(jī)Gemini 335L和Femto Bolt,能夠基于語(yǔ)音指令,自動(dòng)執(zhí)行沏茶、插花、滴香薰、播放音樂等一系列復(fù)雜任務(wù)。此前在2023年底,奧比中光成功發(fā)布大模型機(jī)械臂1.0,在業(yè)界引起廣泛關(guān)注。
(點(diǎn)擊播放視頻)
秒懂語(yǔ)音指令,絲滑沏茶、倒茶
奧比中光2.0版大模型機(jī)械臂結(jié)合多模態(tài)大模型技術(shù)(語(yǔ)音、文本、視覺)與機(jī)械臂控制技術(shù),可以生成空間語(yǔ)義信息,幫助機(jī)械臂準(zhǔn)確識(shí)別、理解生活中的常見物體并執(zhí)行相應(yīng)動(dòng)作,可識(shí)別物體包括日常用品、食品和工業(yè)零件等。
以最具挑戰(zhàn)性的沏茶任務(wù)為例,其難點(diǎn)在于流程長(zhǎng)、步驟多,需要保證動(dòng)作執(zhí)行的準(zhǔn)確性和多步驟之間的邏輯合理性。奧比中光研發(fā)團(tuán)隊(duì)借助高精度Gemini 335L和Femto Bolt相機(jī)實(shí)現(xiàn)目標(biāo)抓取位姿的精確定位,結(jié)合大模型的理解能力,經(jīng)過(guò)長(zhǎng)期算法優(yōu)化與仿真環(huán)境調(diào)試,最終實(shí)現(xiàn)對(duì)沏茶等復(fù)雜任務(wù)的理解、規(guī)劃與自動(dòng)執(zhí)行。
相比1.0版本,2.0版大模型機(jī)械臂在以下幾個(gè)方面實(shí)現(xiàn)了升級(jí):
● 語(yǔ)言模型:自然語(yǔ)言處理和理解能力顯著提升,機(jī)械臂能夠更準(zhǔn)確理解和執(zhí)行抽象的語(yǔ)言指令。
● 規(guī)劃能力:復(fù)雜任務(wù)規(guī)劃能力顯著提升,可以準(zhǔn)確理解高階任務(wù)并精準(zhǔn)執(zhí)行。
● 響應(yīng)速度:程序整體執(zhí)行效率優(yōu)化,任務(wù)理解與規(guī)劃時(shí)間大大縮短。
● 抓取能力:升級(jí)為夾爪設(shè)計(jì),能夠準(zhǔn)確識(shí)別和分類不同物體,適應(yīng)更多樣化的任務(wù)和環(huán)境。
● 感知能力:配備Gemini 335L和Femto Bolt相機(jī),雙目3D相機(jī)與ToF相機(jī)互補(bǔ),提供更高分辨率和精度的3D視覺感知能力。
搭載先進(jìn)深度相機(jī),感知更精確
奧比中光2.0版大模型機(jī)械臂通過(guò)搭載公司最新深度相機(jī)和AI算法,在識(shí)別、抓取和操作復(fù)雜物體時(shí)的精度和效率顯著提升。相較于1.0版本采用的Gemini 2系列相機(jī),2.0版本的Gemini 335L和Femto Bolt在深度精度和深度完整性方面具有更佳表現(xiàn),捕捉更精致的物體細(xì)節(jié),可重建玻璃、亞克力等透明材質(zhì)物體,從而讓機(jī)械臂能夠精準(zhǔn)定位物體,高效執(zhí)行動(dòng)作。此外,公司基于仿真與實(shí)際相結(jié)合的調(diào)試優(yōu)化方式,可快速實(shí)現(xiàn)AI算法驗(yàn)證與迭代。
奧比中光Gemini 335L相機(jī)可重建香薰玻璃瓶、亞克力支架等透明物體
機(jī)器人要想具備更通用的能力,需要理解真實(shí)的物理世界。作為行業(yè)領(lǐng)先的機(jī)器人視覺及AI視覺公司,奧比中光長(zhǎng)期致力于3D視覺感知技術(shù)的研發(fā),以促進(jìn)具身智能在感知技術(shù)層面的進(jìn)步。未來(lái),團(tuán)隊(duì)將進(jìn)一步提升大模型機(jī)械臂的理解能力,使其能夠處理更多復(fù)雜、抽象的任務(wù);提升機(jī)械臂在復(fù)雜或動(dòng)態(tài)變化環(huán)境中的泛化能力,并加強(qiáng)人機(jī)交互與機(jī)器自我學(xué)習(xí)能力,加速其在生活服務(wù)、工業(yè)生產(chǎn)等實(shí)際場(chǎng)景中的落地應(yīng)用。
分享到