中國移動“靈犀”機(jī)器人家族在近期大型展會(如WAIC)上多次驚艷亮相,向觀眾展示了如同擁有統(tǒng)一“大腦”般的精準(zhǔn)協(xié)作能力。從言行舉止高度協(xié)同的迎賓導(dǎo)覽,到整齊劃一的群體舞蹈表演;從分步協(xié)同的群體控制,到配合默契的雙人相聲展示,機(jī)器人家族無間協(xié)作的表現(xiàn)生動詮釋了人機(jī)共生的無限可能。
這份默契無間的群體協(xié)作能力,背后是中國移動在具身智能領(lǐng)域持續(xù)深耕的成果。正如高性能引擎需要優(yōu)質(zhì)燃料的持續(xù)供給,“靈犀”機(jī)器人家族的每一次協(xié)同優(yōu)化與智能躍升,都離不開海量高質(zhì)的訓(xùn)練數(shù)據(jù)供給和硅基智能生成。這些技術(shù)突破,源自中國移動具身智能產(chǎn)業(yè)創(chuàng)新中心打造的“靈霄”仿真訓(xùn)練場和“靈馭”VLA具身智能系統(tǒng)。
仿真訓(xùn)練場:打造硅基生命動力源泉的“燃料工廠”
為了讓機(jī)器人大腦獲得持續(xù)高效的進(jìn)化動力,中國移動具身智能產(chǎn)業(yè)創(chuàng)新中心潛心數(shù)年,成功打造了“靈霄”仿真訓(xùn)練場,這是一座為硅基生命量身定做的燃料工廠。它將原本耗時(shí)耗力、成本高昂的現(xiàn)實(shí)世界訓(xùn)練,移植到高保真的虛擬空間里,創(chuàng)造用于訓(xùn)練機(jī)器人的數(shù)據(jù)燃料,打造硅基生命在現(xiàn)實(shí)和虛擬間學(xué)習(xí)的無縫場域。
“靈霄”仿真訓(xùn)練場演示仿真環(huán)境下多機(jī)并行訓(xùn)練
在仿真訓(xùn)練場依托三大核心技術(shù),實(shí)現(xiàn)高保真、大規(guī)模訓(xùn)練制造硅基生命學(xué)習(xí)數(shù)據(jù):
仿生場景快速構(gòu)建——三維場景秒級生成:仿真訓(xùn)練場能實(shí)現(xiàn)秒級生成高精度3D模型,依托萬級可交互家庭資產(chǎn)庫,幾分鐘就能搭建出復(fù)雜的家庭仿真場景,機(jī)器人訓(xùn)練成本大幅降低,奠定數(shù)據(jù)燃料高效生產(chǎn)的基礎(chǔ)。
電子感官高度還原——多模態(tài)傳感器高保真模擬:仿真訓(xùn)練場突破視覺相機(jī)、深度相機(jī)、激光雷達(dá)等傳感器仿真技術(shù),生成與真實(shí)世界幾乎無異的視覺、空間和深度信息反饋,以確保機(jī)器人訓(xùn)練數(shù)據(jù)燃料的高還原。
虛擬物理逼真高效——物理與渲染引擎協(xié)同優(yōu)化:融合高精度物理引擎與光線追蹤渲染引擎,讓機(jī)器人與虛擬環(huán)境的訓(xùn)練互動更加真實(shí),這是數(shù)據(jù)燃料品質(zhì)的關(guān)鍵。更重要的是,借助GPU并行加速技術(shù)實(shí)現(xiàn)大規(guī)模場景的高效計(jì)算,能夠支撐多機(jī)器人同步訓(xùn)練,從而促進(jìn)數(shù)據(jù)燃料的大規(guī)模生產(chǎn)。
如同現(xiàn)實(shí)工廠精準(zhǔn)控制原料配比與工藝流程,“靈霄”仿真訓(xùn)練場通過環(huán)境仿真、感官模擬、物理規(guī)則三大維度,為硅基生命的進(jìn)化提供了高擬真、規(guī)模化的數(shù)據(jù)燃料供應(yīng),機(jī)器人得以獲得持續(xù)動力,進(jìn)步速度自然一日千里!
“靈霄”仿真訓(xùn)練場下機(jī)器人執(zhí)行拿取面包傾倒蜂蜜任務(wù)
VLA具身智能系統(tǒng):將數(shù)據(jù)轉(zhuǎn)化智慧的“智能產(chǎn)線”
當(dāng)仿真訓(xùn)練場源源不斷產(chǎn)出高質(zhì)可靠的訓(xùn)練數(shù)據(jù),如何將其高效轉(zhuǎn)化為驅(qū)動機(jī)器人精準(zhǔn)流暢的智能行為,便成為關(guān)鍵。其答案在于中國移動自主研發(fā)的“靈馭”視覺-語言-動作(VLA)具身智能系統(tǒng),它猶如工廠的“智能產(chǎn)線”,通過三大核心單元的協(xié)同運(yùn)作,確保機(jī)器人真正達(dá)到“言行合一”,實(shí)現(xiàn)落地突破。
“智能中樞”——VLA大模型:作為控制中樞,VLA大模型賦予機(jī)器人感知、理解與決策能力。通過統(tǒng)一的多模態(tài)融合框架,將視覺信息、語言指令以及機(jī)器人自身的狀態(tài)進(jìn)行深度融合與理解,并基于此生成適應(yīng)當(dāng)前環(huán)境的復(fù)雜動作序列,有效解決了傳統(tǒng)機(jī)器人依賴預(yù)設(shè)編程、無法理解動態(tài)環(huán)境的難題,顯著提升了機(jī)器人的認(rèn)知與任務(wù)泛化能力。比如當(dāng)下達(dá)“請把桌上的杯子遞給我”指令時(shí),機(jī)器人便能快速理解指令并精準(zhǔn)完成取遞物品任務(wù)。
“調(diào)度樞紐”——VLA-RAIL實(shí)時(shí)異步推理系統(tǒng):作為調(diào)度機(jī)器人本體與VLA大模型的核心樞紐,它通過異步處理機(jī)制,將高耗時(shí)的模型推理與高頻率的機(jī)器人觀測、控制進(jìn)行解耦,并結(jié)合實(shí)時(shí)數(shù)據(jù)管理與軌跡生成,將VLA模型的輸出實(shí)時(shí)平滑為連續(xù)、流暢的物理運(yùn)動,有效解決了傳統(tǒng)控制中的延遲與運(yùn)動抖動問題,顯著提升了機(jī)器人的響應(yīng)速度與動作質(zhì)量。通過這個(gè)系統(tǒng)使得現(xiàn)在的“靈犀”機(jī)器人,行動果斷利落,再也不抖成篩子了。
“工藝配方”——標(biāo)準(zhǔn)化技能庫:如同積累成熟的“生產(chǎn)工藝配方庫”,“靈馭”系統(tǒng)沉淀了一套適用于家庭服務(wù)等多種場景的運(yùn)動基元庫與通用技能庫,通過標(biāo)準(zhǔn)化的分層架構(gòu),將復(fù)雜任務(wù)抽象并封裝為可靈活組合的底層“運(yùn)動基元”和上層“通用技能”。在智慧食堂里,它已能精準(zhǔn)完成點(diǎn)心精準(zhǔn)取送與桌面動態(tài)配餐等任務(wù),展現(xiàn)出強(qiáng)大的即插即用場景適應(yīng)能力。
“靈馭”實(shí)時(shí)異步推理系統(tǒng)示意圖
從燃料工廠-“靈霄”仿真訓(xùn)練場的規(guī)模化數(shù)據(jù)燃料生產(chǎn),到智能產(chǎn)線-“靈馭”系統(tǒng)的高效智慧轉(zhuǎn)化,中國移動具身智能產(chǎn)業(yè)創(chuàng)新中心成功為驅(qū)動硅基生命群體智能躍升添磚加瓦?!办`犀”機(jī)器人家族在在近期各大展會上展現(xiàn)的群體協(xié)同,正是中國移動驅(qū)動“硅基生命”群體進(jìn)化的生動印證。
基于VLA大模型的靈犀機(jī)器人訓(xùn)練中
展望未來,中心將持續(xù)錨定“四者”定位,推動具身智能機(jī)器人快速發(fā)展,助力硅基生命突破虛實(shí)界限,在更廣闊的產(chǎn)業(yè)與生活場景中實(shí)踐落地,驅(qū)動千行百業(yè)走向“碳硅融合”深度變革。
(審核編輯: 朝言)
分享