王潛有一副知識(shí)分子的長(zhǎng)相,講話語(yǔ)調(diào)平和,但一旦聊起具身智能,他便流露出“殺氣騰騰”的一面:
“如果就奔著跟隨別人的念頭,技術(shù)天然就落在下風(fēng),是很沒(méi)出息的?!?/span>
“創(chuàng)業(yè)這件事是需要一些決心的,如果你從一開始就找好了退路,你的心態(tài)就不對(duì)了?!?/span>
機(jī)器人,是王潛最執(zhí)著的事。他本碩畢業(yè)于清華大學(xué),博士就讀于美國(guó)南加州大學(xué),曾在美國(guó)創(chuàng)立量化基金公司。但在做量化之后,他卻“好一陣子整晚睡不著,后悔沒(méi)把機(jī)器人事業(yè)做下去”。
圖源:企業(yè)授權(quán)
2023年,王潛解散基金回國(guó),在深圳創(chuàng)立“自變量機(jī)器人”。
自成立起不到一年半時(shí)間,自變量機(jī)器人已完成7輪融資,累計(jì)融資金額超10億元。5月12日,智能涌現(xiàn)獨(dú)家報(bào)道其拿到美團(tuán)獨(dú)投的數(shù)億元新一輪融資。
2023年是國(guó)內(nèi)具身智能賽道肇興之年,英偉達(dá)創(chuàng)始人黃仁勛首次預(yù)言具身智能將是下一個(gè)科技浪潮,銀河通用、智元機(jī)器人均在這一年成立。
相較于這兩家,自變量機(jī)器人前期并未獲得很大聲量。但隨著不斷獲得新融資,其正逐漸走向具身智能舞臺(tái)的中心。
一位雙幣機(jī)構(gòu)投資人告訴智能涌現(xiàn),從融資金額看,目前國(guó)內(nèi)人形機(jī)器人創(chuàng)業(yè)公司已經(jīng)形成了鮮明的梯隊(duì)。第一梯隊(duì)的公司有三家:宇樹科技、智元機(jī)器人和銀河通用,融資金額都在15億元以上。自變量機(jī)器人融資金額超過(guò)10億元,已經(jīng)從二線企業(yè)進(jìn)入準(zhǔn)一線之列。
和當(dāng)初的AI大模型一樣,國(guó)內(nèi)具身智能領(lǐng)域也存在著看好和看空兩種截然對(duì)立的態(tài)度。一邊是朱嘯虎的看空——“現(xiàn)在是個(gè)人形機(jī)器人就會(huì)翻跟頭,但商業(yè)化在哪里?”。另一邊,投資機(jī)構(gòu)持續(xù)砸下重金,創(chuàng)業(yè)公司正不斷加快量產(chǎn)步伐,并給出樂(lè)觀的增長(zhǎng)預(yù)期。
王潛是技術(shù)信仰派的典型代表。
他創(chuàng)立的自變量機(jī)器人自2023年公司成立之日起就堅(jiān)定選擇了“端到端統(tǒng)一VLA大模型”的技術(shù)路線,并以每2-3個(gè)月更新一版模型的速度推進(jìn)研發(fā)。
一年后,隨著美國(guó)公司Physical Intelligence(PI)的模型發(fā)布,VLA成為了行業(yè)的主流路線。
在大部分其他廠商的模型還在執(zhí)行簡(jiǎn)單的Pick&Place操作(即Pick抓取、Place放置)時(shí),自變量機(jī)器人研發(fā)的WALL-A模型已經(jīng)可讓機(jī)器人完成例如衣物處理、收納整理、線束整理等多項(xiàng)復(fù)雜精細(xì)操作。
自變量的機(jī)器人在GAIE2025展會(huì)現(xiàn)場(chǎng)自主制作刨冰 圖源:企業(yè)授權(quán)
市面上看空的觀點(diǎn)認(rèn)為“通用具身智能還太早,商業(yè)化不清晰。”而王潛眼中的行業(yè)發(fā)展進(jìn)程圖則要快上許多。
他預(yù)計(jì)類GPT-3水平的具身智能大模型有望在一年左右出現(xiàn)。具身智能真正的商業(yè)化落地周期,也會(huì)在未來(lái)一到兩年內(nèi)逐步展開。
目前具身機(jī)器人的商業(yè)化場(chǎng)景主要來(lái)自于兩個(gè)市場(chǎng):科研教育和迎賓表演。但在王潛看來(lái),這兩個(gè)市場(chǎng)總體來(lái)講規(guī)模相對(duì)較小,對(duì)于行業(yè)的長(zhǎng)期發(fā)展意義有限,不能當(dāng)作最終面向的目標(biāo)市場(chǎng)。對(duì)于人形機(jī)器人進(jìn)工廠干簡(jiǎn)單重復(fù)性工作,他更是直言“那其實(shí)就是一個(gè)PR(公關(guān))行為”。
王潛認(rèn)為要實(shí)現(xiàn)真正有價(jià)值的商業(yè)化,必須要依靠具身智能模型的泛化能力提升。
眼下,自變量也并不急于推進(jìn)商業(yè)化,而是把重心放在模型能力提升上。公司有三分之二的支出投向模型及其相關(guān)業(yè)務(wù)。
“不謙虛地說(shuō),自變量就是處于國(guó)內(nèi)具身智能模型領(lǐng)先地位的,投資人對(duì)于第一名天然有一些優(yōu)待。大家相信我們能夠達(dá)到非常高的upside,希望我們更加專注通用具身智能模型的大目標(biāo)?!蓖鯘撟孕诺卣f(shuō)道。
以下是記者和自變量機(jī)器人創(chuàng)始人王潛的對(duì)話。內(nèi)容略經(jīng)編輯:
“一體式的端到端模型,發(fā)展天花板更高”
記者:最近的半年時(shí)間,公司在模型能力層面上有什么比較重要的新進(jìn)展?
王潛:我們進(jìn)展速度還是很快的,平均每2-3個(gè)月會(huì)更新一版模型。
以前自變量的模型是一個(gè)純粹輸出action(動(dòng)作)的模型,是多模態(tài)進(jìn),單模態(tài)出。從去年10、11月開始,我們開始做any-to-any的模型,是多模態(tài)進(jìn),多模態(tài)出,除了輸出action(動(dòng)作),也可以輸出語(yǔ)言和視覺(jué)等。
在全模態(tài)融合的框架下,自變量也做很長(zhǎng)的COT(思維鏈)。差不多就在這兩次融資之間,我們把思維鏈做出來(lái)了。
今年3月,Google Gemini robotics公布了他們的進(jìn)展,也是類似的做法:any-to-any和COT。最近Physical Intelligence(PI)新發(fā)布的π0.5也做了類似的事情。所以實(shí)際上我們非常早地就預(yù)判到了技術(shù)進(jìn)步的方向,和PI等國(guó)外玩家做這個(gè)事的時(shí)間差不多。
所以我們敢說(shuō)我們的模型水平基本上和PI、和google在同一個(gè)水平線上。因?yàn)榈拇_是在相近的時(shí)間做出了類似的事情,達(dá)到了類似的效果。而國(guó)內(nèi)廠商普遍才剛起步要往這個(gè)方向去做,進(jìn)度上就會(huì)差得比較多了。
記者:現(xiàn)在統(tǒng)一的端到端VLA大模型(Vision-Language-Action Model)已經(jīng)成為主流技術(shù)路線了嗎?
王潛:對(duì),這很大程度是受到了去年十月份PI的新模型發(fā)布的影響,大家會(huì)看到端到端是一個(gè)好的方向,是一個(gè)大趨勢(shì)。
現(xiàn)在基本上不管信不信,大家至少會(huì)打這個(gè)旗子。但實(shí)際上做得好與壞,或者說(shuō)有沒(méi)有真的去做端到端,還是有較大差異。同時(shí),你會(huì)發(fā)現(xiàn)市場(chǎng)上有很多的所謂的“定義學(xué)”,重新“發(fā)明”什么叫端到端。
補(bǔ)充一下,端到端路線也有兩種不同的做法,一類是像Figure的兩層模型路徑:high level的VLM來(lái)做reasoning、planning,low level的VLA來(lái)做實(shí)際的動(dòng)作生成部分;另一類做法就是不作區(qū)分,一體式的端到端。
我們?cè)缙谝矅L試過(guò)兩層模型,但發(fā)現(xiàn)單層模型的天花板明顯高于兩層的,所以自變量?jī)A向于統(tǒng)一的端到端范式。
圖源:企業(yè)授權(quán)
記者:和端到端并行的技術(shù)路線是什么?
王潛:和它并行的就幾種,現(xiàn)在其實(shí)大家已經(jīng)不怎么做了。主要是通過(guò)三維視覺(jué)或者其他的方法做感知,再加上一些傳統(tǒng)控制,做一些Pick&Place操作(指抓取、放置)。
以上方式可能在某些場(chǎng)景,比如說(shuō)特別簡(jiǎn)單的Pick&Place任務(wù),包括上一代的工業(yè)自動(dòng)化的場(chǎng)景,但這明顯不是我們要追求的。Figure和波士頓動(dòng)力之前都是這種方式,現(xiàn)在已經(jīng)轉(zhuǎn)向端到端了。
記者:現(xiàn)在自變量的具身智能模型能力,如果類比AI大模型,處于哪個(gè)階段?
王潛:我覺(jué)得還處于GPT-2的階段,GPT-3當(dāng)時(shí)有一些明顯的特征,是在我們今天的模型上沒(méi)有足夠的scale去達(dá)到的。業(yè)內(nèi)像PI和google的進(jìn)度也差不多,這是由Scaling Law的客觀規(guī)律決定的。
記者:國(guó)內(nèi)具身智能大模型要實(shí)現(xiàn)商業(yè)化還需要多長(zhǎng)時(shí)間。
王潛:其實(shí)基本上快的話就是一年左右的時(shí)間點(diǎn),慢的話可能就是兩年左右。我指的是真正的商業(yè)化,能夠?qū)嶋H意義上的讓用戶愿意去付費(fèi)。當(dāng)然商業(yè)化也分不同階段,要進(jìn)入C端,比如家庭的保姆機(jī)器人或者室內(nèi)服務(wù)機(jī)器人,時(shí)間要更慢一些,可能是3-5年。
大家普遍是會(huì)高估短期的技術(shù)進(jìn)步,低估中長(zhǎng)期的技術(shù)進(jìn)步——它比大家想象的會(huì)快一些。
記者:提到具身模型訓(xùn)練,大家都會(huì)說(shuō)數(shù)據(jù)短缺是個(gè)瓶頸,你們的數(shù)據(jù)夠嗎?
王潛:數(shù)據(jù)是一個(gè)有時(shí)間線的問(wèn)題。比如一開始對(duì)具身模型沒(méi)有任何感知、沒(méi)有理解的情況下,大量收集數(shù)據(jù)未必是正解,可能收集到的大部分?jǐn)?shù)據(jù)是沒(méi)有用的,或是低質(zhì)量的。所以對(duì)具身智能有多少了解,其實(shí)就應(yīng)該匹配多大的數(shù)據(jù)規(guī)模。
提升數(shù)據(jù)收集規(guī)模只是一方面,怎么把數(shù)據(jù)質(zhì)量做好,深刻地理解需要什么樣的數(shù)據(jù)則是另一方面。自變量之前做了很多后者的工作,這樣是更高效的方式。
目前一些開源的數(shù)據(jù)集、第三方數(shù)據(jù),數(shù)據(jù)質(zhì)量普遍不過(guò)關(guān),如果實(shí)際去用此類數(shù)據(jù)訓(xùn)練,模型效果不會(huì)特別好,這些數(shù)據(jù)可以作為補(bǔ)充,但不能完全依賴,目前我們的數(shù)據(jù)主要靠自己采集。
記者:這一波具身智能熱潮,國(guó)內(nèi)創(chuàng)企普遍花錢還挺謹(jǐn)慎的,好像在為冷靜期做儲(chǔ)備,你怎么看?
王潛:首先自變量花錢還是比較謹(jǐn)慎的,不該花的錢絕對(duì)不花。我們做的是長(zhǎng)線的大事,需要為行業(yè)可能的波動(dòng)做準(zhǔn)備。
但另一方面,該花的錢還是要花,不花錢的確做不出東西來(lái)。如果一直等國(guó)外的開源成果來(lái)follow或抄作業(yè),實(shí)在沒(méi)出息,而且根本無(wú)法實(shí)現(xiàn)通用機(jī)器人的最終目標(biāo)。
信心問(wèn)題、過(guò)冬問(wèn)題,其實(shí)反映出來(lái)的是能力不足,所以信心不足。如果真的有足夠的能力和判斷,是不會(huì)這么去想這個(gè)問(wèn)題的,最初的團(tuán)隊(duì)基因和能力水平會(huì)決定很多戰(zhàn)略上的判斷和看問(wèn)題的方式。
說(shuō)到底,行業(yè)的波谷為什么會(huì)來(lái)?是因?yàn)樾袠I(yè)沒(méi)有做出實(shí)際成果來(lái),做出來(lái)了,就自然會(huì)有一個(gè)波峰。為什么不去做引領(lǐng)波峰的公司,引領(lǐng)投資熱潮,而要被動(dòng)的適應(yīng)環(huán)境呢?我覺(jué)得這才是一個(gè)創(chuàng)業(yè)者應(yīng)該有的心態(tài)。
“部分商業(yè)化場(chǎng)景的價(jià)值和意義存疑”
記者:投資人都是怎么評(píng)估自變量的技術(shù)能力?靠DEMO視頻嗎,還是現(xiàn)場(chǎng)真機(jī)演示?
王潛:我們都是真機(jī)演示,自變量從成立第一天,就堅(jiān)持真機(jī)演示是第一位的。視頻有太多可以造假的方式了?,F(xiàn)場(chǎng)才能夠看到模型真實(shí)的表現(xiàn),甚至于需要去現(xiàn)場(chǎng)和機(jī)器人互動(dòng),進(jìn)行一些人為干擾,看看模型在各種各樣的極限情況下會(huì)有什么樣的表現(xiàn),這才真正能體現(xiàn)模型的水平。
記者:到現(xiàn)在這個(gè)估值體量,投資人現(xiàn)在會(huì)對(duì)自變量有商業(yè)化的要求嗎?
王潛:分投資人。有的投資人比較看重具身智能模型能力可以達(dá)到多高的上限,另一部分投資人比較看重商業(yè)化,不同投資人的偏好風(fēng)格差距還是挺大的。
自變量有些特殊,不謙虛地說(shuō),我們就是處于國(guó)內(nèi)具身智能模型領(lǐng)先地位的,投資人對(duì)于第一名天然是有一些優(yōu)待。大家相信我們能夠達(dá)到非常高的upside,所以不會(huì)要求我們?yōu)樯虡I(yè)化而商業(yè)化,大家更希望我們?nèi)プ觥坝袃r(jià)值”的商業(yè)化,希望我們更加專注通用具身智能模型的大目標(biāo)。
記者:你們現(xiàn)在還沒(méi)有發(fā)布本體產(chǎn)品吧,怎么達(dá)到另一部分投資人商業(yè)化的要求。
王潛:我們其實(shí)現(xiàn)在已經(jīng)有本體產(chǎn)品了,只是還沒(méi)正式對(duì)外大規(guī)模發(fā)布。而且我們的本體產(chǎn)品已經(jīng)有實(shí)際的銷售和落地了,主要應(yīng)用在偏服務(wù)業(yè)的場(chǎng)景。除了目前的型號(hào)之外,我們還會(huì)再推出新的本體。
圖源:企業(yè)授權(quán)
記者:現(xiàn)在具身智能進(jìn)入服務(wù)業(yè)技術(shù)成熟了嗎?
王潛:我們和種子客戶現(xiàn)在還處于POC(概念驗(yàn)證)的階段,今年年底到明年年初還是很有希望,當(dāng)然目前也還需要做大量的工程工作。而且我們不會(huì)局限于簡(jiǎn)單的Pick&Place操作(即Pick抓取和Place放置)。
過(guò)于簡(jiǎn)單的Pick&Place操作,對(duì)于具身智能模型的進(jìn)一步訓(xùn)練和發(fā)展沒(méi)有幫助,上一代技術(shù)其實(shí)也完全可以實(shí)現(xiàn),甚至純自動(dòng)化的技術(shù)也能滿足。自變量還是希望能夠做一些以前所有技術(shù)都沒(méi)辦法覆蓋的,足夠多樣、足夠復(fù)雜、足夠開放的場(chǎng)景。
記者:今年底或明年初就完成POC進(jìn)入實(shí)際應(yīng)用的話,會(huì)是一個(gè)什么樣的利潤(rùn)率水平。
王潛:傳統(tǒng)的服務(wù)機(jī)器人能做的事情比較單一,而我們的機(jī)器人是通用的,機(jī)器人能力不同,創(chuàng)造的價(jià)值不同,市場(chǎng)競(jìng)爭(zhēng)態(tài)勢(shì)和客戶的付費(fèi)意愿也不同。當(dāng)然早期階段盈利并不是最重要的目標(biāo),主要還是希望通過(guò)理解實(shí)際場(chǎng)景的需求打磨產(chǎn)品。
記者:同行出貨更多的在科研教育和商城迎賓這倆場(chǎng)景,這兩個(gè)場(chǎng)景更成熟吧。
王潛:雖然這也是在做商業(yè)化,但這兩個(gè)場(chǎng)景商業(yè)化的價(jià)值和意義還有待商榷,感覺(jué)更多可能是為了滿足投資人對(duì)于商業(yè)化的要求,而不是真的相信這件事情可以通往真正想要去的大的目標(biāo)(通用具身智能)。
科研和迎賓這兩個(gè)場(chǎng)景本身市場(chǎng)總規(guī)模不大,不可能當(dāng)做具身智能最終面向的目標(biāo)市場(chǎng)。這兩個(gè)場(chǎng)景可以作為“沿途下蛋”的產(chǎn)物,但如果把它作為一段時(shí)間的主要方向,就可能偏離最終的目標(biāo)。
記者:這兩個(gè)場(chǎng)景確實(shí)規(guī)模不大,但是不是也有可能和其他小場(chǎng)景共同造出一個(gè)不大不小的市場(chǎng)來(lái),足夠讓一家公司做到上市體量,比如某公司的投資方說(shuō)過(guò),“僅來(lái)自股東方的需求可能就創(chuàng)造出幾萬(wàn)臺(tái)機(jī)器人的銷量”。
王潛:?jiǎn)栴}是這種上市有什么意義呢?這幾萬(wàn)臺(tái)做完了之后呢?不能說(shuō)這幾萬(wàn)臺(tái)的需求做完之后,就不做生意了。
記者:如果具身智能比AGI更難,永遠(yuǎn)實(shí)現(xiàn)不了,抓住科研和迎賓這種小市場(chǎng),是不是一種務(wù)實(shí)?
王潛:我覺(jué)得大可不必,如果創(chuàng)業(yè)者不相信具身智能,為什么要去做呢?如果認(rèn)為具身智能是非常遙遠(yuǎn)、幾十年后才會(huì)出現(xiàn)的事情,那根本就不應(yīng)該現(xiàn)在進(jìn)入這一領(lǐng)域。
記者:你怎么看工廠場(chǎng)景?最近Figure被外媒報(bào)道,F(xiàn)igure的人形機(jī)器人在寶馬工廠里打工的事情有夸大的嫌疑。
王潛:現(xiàn)在人形機(jī)器人進(jìn)工廠,能落地的事情非常有限,其實(shí)就是一個(gè)PR(公關(guān))行為。
實(shí)際工廠對(duì)速度和準(zhǔn)確率有很高的要求,很多公司目前在做的任務(wù)其實(shí)還是更適合用上一代技術(shù)來(lái)實(shí)現(xiàn)。
比如流水線相對(duì)來(lái)說(shuō),還是一個(gè)比較封閉、固定的環(huán)境,反而不利于發(fā)揮具身大模型所追求的復(fù)雜操作,開放、隨機(jī)、動(dòng)態(tài)環(huán)境和場(chǎng)景、泛化性的要求等,具身機(jī)器人在一般的工廠場(chǎng)景里也學(xué)不到什么,場(chǎng)景太簡(jiǎn)單了,對(duì)于模型能力提升幫助非常有限。
自變量更傾向于選擇復(fù)雜的場(chǎng)景,復(fù)雜場(chǎng)景才能真正促進(jìn)模型能力有效提升,也是真正意義上存在客戶需求、用戶愿意買單、替代完成人類不愿意做的事情的領(lǐng)域。
經(jīng)濟(jì)學(xué)中一直有所謂是需求創(chuàng)造供給,還是供給創(chuàng)造需求的爭(zhēng)議,在具身智能這一Moonshot領(lǐng)域,是很明顯的供給創(chuàng)造需求。
“對(duì)于大部分軟硬一體的東西來(lái)說(shuō),開源都是很差的一種模式?!?/span>
記者:美國(guó)同行的估值更高,資金更多,中美之間的具身智能模型水平是不是有差距?
王潛:國(guó)內(nèi)的整體水平相比于國(guó)外肯定還是差的,而且差得不少。我們重點(diǎn)關(guān)注的國(guó)外同行包括Physical Intelligence(PI)、google、特斯拉。
但就目前來(lái)說(shuō),我們還是有很大的機(jī)會(huì)能夠和美國(guó)在同一個(gè)水平線上去發(fā)展。甚至我們有機(jī)會(huì)在今年或者明年超過(guò)他們。
我覺(jué)得大家會(huì)有覺(jué)得國(guó)內(nèi)做的不如美國(guó)的心態(tài),可能和過(guò)去長(zhǎng)期處于“跟隨者”的角色有關(guān)。但在具身智能的發(fā)展實(shí)際中,沒(méi)必要過(guò)于自我懷疑。以自變量為例,我們能做到的模型水平已經(jīng)能夠和PI等國(guó)際頂級(jí)團(tuán)隊(duì)在同一個(gè)水平線上,在部分指標(biāo)上甚至實(shí)現(xiàn)了超越。
記者:第一梯隊(duì)的PI已經(jīng)開源了機(jī)器人通用基礎(chǔ)模型π0,這會(huì)不會(huì)把大家的水平拉平?
王潛:PI開源到現(xiàn)在差不多半年的時(shí)間,國(guó)內(nèi)有一些企業(yè)也嘗試在其基礎(chǔ)上進(jìn)行微調(diào),但從實(shí)際效果來(lái)看,并不會(huì)明顯優(yōu)于其他開源方案,更無(wú)法完整復(fù)現(xiàn)PI團(tuán)隊(duì)在其自有機(jī)器人本體上的表現(xiàn)。實(shí)際上,跨本體適配的問(wèn)題依然是一個(gè)重要挑戰(zhàn)。
記者:PI的π0微調(diào)之后,可以應(yīng)付什么樣的商業(yè)化場(chǎng)景?
王潛:目前來(lái)看,在新本體上微調(diào)后π0的能力會(huì)有比較大的損失,在商業(yè)化場(chǎng)景中的實(shí)際應(yīng)用比較有限。實(shí)際上PI之所以選擇開源,很大程度上在于其自身難以直接商業(yè)落地。PI本身并不做硬件,需要依賴其他企業(yè)將模型和硬件結(jié)合來(lái)落地,所以它才會(huì)采取開源模型這樣的方式。
記者:和AI大模型創(chuàng)業(yè)一樣,不貿(mào)然投入,等國(guó)外先進(jìn)模型開源后再跟隨,是不是也不失為一種好策略?
王潛:這乍聽上去像是一個(gè)好策略。但是第一,靠抄能不能抄得到是個(gè)問(wèn)題,具身智能不像語(yǔ)言模型可以蒸餾,它復(fù)現(xiàn)的難度很大。復(fù)現(xiàn)開源模型過(guò)程中,由于之前沒(méi)做過(guò),該踩的坑還是要踩,其實(shí)并沒(méi)有節(jié)省多少時(shí)間。
其次,這么做整個(gè)公司的精氣神兒就沒(méi)有了。如果自己都不相信自己能做成,那憑什么讓和你一起做這件事的人相信公司可以。
去做一件有意義的事情,是需要專注、信仰和創(chuàng)造力的。如果靠等待和抄作業(yè),在科技創(chuàng)新領(lǐng)域,就只能是做一些很平庸的事情,永遠(yuǎn)成就不了一家偉大的公司。
記者:具身智能有可能跟AI大模型一樣形成開源和閉源兩個(gè)陣營(yíng)嗎?
王潛:本質(zhì)上,對(duì)于軟硬一體的領(lǐng)域來(lái)說(shuō),開源是一個(gè)偽命題,至少不是商業(yè)化的命題。之前的無(wú)人機(jī)、自動(dòng)駕駛等,在發(fā)展的過(guò)程中都有大量的開源,但最終所有的開源都沒(méi)能成功。
大家現(xiàn)在對(duì)開源會(huì)有一些期待,或者說(shuō)比較敏感,本質(zhì)上是因?yàn)槿藗兛吹皆谡Z(yǔ)言模型賽道,開源會(huì)有一些好的效果。但軟硬一體的東西和純軟件不一樣,軟件如語(yǔ)言模型,模型本身即產(chǎn)品,部署后可以立刻使用,很自然地獲得C端的影響力。
但是具身智能模型還需要搭配硬件才能成為產(chǎn)品,和人交互的界面、應(yīng)用的實(shí)體是硬件,所以很難獲得廣泛意義上的聲量,目前只能影響學(xué)術(shù)界、極客圈子以及行業(yè)內(nèi)群體。
比如π0模型在去年發(fā)布的時(shí)間點(diǎn)絕對(duì)是當(dāng)時(shí)世界領(lǐng)先的模型,但它在大眾端并沒(méi)有激起什么水花。所以具身智能的商業(yè)化肯定不能靠開源來(lái)實(shí)現(xiàn)。
第二,具身智能這個(gè)領(lǐng)域還是有特殊性。比如A實(shí)驗(yàn)室開源了一個(gè)具身智能模型,全世界沒(méi)有任何一個(gè)實(shí)驗(yàn)室能夠100%的復(fù)現(xiàn)出來(lái)開源實(shí)驗(yàn)室在他們自己環(huán)境下能做到的東西。不要說(shuō)完整的復(fù)現(xiàn),哪怕是大部分的復(fù)現(xiàn)也都很難實(shí)現(xiàn)。語(yǔ)言模型可以去蒸餾,但在硬件領(lǐng)域,不可能脫離機(jī)器人把數(shù)據(jù)蒸餾出來(lái)。
(審核編輯: 光光)
分享