最新精品久久,欧美亚洲福利,表妹免费在线观看,久久国产二区,国产三级电影网站,日本特黄久久,成人a在线视频免费观看

理大研究發(fā)現(xiàn)感官及運動信息有助大語言模型表達復雜概念

來源:The Hong Kong Polytechnic University

點擊:1533

A+ A-

所屬頻道:新聞中心

關鍵詞:理大研究 大語言模型

    香港 -Media OutReach Newswire- 2025年6月9日 - 沒有聞過花香、觸摸過花瓣,或在花園散步過,有可能真正了解什么是「花」嗎?這個問題引發(fā)了不少的哲學與認知科學爭論;有認知理論專家認為,親身感受和體驗是概念形成的關鍵,但目前飛速發(fā)展的大語言模型研究卻表明,僅憑語言便有可能建立對現(xiàn)實具有意義的真實表征。



    由理大冼為堅基金人文與科技講座教授、人文學院院長兼理大杭州技術創(chuàng)新研究院副院長李平教授領導的研究團隊,透過分析大語言模型和人類在概念表征上的相似度,為語言能在多大程度上推動復雜概念的形成和學習提出新見解。


    由香港理工大學(理大)研究人員與合作者組成的團隊,透過分析大語言模型和人類在概念表征上的相似度,為語言能在多大程度上推動復雜概念的形成和學習提出了新見解。研究并揭示「具身化訓練」(grounding),即為大語言模型提供感官(如視覺)及運動信息,讓模型能將抽象與具體概念聯(lián)系起來,可以影響其對復雜概念的理解并生成接近人類的表征。此研究與俄亥俄州立大學、普林斯頓大學及紐約市立大學的研究人員合作進行,成果最近于《Nature Human Behaviour》上發(fā)表。


    理大冼為堅基金人文與科技講座教授、人文學院院長兼理大杭州技術創(chuàng)新研究院副院長李平教授領導的研究團隊選取大語言模型ChatGPT(GPT-3.5和GPT-4)和 Google LLMs(PaLM 和 Gemini)所生成的詞匯評分,并將其與公開發(fā)表及經(jīng)過驗證的《格拉斯哥詞匯范本》(Glasgow Norms)和《蘭卡斯特詞匯模板》(Lancaster Norms)數(shù)據(jù)集中近4,500個詞語的人類評分進行比較。這些評分涵蓋了非感官運動領域,包括情感效價、具體性、可意象性等維度;感官領域,包括視覺、嗅覺、聽覺等維度,以及運動領域,包括腿/腳、嘴巴/喉嚨等維度。


    研究團隊以人與人之間的配對結(jié)果作為基準,首先將個別人類和大語言模型生成的數(shù)據(jù)進行比較,以探究人類與大語言模型的詞匯評分在上述領域各維度中的相似程度,從中找出大模型和人類在理解不同領域概念上的一致性,例如兩者是否都認為某些概念相較其他概念更加具體。然而,這種分析或會忽略不同維度如何共同影響詞匯的整體表征。以 「pasta」(意大利面)和「 roses」(玫瑰)為例,兩者同樣在嗅覺維度擁有較高的評分,但實際上「pasta」與「roses」遠遠不及「pasta」與「noodles」(面)接近,因為概念之間的相似度需要綜合考慮其外觀和味道。因此,團隊再運用了表征相似性分析(representational similarity analysis),將每個詞匯在各領域多個范疇的評分數(shù)據(jù)整合成一個向量(vector),以進行更全面的人類與模型比對。


    研究結(jié)果表明大語言模型生成的詞匯表征與人類表征的相似度,在非感官運動領域最高,感官領域次之,而在運動領域表現(xiàn)最差。這凸顯了大語言模型在表征人類概念上的局限;模型雖然能夠有效掌握非感官運動領域的概念,但在理解涉及視覺外觀、味覺等感官概念,或需要肢體動作體驗的運動概念時,表現(xiàn)明顯較為遜色。其中,動作性概念較少被文字完整描述,且高度依賴具身經(jīng)驗,相對于色彩一類能從文本數(shù)據(jù)學習到的感官概念,對模型而言更具挑戰(zhàn)性。


    根據(jù)研究結(jié)果,研究人員進一步檢驗具身化訓練能否提升大語言模型的表現(xiàn)。他們比較了同時接受語言及視覺輸入訓練的具身化模型(如GPT-4和Gemini),跟僅接受語言訓練的模型(如GPT-3.5和PaLM)之間的差異,結(jié)果發(fā)現(xiàn)結(jié)合視覺輸入的模型生成的表征與人類表征相似度明顯更高。


    李平教授表示:「純語言訓練及語言+視覺輸入(如圖像及視頻等)訓練的大語言模型,為研究感官及運動信息如何影響人類概念形成提供了獨特的機遇。我們的研究具體展現(xiàn)了多模態(tài)學習的潛在優(yōu)勢,因為實時整合多種模態(tài)的信息正是人類學習和表征的特點,如大模型能吸取到這個特征,就可更趨近人類的認知模式以及更如人類行為一樣高效率?!?/span>


    值得注意的是,這項發(fā)現(xiàn)與以往提出人類表征遷移現(xiàn)象的研究結(jié)果吻合。人類透過視覺和觸覺的多模態(tài)經(jīng)驗獲取對象形狀知識,如當我們觀看或觸摸對象時,大腦中同一區(qū)域會被激活。研究人員指出,正如人類一樣,經(jīng)過多模態(tài)輸入訓練的大語言模型在接收了多種信息后,或能在連續(xù)的高維度空間中進行表征融合或遷移。李教授續(xù)解釋:「大語言模型嵌入空間所具有的平滑及連續(xù)特性或許能解釋為何我們觀察到源自單一模態(tài)的知識能夠擴散至其他相關模態(tài)。此發(fā)現(xiàn)也可能揭示了先天失明人士與視力正常者之間為何會在某些領域上有相似表征。目前的大語言模型在這方面還有明顯不足?!?/span>


    展望未來,研究團隊指出今后可以透過類人型機械人技術把大語言模型與多模態(tài)數(shù)據(jù)整合,使其能主動解讀真實世界,并作出相應行動。李教授指:「相關技術發(fā)展或?qū)⒋呋笳Z言模型真正實現(xiàn)具身人工表征,從而更切實反映出人類認知所具有的復雜性和豐富性,屆時人們將無法指出大模型對玫瑰花的表征與人類的表征有何分別?!?/span>

    (審核編輯: 光光)

    聲明:除特別說明之外,新聞內(nèi)容及圖片均來自網(wǎng)絡及各大主流媒體。版權(quán)歸原作者所有。如認為內(nèi)容侵權(quán),請聯(lián)系我們刪除。