來源:文匯報 發布時間:2023-9-4 9:55
■本報記者 沈湫莎
具身智能,一個一年前還在學術圈“圈地自萌”的概念,近來熱度持續攀升,甚至超過了此前爆火的大模型。圖靈獎得主姚期智、英偉達創始人黃仁勛、“硅谷鋼鐵俠”馬斯克、華裔人工智能權威李飛飛等AI領域的大咖紛紛發聲,認為具身智能將是人工智能的下一波浪潮。
除了言語上的“力挺”,產業端也在發力。今年5月,特斯拉公布人形機器人“擎天柱”最新進展。馬斯克預言,人形機器人這類產品的需求,未來將遠超特斯拉汽車。7月舉行的2023世界人工智能大會上,上海期智研究院“小星”、傅利葉智能“GR-1”等多款人形機器人同時亮相。從華為離職的“天才少年”彭志輝(B站Up主稚暉君)創立的上海智元機器人公司也于近期發布其自主研發的首款人形機器人“遠征A1”,目標直指“具身通用人工智能”。
有人說今年是“人形機器人元年”。有了大模型加持,人們不再滿足于機器人只是一個“大玩具”,更希望它能通過自我學習掌握各項技能,以更自然更智能的方式與周邊環境交互,完成各種任務,成為真正有意識的智能形態。也正是在大模型問世后,人們看到了實現通用人工智能(AGI)的可行性。
要擁有人一樣的智能,必須有人一樣的身體
1950年,“人工智能之父”艾倫·圖靈在其論文《計算機器與智能》中首次提出“具身智能”概念。其基本假設是,智能行為可以被具有對應形態的智能體通過適應環境的方式習得。換言之,要擁有人一樣的智能,必須有人一樣的身體。
如何理解?不妨回憶一下谷歌是如何讓機器識別貓的。科學家通過給機器“投喂”數以億計的圖片“告訴”它們,這些有四肢、有胡須、態度傲慢的小動物名叫“貓”。此時的機器如同一只被捆綁住手腳的貓,只能通過人為標注的知識進行學習。
相比之下,人類的學習過程并不只是“看”,我們可以通過撫摸、喂食、學貓叫等方式與貓互動,并在貓的反饋中不斷加深對這種生物的認知。上海交通大學電子信息與電氣工程學院計算機系教授、2023年“科學探索獎”得主盧策吾表示,從認知角度看,人是“第一人稱視角智能”,沒有身體的機器是“第三人稱視角智能”,前者可以通過與真實世界的互動進行主動學習,通過思維鏈的拓展去理解新的概念。
與過去通過“喂數據”指揮機器行動不同,具身智能的做法是讓機器自己學習如何與環境交互。OpenAI團隊曾公布過一段讓機械手還原魔方的視頻,他們在這項任務中設置了各種障礙,比如給機械手戴上手套、綁住其中兩根手指、更換不同阻力的魔方等,目的就是讓機器自己想辦法還原魔方。
“大腦”與“小腦”結合,更好地理解世界
在圖靈提出具身智能概念后的幾十年里,盡管大家都認可這是一個重要概念,但并沒有取得很大進展,因為當時的技術還不足以支撐其發展。
這兩年,具身智能在學術界的熱度逐步攀升。盧策吾透露,近年來在CoRL(機器人學習大會)上,具身智能領域的論文數量激增。今年年初舉行的IROS(智能機器人及系統國際會議)則將具身智能作為一個極為重要的議題。
而真正讓它爆火的,是今年上半年以ChatGPT為代表的大語言模型爆炸式“出圈”。彭志輝表示,大語言模型以及結合視覺等多種傳感器的復雜多模態模型,是實現具身智能的關鍵先決條件。它使機器人可以從程序執行導向轉向任務目標導向,向通用機器人邁出堅實步伐。
事實上,“遠征A1”就是以大模型為機器人“大腦”,任務泛化率和任務執行成功率是它的核心指標,具體考驗“大腦”在面對從未涉及的任務時能否自行決策并生成解決方案。有了大模型“端腦”(腦的最高級部位),“遠征A1”就能聽懂自然語言指令,分析出講話者的意圖。比如,主人說“我要一杯水”或“我渴了”,它都能理解,隨后前往飲水機或其他地方取水,并把水杯遞給主人。
外骨骼機器人公司傅利葉智能闖入具身智能賽道,既在意料之外又在情理之中。在其創始人顧捷看來,具身智能可以被視作“認知智能+運動智能”:多模態模型相當于讓機器人有了可以在真實世界中決策和行動的“大腦”,公司此前在運動機器人方面的技術儲備相當于在“小腦”上積累了豐富經驗,如今“大腦”與“小腦”結合挺進具身智能,可謂水到渠成。
具身智能的“終極幻想”還有多遠
在傅利葉智能豐富的產品線中,各類機器人對應不同的康復需求。而一旦實現具身智能,出現在人們面前的可能是另一幅場景——一款機器人,只需在專用場景上做一些開發適配,就能像人一樣勝任醫生、廚師、消防員等不同職業,在多場景中發揮作用。“這正是具身智能如此吸引人的原因之一。”顧捷說。
在大模型加持下,微軟、谷歌、英偉達等大廠,以及斯坦福大學、卡內基·梅隆大學等研究機構均在具身智能研究領域發力。其中谷歌依托旗下兩家AI科研機構——谷歌大腦和DeepMind,在技術路線上較為領先,其研發的RoboCat是全球首個能解決并適應多個任務的機器人,只需上百次演示就能掌握一項新技能。
盧策吾團隊的研究思路也是讓機器“自適應”。以讓機器人打開微波爐門這個操作為例,第一次,機器人可能沒有見過微波爐,所以距離軸和力氣預估會有偏差,不過沒關系,通過不斷嘗試,它就會自我習得打開微波爐所需的各項參數。目前,盧策吾團隊已經匯聚了100TB的研究數據,讓機器抓取了成千上萬個它從未見過的物體。
盡管大模型時代,人們對人形機器人有了更寬廣的想象空間,但在現實中,感知、驅動、能源、計算等具身智能的每一個關鍵環節,都距離理想狀態還相去甚遠,甚至連像普通人一樣走路這件事,至今仍是一個大難題。以人形機器人的移動能力為例,波士頓動力已經是業內望塵莫及的標桿,它推出的Atlas跑酷的視頻,一度讓人覺得機器人的運動能力已接近人類。實際上,Atlas在拍攝過程中,接近一半時間都會失去平衡。
目前在全球范圍內,人形機器人都還處于研發階段。動輒一臺幾十萬元的成本,以及技術上面臨的諸多瓶頸,仍然預示著人形機器人距離落地應用還有一段很長的路要走。(文匯報)