Copyright 2014-2025 觀經濟 版權所有 京ICP備20151973號-1
2023年本科畢業于北京大學信息科學技術學院。目前為美國Northeastern University在讀博士生,研究方向為機器人與機器學習, 具身智能, 在 CVPR、ICML、CoRL 等頂級會議中發表過論文。
具身智能是近年來非常火概念。一個智能體(比如人)能夠在環境中完成感知、理解與決策的閉環,并通過環境反饋不斷進入新一輪循環,直至任務完成。這一過程往往依賴多種技能,涵蓋了底層視覺對齊,空間感知,到上層決策的不同能力,這些能力便是廣義上的具身智能。
已經有很多優秀的工作把多模態大語言模型(MLLMs)部署在具身智能的不同應用上。盡管已經有不少相關工作評估過他們具身智能的潛力,但主要集中在子領域上,比如給點(Pointing),空間推理(Spatial Reasoning)等等,也有一些工作在仿真里定義任務評估他們的性能,比如EmbodiedBench等,但是他們并沒有把一個任務切分成一步步的原子技能,也就無法判斷出到底是哪個細粒度的能力導致一個任務的失敗。
BEAR基準
為了系統評估MLLM在具身智能的各個子能力,美國東北大學聯合香港中文大學,哈佛大學,提出了BEAR基準,并且提供了詳細的錯因分析和算法提升。
