![]()
2018 年从哈佛回国时,橡木果机器人的发起人姜峣有了一个判断:语言和操作,是两种完全不同的智能。
这个判断并非来自他博士时期在清华机械工程系的研究,而是源于他在哈佛认知实验室的博士后经历。在那里,他开始研究视觉与触觉感知能力如何影响人的操作行为。在一次次的实验观察中,他发现语言和操作有着本质上的差异:
语言没有先天本能。一个孩子出生后若不接触人类社会,一辈子都不会说话,且环境教什么语言就说什么语言。但操作恰恰相反:全球所有人抓取物体的方式高度一致,无论跨越怎样的年龄、文化与环境。从未有人教过我们该如何去“抓”,我们却都能无师自通。他将这种潜藏在操作行为背后的先天机制,理解为“本能”。
过去几年,随着大模型兴起,机器人行业逐渐形成了一条主流路线:将视觉、语言和动作交由同一个大模型处理,试图用端到端的方式直接输出动作。从 VLA 到世界模型,大多数探索都建立在这种“大一统”的逻辑之上。
但姜峣认为,这条路在操作层是走不通的。语言智能处理的是符号,操作智能面对的是物理世界;任务理解可以依赖知识,动作执行却必须适应具体的硬件