在2024年7月6日的上海,世界人工智能大会的舞台上,
机器人伸出仿生机械手,与小朋友握手,共绘未来篇章。
视觉中国的资料图,记录了这一刻,科技与童真交织的光芒。
从深蓝到AlphaGo,AI的足迹跨越棋盘,
信息智能的辉煌,让全球为之震撼。
但那时的AI,只是计算的头脑,缺乏物理世界的触碰。
AlphaGo在服务器上训练,击败世界冠军,
但它仍是算法系统,需要人来落子。
这是AI发展的第一阶段——信息智能,
擅长数据处理,却无法直接影响现实。
如果AI是一场马拉松,那么第一阶段,我们造出了超凡的大脑。
现在,它迎来第二阶段——具身智能(Embodied AI),
AI不再局限于数据中心和屏幕,而是开始与物理世界交互。
2025年,《政府工作报告》首次将具身智能写入其中,
提出建立未来产业投入增长机制,重点培育具身智能等未来产业。
这一政策信号,标志着具身智能正从实验室走向现实,
成为人工智能发展的重要方向。
从算法到动作,AI迈出关键一步。
想象一下,机器人服务员优雅地端着托盘,
将热腾腾的咖啡放在你面前,没有洒出一滴。
这件事,对AI来说,却是一个天大的难题。
拿起一杯咖啡,这个看似简单的动作,
实则涉及复杂的传感、肌肉控制、平衡调整。
AI需要精准感知杯子的形状、材质、重量,
计算手指施加的力度,同时调整身体平衡,
以确保液体不会洒出。
而这些,对人类来说几乎是本能,对AI而言,却需要从零开始学习。
如果说,信息智能的AI是生活在“理想国”里的哲学家,
那么物理智能的AI,就是要下地干活的工人。
而现实世界,比数据世界复杂得多,也更加不可预测。
最典型的例子,就是波士顿动力的机器人。
它们能奔跑,跳跃,甚至做后空翻,看上去仿佛已掌握了物理智能。
但你如果让它去开门,拧螺丝,或者在湿滑的地面上奔跑,
它可能就会摔得四脚朝天。
动作的流畅性不等于真正的灵活性,
要让机器人适应复杂的现实环境,仍然存在巨大挑战。
为了让机器人更好地执行日常任务,
斯坦福大学李飞飞团队提出了一种全身操作综合框架——行为机器人套件(BRS)。
该框架旨在提升机器人在家庭环境中的自主执行能力,
使其能够完成倒垃圾、整理衣物、刷马桶等多样化的家务任务。
这项研究是具身智能突破的典型案例,
它不仅让机器人“理解”任务,还让它们真正具备“动手”能力,
使AI逐步迈向现实世界的高效执行者。
AI的关键,不只在于思考,更在于行动。
信息智能让AI成为“世界上最聪明的读书人”,
但仅仅会思考,无法改变世界。
真正的变革,来自行动。
具身智能,才是AI走向现实的关键。
回顾人类的进化历程,
我们是因为会思考而强大,还是因为会行动而强大?
牛顿发现了万有引力定律,这是划时代的突破;
但如果没有工程师们设计并制造出飞机引擎,
我们依然无法飞翔于蓝天。
爱因斯坦提出了相对论,这是科学史上的伟大突破;
但如果没有物理学家和工程师的不断努力,
我们也无法享受到GPS技术带来的便捷。
知识塑造世界,但最终推动世界前行的,是实践。
人工智能亦是如此。
信息智能让AI理解世界,物理智能让AI改造世界。
今天,我们可以用Deepseek生成一篇文章,
用豆包AI画一张图。
但我们还无法让AI盖一座房子、做一顿饭、或为病人完成一场手术。
未来,具身智能的突破,才是真正让AI进入日常生活的关键。
2025年3月,谷歌与机器人开发公司Apptronik合作,
推出了两个基于Gemini 2.0的机器人AI模型——Gemini Robotics和Gemini Robotics-Embodied Reasoning(ER),
旨在帮助机器人执行比以往更多的现实任务。
这两款模型的核心目标,
是让机器人不仅能听懂指令,
还能理解并适应新的环境和任务,
这是物理智能发展的关键一步。
测试表明,Gemini Robotics具备更强的泛化能力,
能够处理未经过训练的任务,
如折纸、将眼镜放入盒中、打开瓶盖等。
相比之下,Gemini Robotics-ER版本更侧重于空间感知和任务规划,
可供受信任的机器人开发者集成到自身系统中。
这些技术突破,标志着机器人在现实环境中的适应能力和执行力取得了重要进展,
使AI进一步从虚拟世界迈向物理世界。
具身智能面前的“三座大山”
AI要真正进入物理世界,最大的挑战是什么?
目前来看,主要有三座大山:感知能力、运动控制和学习能力。
这三者的突破,正在让具身智能从“实验室玩具”蜕变为“全能助手”。
第一座山:感知能力的进化,
从“盲人摸象”到“眼观六路”
感知能力是机器人迈向现实世界的首要难题。
人类的大脑,依靠眼睛、耳朵、皮肤等多种传感器感知世界,
而机器人也需要类似的“感官”——摄像头、激光雷达、触觉和压力传感器等等。
但问题在于,人类的感知能力是动态、综合且可适应的,
而当前的AI感知系统通常是单一的、割裂的。
未来的机器人需要具备更强的泛化能力,
能够适应从未见过的任务,
并且在新的环境中迅速理解和反应。
例如,机器人需要能够在面对不同物体、复杂场景或陌生环境时,
快速识别并采取适当的行动。
未来的家庭机器人管家需要在昏暗卧室避开满地乐高,
抱起婴儿时自动调节力度,
煮咖啡时根据香气调整萃取时间。
这要求AI具备真正的全模态感知能力,
让机器人像人类一样“眼耳鼻舌身意”俱全,在真实世界中精准感知、灵活应对。
第二座山:运动控制的革命,
从“机械舞者”到“灵活工匠”
如果说感知能力决定了机器人能“看见”世界,
那么运动控制决定了它能否与世界互动。
你有没有注意到,今天的机器人能做许多事情,
但它们的动作总显得有些生硬。
这主要是因为人类的运动控制非常灵活,
我们的肌肉、神经系统能够实时调整,
而现有的AI运动系统仍显得粗糙。人类行走时,
每步涉及200多块肌肉的毫秒级协调,
而机器人要实现这种行云流水的动作,
必须突破动态平衡、精细操作和能量效率三重难关。
随着技术的进步,
机器人在动作控制方面的灵活性也在不断提升。
未来的机器人能够精细地完成一些复杂的任务,
如折纸、拿起易碎物品,甚至像人类一样操作物品。
要实现这一点,
机器人不仅需要精准的动作控制,
还需要对周围环境做出实时的感知和调整。
这种灵活性将使机器人更好地适应真实世界中的多变场景,
执行需要高度协调和精密操作的任务。
只有真正做到这一点,
机器人才能适应真实世界的多变场景,
从流水线上的机械臂,
进化为可以胜任各种精细任务的“灵活工匠”。
第三座山:学习能力的蜕变,
从“死记硬背”到“见机行事”
学习能力是机器人面临的第三大挑战。
人类的学习,往往是通过试错、经验积累和直觉判断等多种方式结合的,
而现有的AI虽然可以通过强化学习来训练动作,
但它们仍然缺乏真正的“直觉”和“经验”,
使得它们在面对环境变化时常常无法应对。
未来的机器人需要具备更强的自适应学习能力,
能够通过日常对话或指令理解,
不断调整自己的行为,并根据环境的变化不断优化自己的操作方式。
这种持续学习和动态适应的能力,
才能让机器人在复杂的现实世界中真正胜任任务,
而不仅仅是按照预设程序执行操作。
真正的智能,不是存储在数据库里的代码,
而是在物理交互中涌现的生命力。
这些突破意味着,
未来的机器人将不仅仅是单纯的工具,
而是具备感知、行动、学习和适应能力的智能体。
随着技术的不断发展,
AI将逐渐从云端算力堆砌的“数字幽灵”,
进化为扎根现实世界的“硅基生命体”。
AI的边界,还能延展到何处?
信息智能,让AI变得聪明;
物理智能,让AI具备力量。但AI的终点,
并非只是更强的计算能力或更灵活的肢体,
而是迈向更高级的第三阶段——生物智能。
MIT实验室正在探索将神经细胞与芯片结合的技术,
而中国科学院的研究团队已成功使机器人通过脑机接口“感知”虚拟疼痛。
这些探索或许意味着,
AI正在向生命的复杂性靠近。未来的AI将不再仅仅是冷冰冰的机器,
而是像人类生命一样思考、学习、适应,甚至自主进化。
然而,生物智能仍是遥远的第三阶段。今天,我们才刚刚踏入第二阶段——具身智能的门槛。让AI具备真正的行动力,让它能够理解、感知、适应现实世界,这一过程可能比我们预想的更漫长。历史上,每一次技术革命,都是从思想到行动的演进。人类用了几千年,从哲学的思辨走向科技的实践,从构想工具到掌握工具,再到成为工具的创造者。而AI正在沿着同样的路径前进。
唯一的问题是:
我们准备好迎接这个“站起来”