2026中国IPO硬科技企业TOP30
全世界各行各业联合起来,internet一定要实现!

上海交大 × 百度百舸,新型异步 WAM 模型破解机器人落地难题

2026-06-17 eNet&Ciweek

伴随AI进入物理世界,如何让具身智能机器人理解物理规律、完成复杂操控任务,是当前行业核心攻坚方向。世界-动作模型(WAM)正是破解这一难题的关键技术路径之一——通过学习视觉场景动态和动作,将物理先验信息注入机器人策略。然而,WAM在部署上长期存在一个痛点问题:世界预测和动作执行绑定到同一个短时间节奏上,动作慢、不闭环。

近日,上海交通大学ScaleLab团队、上海人工智能实验室联合百度智能云AI Infra团队,推出全新机器人操控模型AHA-WAM(异步视野自适应世界-动作模型),顺利攻克了长期困扰WAM模型落地的延迟难题,为行业带来新的技术突破。IMG_5849.jpeg

论文地址:

https://arxiv.org/abs/2606.09811

项目地址:

https://serene-sivy.github.io/aha-wam/

无需预训练即达SOTA

在核心性能上,这款模型表现十分亮眼:它无需依赖大规模机器人真实数据做预训练,就在权威仿真基准平台RoboTwin 2.0上取得92.8%的平均任务成功率,超越了业内主流模型。在真实机器人场景的实操任务中,多项实操任务综合成功率达到78.3%,整体能力与依赖海量数据训练的主流通用模型相当。

除了精度突破,运行效率的提升更是本次成果的一大亮点。AHA-WAM将机器人闭环控制频率从此前同类模型的5.26 Hz提升至24.17 Hz,提速接近5倍;在此基础上,团队还推出轻量化版本AHA-WAM-Flash,控制频率进一步拉高至56.95Hz,相较传统基线提速超10倍,机器人动作响应变得更加流畅。

百度百舸AI计算平台为AHA-WAM模型从训练到部署推理全流程提供技术支持。AHA-WAM独创的异步架构,把耗时的视觉场景分析模块移出了动作执行的核心链路,从底层打破了推理效率的瓶颈。同时,百度百舸团队针对推理流程开展深度工程优化,将单步动作推理延迟从415ms压缩至41ms,实现约10倍加速。上海交大团队再通过模型蒸馏技术精简推理步骤,最终打磨出高实时性的Flash版本。

架构创新叠加多层工程优化,也让高性能实时机器人控制,真正具备了从实验室走向商用落地的条件。

新型异步WAM的「慢思考」与「快执行」

近年来,WAM世界-动作模型成为机器人操控领域的主流技术方向。这类模型的核心逻辑,是让机器人不仅学会执行动作,还能主动理解、预判场景变化,以此提升决策能力与场景泛化性。

但传统方案存在一个难以回避的短板:场景理解与动作执行被强行绑定在同一运行节奏中。机器人每执行一次动作,都要重复完成高开销的视觉计算,大量算力被消耗在帧间重复、低价值的画面变化上,直接导致机器人反应迟缓,严重制约了真机落地效果。如何平衡「场景理解能力」与「动作响应速度」,一直是行业亟待攻克的难题。

针对上述痛点,研究团队提出了一套全新的异步协同方案,简单来说就是让AI「想得慢、动得快」:

慢速世界规划模块:专注于长周期的场景理解与全局任务规划,生成的分析结果会被缓存,可反复调用;

高速动作执行模块:以高频率持续输出动作指令,直接复用缓存好的场景信息。IMG_5848.jpeg

这种快慢结合的运作模式,突破了传统模型「思考与行动绑定同步」的固有框架。从最终结果来看,将AI的「思考」与「行动」拆分为不同节奏异步运行,不仅没有降低任务完成精度,反而同时实现了准确率与响应速度的双重提升。

不过单纯把思考和行动分开,也会出现一个新问题:提前「想好」的环境方案,很容易跟不上实时变化,反而拖累机器人完成任务。为此团队增加了一套轻量化动态调节机制,不需要重复进行复杂运算,就能随时微调之前的规划内容。既保留异步设计带来的超快反应速度,同时牢牢稳住作业成功率,有效解决了行业内「提速必降精度」的普遍难题。

AHA-WAM的成果表明,让机器人AI的「思考」和「行动」以不同频率异步运行,不仅不会降低任务完成质量,还能同步提升准确率与响应速度。同时以更低的算力消耗换取更高运行效率,也为WAM模型规模化落地开辟了全新路径。

相关频道: eNews 媒体专区

您对本文或本站有任何意见,请在下方提交,谢谢!

投稿信箱:tougao@enet16.com