上海交大 × 百度百舸，新型异步 WAM 模型破解机器人落地难题

全世界各行各业联合起来，internet一定要实现！

2026-06-17 eNet&Ciweek

伴随AI进入物理世界，如何让具身智能机器人理解物理规律、完成复杂操控任务，是当前行业核心攻坚方向。世界-动作模型（WAM）正是破解这一难题的关键技术路径之一——通过学习视觉场景动态和动作，将物理先验信息注入机器人策略。然而，WAM在部署上长期存在一个痛点问题：世界预测和动作执行绑定到同一个短时间节奏上，动作慢、不闭环。

近日，上海交通大学ScaleLab团队、上海人工智能实验室联合百度智能云AI Infra团队，推出全新机器人操控模型AHA-WAM（异步视野自适应世界-动作模型），顺利攻克了长期困扰WAM模型落地的延迟难题，为行业带来新的技术突破。

论文地址：

https://arxiv.org/abs/2606.09811

项目地址：

https://serene-sivy.github.io/aha-wam/

无需预训练即达SOTA

在核心性能上，这款模型表现十分亮眼：它无需依赖大规模机器人真实数据做预训练，就在权威仿真基准平台RoboTwin 2.0上取得92.8%的平均任务成功率，超越了业内主流模型。在真实机器人场景的实操任务中，多项实操任务综合成功率达到78.3%，整体能力与依赖海量数据训练的主流通用模型相当。

除了精度突破，运行效率的提升更是本次成果的一大亮点。AHA-WAM将机器人闭环控制频率从此前同类模型的5.26 Hz提升至24.17 Hz，提速接近5倍；在此基础上，团队还推出轻量化版本AHA-WAM-Flash，控制频率进一步拉高至56.95Hz，相较传统基线提速超10倍，机器人动作响应变得更加流畅。

百度百舸AI计算平台为AHA-WAM模型从训练到部署推理全流程提供技术支持。AHA-WAM独创的异步架构，把耗时的视觉场景分析模块移出了动作执行的核心链路，从底层打破了推理效率的瓶颈。同时，百度百舸团队针对推理流程开展深度工程优化，将单步动作推理延迟从415ms压缩至41ms，实现约10倍加速。上海交大团队再通过模型蒸馏技术精简推理步骤，最终打磨出高实时性的Flash版本。

架构创新叠加多层工程优化，也让高性能实时机器人控制，真正具备了从实验室走向商用落地的条件。

新型异步WAM的「慢思考」与「快执行」

近年来，WAM世界-动作模型成为机器人操控领域的主流技术方向。这类模型的核心逻辑，是让机器人不仅学会执行动作，还能主动理解、预判场景变化，以此提升决策能力与场景泛化性。

但传统方案存在一个难以回避的短板：场景理解与动作执行被强行绑定在同一运行节奏中。机器人每执行一次动作，都要重复完成高开销的视觉计算，大量算力被消耗在帧间重复、低价值的画面变化上，直接导致机器人反应迟缓，严重制约了真机落地效果。如何平衡「场景理解能力」与「动作响应速度」，一直是行业亟待攻克的难题。

针对上述痛点，研究团队提出了一套全新的异步协同方案，简单来说就是让AI「想得慢、动得快」：

慢速世界规划模块：专注于长周期的场景理解与全局任务规划，生成的分析结果会被缓存，可反复调用；

高速动作执行模块：以高频率持续输出动作指令，直接复用缓存好的场景信息。

这种快慢结合的运作模式，突破了传统模型「思考与行动绑定同步」的固有框架。从最终结果来看，将AI的「思考」与「行动」拆分为不同节奏异步运行，不仅没有降低任务完成精度，反而同时实现了准确率与响应速度的双重提升。

不过单纯把思考和行动分开，也会出现一个新问题：提前「想好」的环境方案，很容易跟不上实时变化，反而拖累机器人完成任务。为此团队增加了一套轻量化动态调节机制，不需要重复进行复杂运算，就能随时微调之前的规划内容。既保留异步设计带来的超快反应速度，同时牢牢稳住作业成功率，有效解决了行业内「提速必降精度」的普遍难题。

AHA-WAM的成果表明，让机器人AI的「思考」和「行动」以不同频率异步运行，不仅不会降低任务完成质量，还能同步提升准确率与响应速度。同时以更低的算力消耗换取更高运行效率，也为WAM模型规模化落地开辟了全新路径。