PaperAgent 2026-04-13 08:51 湖北

图片

VLA大模型让机器人动作越来越流畅,但记性仍是短板。面对”刚才加过盐了吗”这类需要回忆过去状态的非马尔可夫任务,现有模型往往束手无策。

强行让模型记住过去会引发三大问题:

  • 转瞬即忘:刚做的事下一秒就忘
  • 场景混淆:相似画面导致决策混乱
  • 算力爆炸:超长视频让推理慢如蜗牛

根源在于主流VLA依赖短时密集观察,缺乏长程时间理解能力。同济大学等提出的Keyframe-Chaining VLA(KC-VLA)框架给出了新思路——不再死记硬背连续视频,而是通过提取和链接语义关键帧,赋予机器人全局的时间感知能力。

图片

arXiv:  [https://arxiv.org/abs/2603.01465](https://arxiv.org/abs/2603.01465)  
Github: [https://github.com/TJ-Spatial-Intelligence-Lab/KC-VLA](https://github.com/TJ-Spatial-Intelligence-Lab/KC-VLA)

01 现有 VLA 输入范式的局限

既然“记不住”是个大问题,那直接给大模型喂入更长的视频流不就行了吗?

图1:不同 VLA 输入范式的对比图片

实际上,现有的 VLA 模型在输入范式上并非没有尝试过,但往往陷入了“算力爆炸”与“有效视野受限”难以兼顾的死胡同。结合目前的行业主流做法,主要面临以下局限:

  • 范式一:无上下文 / 短上下文拼接(如 OpenVLA, Octo 等)这是目前最普遍的做法。它隐式地遵循了“马尔可夫假设”——假定当前或最近几帧的观测,就足够推断下一步动作。这种“走一步看一步”的方式在短平快任务中够用,但在复杂的非马尔可夫场景中,关键信息早就滑出了短视窗,模型就会立刻陷入“状态混叠”。
  • 范式二:扩展上下文窗口(如 ContextVLA 等)尽管此类方法在一定程度上扩大了模型的观测范围,但受限于计算复杂度和内存瓶颈,其窗口容量终究是有限的,依然难以有效捕获和利用时间跨度较远的关键历史信息。

这正是 KC-VLA 想要打破的僵局,提出放弃低效的“密集连续采样”,转而采用 “关键帧链接(Keyframe-chaining)”:像人类做笔记一样,只把发生关键语义变化的瞬间提取并缓存下来。这不仅有效规避了计算冗余,更让策略模型以极低的成本获取了真正的全局时间感受野。

02 时间抽象与动作生成的架构解耦

为克服上述时序局限,KC-VLA 框架的核心思想是摒弃处理冗余的连续视频流,转而采用将时间抽象与动作生成原语进行架构级解耦的设计。

图片

图2:KC-VLA 的系统架构概览:左侧为基于任务调制的关键帧选择模块 (KSM) ,右侧为结合了稀疏语义历史输入与流匹配(Flow Matching)策略的动作生成模块。

该系统主要由以下两个关键组件构成:

轻量级关键帧选择模块 (KSM)

该模块作为视觉流的时间过滤器在线运行。为了在避免计算冗余的前提下精准捕获语义过渡,KSM 采用了精心设计的“两阶段训练与部署协议”:

  • 阶段一:统一多任务度量学习与“三模态负采样” (Tri-modal Negative Sampling)

为了迫使视觉编码器  学习到真正具有语义区分度的特征,在特征提取阶段引入了 Triplet Margin Loss : 。 核心创新在于负样本  的三模态构造。除了常规的时间邻近负样本(Temporal Neighbors)外,以均等概率采样了“同任务异阶段”(Intra-task Phase Negatives)和“异任务”(Inter-task Negatives)的图像 。这种严格的对比学习约束,确保了模型能够在多任务共享的潜在空间中,建立起清晰且抗混淆的特征边界 。

  • 阶段二:任务调制查询与“贪婪时间平滑” (Greedy Temporal Smoothing)

在推理阶段,面对连续的局部特征窗口 ,KSM 并没有使用静态的分类器,而是通过 FiLM 机制生成动态逻辑查询  。具体而言,将任务 ID 嵌入投影为仿射参数  和  : 。 并以此来调制共享的阶段嵌入 ,从而将任务特定的语义编码进查询中 : 。 随后,通过交叉注意力机制计算出当前帧的匹配置信度得分  。 为实现稳健的物理环境闭环控制,在此基础上引入了贪婪时间平滑机制。当  超过阈值  时,触发时间验证窗口 。只有当高置信度的候选帧在窗口内通过稳定性测试后,才会被正式固化到稀疏历史 Buffer 中 。

基于稀疏语义历史的动作生成

被 KSM 显式索引并提取的离散关键帧  会被缓存,并与当前的视觉观测  进行结构化拼接,构建出非均匀的输入序列  。这一表征方式直接作为条件注入流匹配(Flow Matching)动作策略网络 ,将动作策略显式地锚定在任务的全局时序进度之上,有效化解了单帧输入的非马尔可夫状态歧义 。

03 打造高难度长程记忆 Benchmark

现有的基准测试在评估具身策略的记忆能力时往往存在明显的局限。如对比表所示,诸如 CALVIN 和 LIBERO-Long 等测试集虽然具备长时序特征(Long-Horizon),但普遍存在“马尔可夫偏见”(缺乏 Non-Markovian 属性),即最优动作仅凭当前观测即可推断;而类似 Mikasa-Robo 的测试集虽引入了非马尔可夫约束,但其任务序列较短(平均长度仅 72 步),难以对模型构成真正的长程记忆挑战。

图片

图3:VLA长程任务benchmark对比

为了填补这一评估空白,本研究基于 ManiSkill 模拟器,构建了一个严苛的长时序记忆依赖基准测试 (Memory Dependence Benchmark)。该基准的平均任务长度高达 550 步,是首个同时兼具超长时序跨度、严格非马尔可夫性以及对历史信息高度依赖的综合测试平台。它包含四大核心挑战:

  • **空间重构 (Spatial Reconfiguration)**:推倒乱序积木,完全凭记忆复原初始的垂直顺序。
  • **时间排序 (Temporal Sequencing)**:按红-绿-蓝的严格顺序搬运,考验模型对已完成进度的确认。
  • **计数延迟 (Counting & Latency)**:观察随机闪烁的信号灯,仅在第二次闪烁后行动。
  • **身份追踪 (Identity Tracking)**:在外观完全相同的方块被机械臂快速“洗牌”后,精准抓取最初位于中间的那个目标。

图片

图4:四个非马尔可夫任务

04 仿真 & 真实世界实验

自制仿真benchmark实验结果

在仿真实验中,KC-VLA 展现出了统治级的性能,最终实现了 92.0% 的整体平均成功率,而最强的长视窗基准模型(Long-term GR00T)仅为 57.0%。

抗干扰性与分布外(OOD)泛化

面对光照变化、未知背景、视角偏移等视觉扰动,KC-VLA 展现出极强的鲁棒性。实验数据显示,KSM 模块在各类严苛扰动下仍保持极高精度(F1 > 95),使得模型在 OOD 变体下依然维持 71.5% - 88.5% 的高成功率。

图片

图5:仿真实验结果

真实世界物理部署

在真实的 AgileX Piper 机械臂平台上,仅通过 50 条专家演示进行策略微调,KC-VLA 便成功应对了复杂的长时序多阶段推理任务。长时序多阶段任务的复杂性导致传统基准模型的表现受到显著限制:Diffusion Policy (DP) 与 GR00T 的平均成功率分别仅为 3.8% 和 6.3%,平均阶段完成率(Completion Rate)分别为 32.6% 和 43.1%。相比之下,KC-VLA 展现出了更优的物理环境鲁棒性与长时序一致性,其平均成功率提升至 48.75%,平均阶段完成率达到 75.3%。

图6:真实世界实验的结果图片

动手设计AI Agents:(编排、记忆、插件、workflow、协作)

分享两篇Claude Skills最新论文,有3个核心结论

会学习的龙虾,才是好龙虾:OpenClaw-RL
2026,做Agentic AI,绕不开这两篇开年综述


每天一篇大模型Paper来锻炼我们的思维~已经读到这了,不妨点个👍、❤️、↗️三连,加个星标⭐,不迷路哦~