PaperAgent 2026-04-13 08:51 湖北

上交大&CMU最新智能体能力三次迁移:Weights、Context、Harness
大家好,我是PaperAgent,不是Agent!
可靠的Agent能力不仅来自模型内部参数权重,更来自将认知负担外部化到结构化基础设施中。
近期,上交大、中山大学、卡梅隆等发表长文对 LLM Agents中的外部化:记忆、Skills、协议与Harness工程进行了统一综述5000 star,Harness门槛被OpenHarness打穿了

借用认知工具(Cognitive Artifacts)理论:Agent基础设施的重要性不仅在于添加辅助组件,而在于将难以解决的认知负担转化为模型能更可靠处理的形式。

图1:外部化作为LLM Agent设计的组织原则
- 人类认知外部化的弧线(从思维→语言→文字→印刷→计算)
- LLM Agent对应的外部化弧线:从权重(Weights)通过三个外部化维度——记忆(Memory,外部化状态)、技能(Skills,外部化专业知识)、协议(Protocols,外部化交互)——最终到达Harness( harness系统)。只给零散实验日志,谷歌PaperOrchestra就能写出顶会投稿LaTeX论文
2. 从权重到上下文再到Harness:能力的三次迁移
展示了从2022到2026年,研究重心如何从Weights(预训练、Scaling Law)转向Context(RAG、长上下文),再到Harness(MCP工具生态、安全、多Agent协作)。

图2:社区主题在三个能力层次上的演变
2.1 权重时代(Weights):内在知识的局限
早期的现代LLM部署几乎完全依赖模型参数。预训练将统计规律、世界知识和推理习惯压缩进权重中。Scaling Law揭示了参数规模与性能的可预测关系。
局限:知识更新困难(需要重新训练)、难以审计(知识分散在数十亿参数中)、缺乏个性化(一套权重服务百万用户却无法区分)。
2.2 上下文时代(Context):提示工程的崛起
能力开始从模型内部向输入设计转移。少样本示例、思维链(Chain-of-Thought)、RAG(检索增强生成)等技术证明:不必修改权重,仅通过精心设计的上下文就能显著改变模型行为。

关键转变:将困难的”回忆”问题(模型必须从参数中恢复知识)转化为简单的”识别”问题(模型只需使用已提供的上下文)。
2.3 Harness时代:基础设施即能力
随着上下文窗口饱和和提示模板变得笨重,工程注意力转向”模型应在什么样的环境中运行?”。

图3:Harnessed LLM Agent的外部化架构
Harness层包括:持久记忆存储、工具注册表、协议定义、沙箱、子Agent编排、评估器等。可靠性越来越多地通过改变环境而非提示模型来解决。
3. 外部化状态:记忆系统(Memory)
记忆外部化解决的是Agent的时间连续性负担。原生LLM是”无状态生成器”:每次调用都是全新的上下文,连续性必须在提示中重建。
图4:作为外部化状态的记忆

展示了从原始上下文到记忆内容的转换,以及四种记忆系统架构:单体上下文、检索存储、分层编排(提取-巩固-遗忘-冷热交换)和自适应记忆系统(动态模块、基于反馈的策略优化)。
架构演进:
- 单体上下文:所有历史保留在提示中(简单但容量受限)
- 上下文+检索存储:近端状态在上下文,长期轨迹外部存储(RAG模式)
- 分层记忆与编排:引入显式的提取、巩固和遗忘操作(如MemGPT、Memory OS)
- 自适应记忆系统:模块和检索策略能根据经验响应(如MemEvolve、MemRL)
认知工具视角:记忆系统将”无界回忆”转化为”有界、精选的检索”,改变了模型在每个决策点面临的任务结构。
4. 外部化专业知识:技能系统(Skills)
技能外部化解决的是程序性负担。模型可能”知道”如何完成任务,但可靠执行需要重复构建工作流、默认值和约束,这导致方差:遗漏步骤、不稳定的工具使用、不一致的终止条件。
4.1 技能的三个组件
- 操作程序(Operational Procedure):任务骨架(步骤分解、阶段、依赖、停止条件)
- 决策启发(Decision Heuristics):分支点的实用经验法则(先尝试什么、何时退出)
- 规范约束(Normative Constraints):可接受性的边界(测试要求、范围限制、访问控制)
4.2 从执行原语到能力包
技能系统经历了三个阶段:
- 阶段1:原子执行原语(如Toolformer)——稳定调用单个工具
- 阶段2:大规模原语选择(如Gorilla、ToolLLM)——在大量工具中检索选择
- 阶段3:技能作为打包的专业知识——将任务类别的操作方法打包为可重用单元

图5:作为外部化专业知识的技能
展示了技能的完整生命周期:从获取(专家编写、从情景记忆蒸馏、环境探索发现、现有单元组合)到技能工件(操作程序、决策启发、规范约束),再到激活流水线(注册表发现、渐进式披露、组合),最后在运行时执行。
关键机制:
- 渐进式披露:不一次性加载完整技能文档,而是分层暴露(名称→摘要→完整指南)
- 执行绑定:技能必须通过协议接口绑定到可执行动作(工具、API、文件、子Agent)
- 组合性:技能可参与更高阶协调(串行、并行、条件路由、递归调用)
5. 外部化交互:协议系统(Protocols)
协议外部化解决的是协调负担。裸模型可能推断出应该调用工具或委派子Agent,但没有显式契约时,它必须即兴创作消息格式、参数结构、生命周期语义和恢复行为。
5.1 协议的内容维度
协议将以下四个维度外部化:
- 调用语法(Invocation Grammar):参数名称、类型、顺序、返回结构(schema化)
- 生命周期语义(Lifecycle Semantics):多步交互的协调规则(状态机、事件流)
- 权限与信任边界:授权规则、数据流向、审计要求
- 发现元数据(Discovery Metadata):能力注册表、能力卡片、schema端点

图6:作为外部化交互的协议
上图:从孤立模型调用→API硬编码→标准化协议→Agent Web的演进。
下图:Harness通过三个功能界面实现外部化交互管理:Interact(与外部API/工具交互)、Perceive(感知环境/上下文/记忆/反馈)、Collaborate(与其他LLM/Agent/人类协作)。
5.2 协议家族综述

6. 统一外部化:Harness工程
Harness是承载三个外部化维度(记忆、技能、协议)的工程层,提供编排逻辑、约束、可观测性和反馈循环,使外部化认知在实践中可靠运行。
6.1 什么是Harness?
Harness不是模型之外的第四个外部化维度,而是运行时环境——模型在其内部运行,通过它感知、决策和行动。

图3:Harnessed LLM Agent的外部化架构
Harness位于中心;三个外部化维度围绕它运行:记忆(工作上下文、语义知识、情景经验、个性化记忆)、技能(操作程序、决策启发、规范约束)、协议(Agent-用户、Agent-Agent、Agent-工具)。操作元素(沙箱、可观测性、压缩、评估、审批循环、子Agent编排)调节Harness核心与外部化模块的交互。
6.2 Harness设计的六个分析维度

图7:作为认知环境的Harness
基础模型(Agent核心)位于中心;六个Harness维度形成协调环:记忆(状态持久化)、技能(可重用例程)、协议(确定性接口)、权限(沙箱、文件隔离)、控制(递归边界、成本上限)、可观测性(结构化日志、执行轨迹)。
6.3 Harness作为认知环境
从分布式认知理论看,Harness不仅仅是软件基础设施,而是塑造Agent有效认知的环境。它决定了什么进入感知领域、什么跨会话保留、哪些操作可调用、哪些行动需要审批、哪些中间状态可修订。
Harness将无界任务转化为结构化环境,通过外部化记忆、形式化程序、引入显式控制点和约束执行,重新分配认知工作负载。
7. 交叉分析:模块间耦合
三个外部化模块在Harness内并非孤立,而是形成六条关键交互流:

图8:记忆、技能、协议之间的耦合
Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering
[https://arxiv.org/pdf/2604.08224](https://arxiv.org/pdf/2604.08224)
动手设计AI Agents:(编排、记忆、插件、workflow、协作)
会学习的龙虾,才是好龙虾:OpenClaw-RL
2026,做Agentic AI,绕不开这两篇开年综述
每天一篇大模型Paper来锻炼我们的思维~已经读到这了,不妨点个👍、❤️、↗️三连,加个星标⭐,不迷路哦~