最近折腾Agent的一些思考 · 墨塔范

最近折腾AI Agent的一些思考（产品工作流）

1、“养”agent是在写“自然语言状态机”

claude.md, skill.md，是把规则用自然语言固化进上下文，类似优化system prompt。本质是软约束，在每次 token prediction 时被概率性重新解释，是一个每次运行时被重新编译的伪状态机。

2、沉淀skill是伪学习

模型无状态，md文件无法改变权重，没有启发式泛化。只是依靠沉淀下来的自然语言改变下一次token prediction的路径。它并不懂你说的话，只是在概率分布内模仿，常规场景有效，边缘场景可能失效，而人类的学习正好相反。

3、“平坦”且有限的上下文窗口

用户无法控制context window内的内容权重，只能用更靠前的排序和更强烈的措辞突出某个东西更重要。用排版和语法对抗概率，非常脆弱。context window有限且和成本强相关，而压缩几乎一定丢失信息。

4、Coding的反馈回路便宜

单纯的Coding是低熵的而且有足够便宜的反馈回路。编译器、runtime能几乎实时的把模型的胡言乱语打回，从而快速收敛。缺少便宜反馈回路的领域，Agentic automation几乎必然卡在某个环节。

5、“高熵”工作Agent会停在辅助层面

业务策略、产品方案等，没有及时、便宜、客观的奖励函数，导致无法验证。主观compiler是人，用判断和决策做奖励函数。客观compiler是市场，用决策投产后的市场变化做奖励函数。人的核心能力是审美和决策，这是会继续增值的能力，否则AI只是加速垃圾产出速度。市场反应迟滞且随机性大，做奖励函数没有可行性。

6、广度和召回超过人，深度和品味平庸

AI学习了全部的人类高质量语言数据，它能同时调用十种语言知识、瞬间召回大量事实，这是人做不到的。但它打不过中等从业者在自己领域里的深度判断。

7、不断换人的实习生

实习生会学习积累，Agent 不会根据你对任务的评价更新权重；不断积累的是你自己的「实习生工作手册.md」中的内容。下一个任务，就像招了一个新实习生，只是手册更厚了一点。没有更大的复利效应。

8、工作流可能会变，但仍会固化

工作流各环节对应明确的权责，接缝处需要审美、权衡、判断。拆解会导致接缝处变多，对齐成本都得人来承担；融合会导致纠偏窗口变少、纠偏变晚。合理拆解/融合需要元判断力（判断什么环节需要判断），最终仍然要沉淀成一套相对固定的结构,只是接缝的位置和形态变了。

9、Agent 浪潮的副产品

Agent还做不好产品设计，但它逼你显性化那些原本隐性的判断，暴露出哪些是真正稀缺的、不可被压缩的人类能力。养 agent 的过程，是在做自己工作的“逆向工程”。

10、AGI不应该是无状态的

模型应该能感知时间、且有时序性的状态变化。不应该从学校毕业之后就完全停止学习，应该能在真实环境中随着新的信息输入、任务执行结果实时更新权重。