最近折腾AI Agent的一些思考(产品工作流)

1、“养”agent是在写“自然语言状态机”

claude.md, skill.md,是把规则用自然语言固化进上下文,类似优化system prompt。本质是软约束,在每次 token prediction 时被概率性重新解释,是一个每次运行时被重新编译的伪状态机。

2、沉淀skill是伪学习

模型无状态,md文件无法改变权重,没有启发式泛化。只是依靠沉淀下来的自然语言改变下一次token prediction的路径。它并不懂你说的话,只是在概率分布内模仿,常规场景有效,边缘场景可能失效,而人类的学习正好相反。

3、“平坦”且有限的上下文窗口

用户无法控制context window内的内容权重,只能用更靠前的排序和更强烈的措辞突出某个东西更重要。用排版和语法对抗概率,非常脆弱。context window有限且和成本强相关,而压缩几乎一定丢失信息。

4、Coding的反馈回路便宜

单纯的Coding是低熵的而且有足够便宜的反馈回路。编译器、runtime能几乎实时的把模型的胡言乱语打回,从而快速收敛。缺少便宜反馈回路的领域,Agentic automation几乎必然卡在某个环节。

5、“高熵”工作Agent会停在辅助层面

业务策略、产品方案等,没有及时、便宜、客观的奖励函数,导致无法验证。主观compiler是人,用判断和决策做奖励函数。客观compiler是市场,用决策投产后的市场变化做奖励函数。人的核心能力是审美和决策,这是会继续增值的能力,否则AI只是加速垃圾产出速度。市场反应迟滞且随机性大,做奖励函数没有可行性。

6、广度和召回超过人,深度和品味平庸

AI学习了全部的人类高质量语言数据,它能同时调用十种语言知识、瞬间召回大量事实,这是人做不到的。但它打不过中等从业者在自己领域里的深度判断。

7、不断换人的实习生

实习生会学习积累,Agent 不会根据你对任务的评价更新权重;不断积累的是你自己的「实习生工作手册.md」中的内容。下一个任务,就像招了一个新实习生,只是手册更厚了一点。没有更大的复利效应。

8、工作流可能会变,但仍会固化

工作流各环节对应明确的权责,接缝处需要审美、权衡、判断。拆解会导致接缝处变多,对齐成本都得人来承担;融合会导致纠偏窗口变少、纠偏变晚。合理拆解/融合需要元判断力(判断什么环节需要判断),最终仍然要沉淀成一套相对固定的结构,只是接缝的位置和形态变了。

9、Agent 浪潮的副产品

Agent还做不好产品设计,但它逼你显性化那些原本隐性的判断,暴露出哪些是真正稀缺的、不可被压缩的人类能力。养 agent 的过程,是在做自己工作的“逆向工程”。

10、AGI不应该是无状态的

模型应该能感知时间、且有时序性的状态变化。不应该从学校毕业之后就完全停止学习,应该能在真实环境中随着新的信息输入、任务执行结果实时更新权重。