距离上一篇博客, 已经过去两年了. 这两年里, AI agent 和大模型发展得很快: 从两年前的 prompt engineering, 到现在的 harness engineering, loop engineering; token maxing.

个人工具的变化

两年前, 我写过一篇对笔记系统的反思, 当时觉得对个人来说, Obsidian 可能是最合适的系统. 两年后, 这个想法有了一些变化. 现在我觉得, 更接近答案的可能是 Notion 加 Cursor, 再配一个 Claude 或 Codex 这样的编程工具.

这个变化本身, 就是"往上层走"的一个例子. Obsidian 解决的是怎么记: 卡片, 双向链接, 图谱, 把信息从脑子里搬出来, 再在不同笔记之间建立联系. Notion 加 Cursor 和 Claude, 解决的更像是记什么, 怎么用: 意图怎么表达, 上下文怎么组织, 输出怎么验证.

放到个人知识管理里看, 中间那层"把想法翻译成结构化笔记, 再把笔记翻译成行动"的工作, 正在被 Agent 压缩.

如果把 AI 模型看作符号世界里的计算机, 那很多个人 know-how, 在足够大的数据量面前, 可能并没有想象中那么珍贵. A2A 大概率会在社会群体里蔓延; 当所有人都开始拥抱 Agent -- 甚至微信现在都能推出 Agent 去总结朋友圈 -- 以后我们面对的, 往往不再是一个软件, 而是一个软件 Agent.

组织里被吃掉的那一层

The Anatomy of an AI-Native Org 把这件事讲得很清楚. 过去三十年, 软件公司的组织图几乎都是同一个形状: 顶层少数人决定 Why -- 为什么做, 为什么是现在; 中间一层决定 What -- 做什么, 不做什么; 最宽的那一层是 How -- 工程师, 项目经理, Scrum Master, Tech Lead, 把 What 翻译成 ticket, PR, 部署, release note, 再把进度翻译回业务语言.

这篇文章里有个说法很准确: 我们其实一直是 glorified translators -- 一群高级翻译. 业务意图翻译成产品 spec, spec 翻译成 JIRA ticket, ticket 翻译成 branch 和 PR, PR 翻译成部署和 release note, release note 再翻译回 status update. Agile, SAFe, Spotify model, 本质上都是在让这条翻译流水线跑得更快.

AI 没有来抢某个 job title. 它抢的是一种 task type: 把定义清楚的输入, 转换成定义清楚的输出. 自然语言到 SQL, 需求到代码, ticket 到 PR, 设计稿到组件 -- 这类工作被压缩了一个数量级. 中间层被吃掉, 而中间层恰好是 org chart 里人头最多的地方.

两端反而变难了. 定义 Why 更难, 因为执行一个错误 Why 的成本几乎降到了零, 更多错误的 Why 会以更快的速度, 更大的信心被 ship 出去. 定义 What 也更难, 因为执行越便宜, 选项就越多, 在 abundance 下做 judgement 本身就是一门学问.

新的形状

The Anatomy of an AI-Native Org 里画出的新 org chart, 大概是这样的:

Why 层依然很薄, conviction 不会随着 headcount 线性增长
What 层会比以前更大 -- 不是写 ticket 的产品经理, 而是能在 Why 和 Agent 之间 hold context, 每天做几十次"什么叫 good"判断的人
How 层大幅收缩, 但留下来的人会处理最难的 How: 架构, trust system, Agent 不该 unsupervised 碰的那 5% 代码, harness 本身的设计
Agent 做大部分 conversion 工作 -- 写 PR, 更新 doc, 起草 release note, 互相 review

What 和 How 的比例会开始翻转. 那些主要负责中间协调和翻译的 manager, 如果不开始往 Why, What 或 trust system 贡献, 角色本身就会慢慢溶解. hands-on 也不再只是写代码 -- 设计 eval suite, 定义 Agent 必须遵守的 contract, 写驱动 Agent roadmap 的 prompt, 都是 hands-on. 跑 standup, 批 JIRA, 开 status meeting, 那层工作会越来越薄.

这和 engineering 侧的收敛是对得上的: prompt engineering 是在教 Agent 怎么翻译; harness engineering 是在设计 翻译流水线本身 -- spec, eval, golden build, agent-of-agent review; loop engineering 则是在 Why 和 What 的边界上 决定什么时候继续, 什么时候停, 什么时候换方向.

往上层, 还是往中间

现在有很多文章都在讨论 AI 时代组织架构会怎么变. 这里面有一条共同的判断: 最底层执行层负责的具体事项, 可以被 AI 极大程度地替代; 而原本处在这一层的人, 会更多迁移到决策层.

但"迁移到决策层"这个说法, 容易让人误以为只要往上爬就行. 更精确的说法可能是: 中间那层 translation work 在消失, 两端和 harness 在变厚. 危险的位置不是"中间的人不好", 而是如果你的主要价值仍然集中在 translation -- 无论是组织里的 ticket conversion, 还是个人笔记系统里的信息搬运 -- 那块地都会被压缩得最快.

对个人来说, 从 Obsidian 到 Notion + Cursor 的切换, 和组织里 How 层收缩, What 层扩张, 是同一种结构变化在不同尺度上的重复. 笔记系统曾经是个人 wiki, 是收集箱; 现在 Agent 可以读, 写, 改, 搜, 个人更需要的是定义 good, 设计 harness, 验证 output, 而不是亲手维护每一张卡片之间的链接.

Interlude

Interlude 是幕间休息, 是两幕之间的过渡. 上一篇博客停在 Obsidian 和 PARA method 的反思里, 那时我还在个人知识管理的 How 层里找最优解. 两年过去, Agent 把 translation 这层吃掉了, 技术栈从 prompt 收敛到 harness 再到 loop, 组织图也从宽 How, 窄 What, 走向宽 What, 窄 How.

这不是说笔记不重要, 也不是说 execution 没有价值. 相反, 留下来的 How 工作可能会更有意思: 设计 trust system, hold 住 Agent 不能负责的 outcome. 对个人也一样: Notion 还是容器, Cursor 还是界面, 但真正的工作变成了怎么定义 correct, 怎么 build harness, 怎么在 Agent 做错的时候还能 operate 到最底层.

The Interlude 之后, 下一幕会是什么, 我还不知道. 但至少方向清楚了: 别和 Agent 比翻译, 它只会越来越快赢. 往上层找模式, 不是逃避 execution, 而是去做 Agent 吃不掉的那些事 -- Why, What, 以及围绕 Agent 的那套 harness.

参考: The Anatomy of an AI-Native Org

Credit: 这篇博客是与 Cursor 共同完成.

二〇二六年六月廿三日

春节后开工LLM学习记录

春节期间手机完全被DeepSeek-R1刷屏了, 无论是海内外媒体都疯狂讨论DeepSeek-R1. 趁着假期返工花了一整天大致了解了DeepSeek-R1的实现主体. 之后刚好同一天Andrej Karpathy发了Deep Dive into LLMs like ChatGPT. 查阅了一天资料, 有些心得. 写下此文, 也是记录自己如何了解新的技术.

记录

20250206:0910 早上到公司 
目标: 了解DeepSeek-R1以及为什么R1会这么火 
背景: 无任何关于DeepSeek-R1的资料阅读, 没读过论文

20250206:0932 动作: 刷hacker news关于deepseek的post, 看各个thread的观点
    * 动作: 跟着Simon Willison的blog(DeepSeek-R1 and exploring DeepSeek-R1-Distill-Llama-8B)实现本地ollama跑DeepSeek-R1-Distill-Llama-8B-GGUF
    * 收获: 了解了DeepSeek-R1-Zero, DeepSeek-R1以及DeepSeek蒸馏模型的关系.

20240206:1014 动作: 看yt视频# DeepSeek R1 Theory Overview | GRPO + RL + SFT
    * 收获: 
      * 整个DS-R1被训练出来的脉络, 博主画了个图, 表达很清楚, 见附录[1]
      * 什么是GRPO以及GRPO公式大概的含义
      * 相比于OpenAI闭源的COT推理能力[2], DS开源了如何实现推理模型
      * 知道了GRPO是R1的重点

20240206:1030 动作: 看yt视频: # Group Relative Policy Optimization (GRPO) - Formula and Code
    * 衍生动作: 
      * 看yt video视频 # Proximal Policy Optimization (PPO) - How to train Large Language Models
      * 看了看知乎上关于GRPO的讨论和解析
	* 收获: 
        * 了解了PPO的大致流程
        * 大致了解了GRPO, 但还是不懂, 需要找个场景实现一下. #TODO 
        * 刷到了王兴兴关于GRPO的讨论和解析[3], 深入研究下GRPO在机器人控制的应用中 #TODO

20240206:1414 动作: 看yt视频 # Building a fully local "deep researcher" with DeepSeek-R1
	* 收获: 
        * 了解了如何用langchain使用r1达到像openai deep research类似的效果, 以后可以考录用api部署一个试下 #TODO

20240206:1442: 动作: 看yt视频 # Paper: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
	* 收获: 
        *  自回归模型的输出可以被看成是一个RL的过程
        *  大致跟着视频过了一遍论文, 没仔细看
        *  这个视频长度大概一个小时, 百分之80的时间都在讲GRPO, 所以GRPO一定是R1的重点.

20240206:16:00 - 20240207:11:30:  动作: 看yt视频 # Deep Dive into LLMs like ChatGPT
	* 收获(这个视频是我看到关于LLM最干的视频, 强烈推荐观看原版3个小时): 
        *  LLM的训练流程为预训练(Pre-Training)产生基座模型(Base Model),
           但是Base Model不具有对话的能力, 因此要通过后训练(Post Training),
           通过SFT(Supervised Fine-Tuning)的方式, 输入多轮对话的数据, 来让
           模型有对话的能力. 最后通过Post Training RL, 来让模型有推理能力.
        * PreTraining阶段, 数据集和分词过程决定了Base Model的效果
        * PreTraining阶段, 通过不断改变context size, 模型能够实现in context learning能力
        * 由于Base Model本质上根据互联网数据的词语接龙, 因此幻觉一定会存在
        * 幻觉可以通过改变post training SFT的数据集, 或者使用tool use能够减少
        * 模型需要更多的token去做思考
        * 模型不擅长做in memory computing
        * 要让模型能在post training中实现tool use的能力,就是在SFT中加入pre training没见过的token
        * knowledge in the parameters => vague recollection 
        * knowledge in the token of context window => working memory 
        * 以人阅读一本教材进行学习为例, 训练模型学习书中的背景知识就是pre training, 学会书中的例题称为post training. 而完成课后习题就是post training with RL 
        * 在最后一个阶段post training with RL, 需要喂模型课后题(prompt), 并且人类给出打分. 由于这个过程需要进行很多次, RLHF通过拟合人类回答的偏好. 来实现自动训练.
        * RLHF不算RL, 而是微调模型来达到人类偏好
        * DeepSeek R1的aha moment和AlphaGo Zero的Aha moment很像, 训练效果都是非线性的, 一开始上升非常缓慢, 到了某一刻急速上升.
        * 通过[4]可以了解AI的最新动态
        * 通过[5]可以了解AI的排名

总结

之前我也在别的地方刷到R1实现了更低成本的训练, 例如使用PTX而不是raw cuda等, 这算infra层的创新. 但是我看的视频下来 开源的推理模型, 以及纯RL而不用SFT(DeepSeek-R1-Zero) 或许是R1更大的意义.

剩下的TODO

找一个场景复现PPO以及GRPO
刚好在2月7号, o3-mini开源了思维链的过程, 对比一下
了解下RL-LLM的现状, 输出一篇文章
阅读R1原文, 自己总结一下, 并对比这篇文章, 了解更多的技术细节.
pi0开源了, 研究下pi0
借助xxx平台提供的api, 实现一个属于自己的deep research. 也算是往agentic ai迈了一步.
总结下DS的发展路线, 输出一篇文章

附录

[1] (yt video # DeepSeek R1 Theory Overview | GRPO + RL + SFT)各个模型关系图

[2] Hiding the Chains of Thought - OpenAI

[3] DeepSeek GRPO在简单控制系统上和PPO的对比

[4] AI News

[5] LM Arena for model rankings

20240208更新

接着上片文章, 在2月7日的时候, 我一直在找如何请求deepseek-r1 api的方式. 因此现在ds大火, 服务器一直繁忙. 想找个渠道试一下r1都难. 也尝试了硅基流动以及一些其他的api提供商. 因为是尝试, 不太想直接往api服务商充钱. 于是, 截至到今日(20250208), 我试下来有两种免费方式可以请求deepseek-r1.

目前这两个平台的api请求是免费的, 无问苍穹会快很多, 并且api的速度远比不上playground. 并且两个平台的api稳定性都不太好, 会有请求失败的问题. 之后, 我用cursor写了一个适配于百度千帆的命令行工具. 效果如下.

bd_llm_tui demo

顺便试了下百度的其他免费的模型, 响应速度还行. 仓库链接点击这里

二〇二五年二月七日

2024年难忘的书

2025年新年快乐!!!

2025年新年快乐!!! 祝2025年蛇年活力四射. 祝新的一年是节节升高, 万事如意. 这一篇文章分享我在2024年读过几本难忘的书(排除上一篇文章提到的"控制论与科学方法论"). 以下顺序按照安利程度排名.

书单

The Tao of Physics: An Exploration of the Parallels between Modern Physics and Eastern Mysticism: 这是我在2024年读过最特别的一本书没有之一, 因此我想在这里推荐给你, 如果只让我推荐一本书, 我会选这本. 因为这本书用最清晰的语言回答了科学(物理学)和玄学(宗教,东方哲学)的起源以及它们之间的联系. 看完这本书你能够理解为什么最开始的人们会选择相信宗教, 为什么宗教不是迷信. 会对玄学产生更多的敬畏以及探索. 以及玄学和科学最开始会分源而不是一起发展. 分享几句书中的摘要:

Fishing baskets are employed to catch fish; but when the fish are got, the men forget the baskets; snares are employed to catch hares; but when the hares are got, men forget the snares. Words are employed to convey ideas; but when the ideas are grasped, men forget the words.

语言是指表达想法的"工具". 当语言背后的点子传递到了, 语言也不重要了.

The basis of Krishna's spiritual instruction, as of all Hinduism, is the idea that the multitude of things and events around us are but different manifestations of the same ultimate reality. This reality, called Brahman, is the unifying concept which gives Hinduism its essentially monistic character in spite of the worship of numerous gods and goddesses.

印度教里面的"神"指的不是一个具有超能力的"神". 而是能够让世界按照不同稳态的状态运行的"规律". 而印度教里面认为这些"规律"实际是同一个"东西", 只是在各个状态下, 它们有着不同的表现.

Nagarjuna's statement that the essential nature of reality is emptiness is thus far from being the nihilist statement for which it is often taken. It merely means that all concepts about reality formed by the human mind are ultimately void. Reality, or Emptiness, itself is not a state of mere nothingness, but is the very source of all life and the essence of all forms.

佛教里面的"空"或者"无". 并不是"没有", 或者"消失"了. 而是一种没有具体的形(formless), 缺又是一切有形状事物的源头. 意味着"无"是无处不在.

The repeatability of the experience is, in fact, essential to every mystical training and is the very aim of the mystics' spiritual instruction.

东方神秘主义的核心是直接体验, 科学会说东方神秘主义不具有可证伪性(falsifiability). 但是如果能够以第一人称视角体验到了. 它就不是迷信.

How to think like Leonardo Da Vinci seven steps to genius every day: 这本书是取了看似没什么营养的名字, 但是讲了非常多能够帮助你解决问题并且可以实际操作的事项. 举个例子, 书中的第一章是关于达芬奇是如何好奇身边的事物的. 那如何变的好奇呢? 书中有提到写100个能够帮助你的问题. 我尝试了一下写20个问题就写不出来了. 提出的问题越多说明发现了不同的细节. 书中拆解了达芬奇七种不同的品质, 并且安排了合理可操作的练习来培养这些品质. 强烈推荐.
The Second Law: Resolving the Mystery of the Second Law of Thermodynamics: 这本书是关于热力学第二定律的起源以及从计算复杂性的视角去解读. 我在24年的读完这本书时候写过一篇文章. 作者Stephen Wolfram非常博学, 看完本书能够让你从不一样的视角了解热力学第二定律.
Language in Thought and Action: 这本书是关于语言是如何形成和如何影响我们的想法的. 更重要的这是一本关于"抽象"的书籍. "抽象"是如何形成的? 语言和抽象之间有什么关系? 为什么有些事情无法达成共识? 这本书很好的回答了这些问题. 非常值得推荐.
Psycho-Cybernetics: 这本书是关于如何使用控制论的方法去改变自己心理的自我描述. 比如如何练习放松, 如何利用想象状态来改变自己的行为等. 和第二本书一样, 需要实际完成对应的练习才能体验到作者想表达的精髓.

二〇二五年一月一日