让 AI 自己变强:一个个人知识系统的自成长实验

我花了 11 天,做了 204 次提交,写了 24 万字的结构化内容。

不是在写文档。是在教一个 AI 系统如何理解我的工作全景——然后让它自己变得越来越强。

起因:管理者的认知困境

作为一个一线工程管理者,我每天面对的不是"某个问题怎么解",而是"20 个不同域的信息怎么拼成一张图"。

14 个直属成员的状态。13 个在管项目的健康度。每周 15+ 场会议的行动项追踪。向上、横向、跨部门的关系维护。还有不断涌入的聊天消息、文档更新、审批流。

这些信息分散在飞书消息、日历、妙记、文档、项目管理工具里。没有任何一个产品能把它们拼在一起给我看。

我试过 Notion、Obsidian、飞书文档、各种笔记工具。问题不在于记录——问题在于关联。人和项目的关系、会议和行动项的追踪、关系的冷热变化——这些靠手工维护根本不可持续。

所以我做了一个不一样的尝试:不是用工具记录信息,而是建一个能理解这些信息的 AI 系统

基本架构:Markdown + YAML + AI 技能

技术上其实很朴素:

  • 数据层:YAML frontmatter(结构化字段)+ Markdown body(叙事内容),所有实体统一格式
  • 技能层:27 个专用 AI 技能,每个有明确的触发条件、步骤协议和输入输出规范
  • 集成层:通过飞书 API 直连企业通讯录、消息、日历、文档、妙记

没有数据库,没有后端服务,没有前端界面。整个系统就是一个 Git 仓库,通过 AI 对话驱动所有操作。

people/      → 40 人的结构化档案(关系类型、互动信号、1:1 记录)
domains/     → 13 个项目的健康追踪
meetings/    → 42 场会议的完整记录(转写 + 纪要 + 行动项)
knowledge/   → 公司术语、组织架构、领域知识(带确信度分级)
.agents/skills/ → 27 个 AI 技能的定义

整体架构长这样:

到这里为止,它只是一个"结构化知识库"。有意思的部分在下面——图里那两块紫色和蓝色区域。

暗线:七个自成长机制

在搭建这个系统的过程中,我逐渐嵌入了一组让它能自己变强的机制。不是刻意设计的宏大架构——而是在解决一个个具体问题时,自然生长出来的。

机制 1:验证策展(Verification Curator)

最先出现的需求是"怎么知道数据对不对"。

当你有 40 个人的档案、13 个项目的记录、42 场会议的索引——任何一次编辑都可能引入不一致。字段缺失、引用断裂、索引过期。

于是我建了一个验证系统:30 个验证点,覆盖字段规范、引用完整性、索引一致性。它能检测到"某个会议的行动项指向了一个不存在的人员"这样的问题,并自动修复。

有意思的是,这个验证系统也对自身施加同样的契约。它的 SKILL 定义和所有被验证的技能遵循相同的 verification block 格式——R8 原则。但要注意:最终的验证人始终是人类(R9 原则)。AI 检测异常、报告偏差,但所有架构级判定都升级到人做最终裁决。

机制 2:技能侦察与巡逻(Skill Scout)

第二个需求是"怎么发现需要新能力"。

最初设计了 6 个新技能。但在实际使用中,不断冒出新场景:聊天消息也需要采集和分析、Git 仓库的活跃信号也应该被追踪、工时需要从日总结映射到提交系统……

于是"技能侦察"机制自然形成了:在外部资源中搜索参考方案 → 评估适配度 → 私域化改造 → 注册到治理清单。11 天内,从设计的 6 个新技能增长到了 12 个以上——翻倍。

巡逻模式则是定期审视已有技能,看看外部有没有更好的做法。它产出的"技能缺口清单"记录了什么能力还缺失、优先级如何、当前用什么替代。

机制 3:知识发现协议(KDP)

第三个需求是"怎么让系统越用越懂我的公司"。

我制定了一个简单但有效的协议:在处理任何内容时(会议、聊天、文档),AI 都执行四条规则:

  1. 遇到未知术语 → 查知识库 → 不存在则创建待确认条目
  2. 遇到组织描述 → 查知识库 → 不一致则标记争议
  3. 用户陈述新事实 → 确认后写入知识库
  4. 每次分析结束 → 报告新增/修改的知识条目

关键设计:知识条目有五级确信度分级时间衰减规则。每条知识记录"最近验证"日期和衰减期(confirmed 180 天,verified 90 天,tentative 30 天),超期则应降级。AI 绝不自行解决知识矛盾——只报告,由人裁决。

坦白说:衰减目前是一个协议而非自动化机制——规则写在文档里,AI 被期望在查询时遵循,但没有脚本强制执行。这是后续需要补的自动化。

这意味着每次使用系统,它的知识基底都在单调递增。

机制 4:结晶(Crystallization)

第四个需求是"怎么把探索成果固化为永久能力"。

在演进过程中,很多设计从"尝试"走向"验证通过"。但如果不做显式的"固化"动作,下次启动新会话时,AI 不知道哪些是已确认的事实、哪些还是实验。

结晶机制解决这个问题:

一旦结晶,新的会话默认从更高的基线开始。这确保了只升不降——你不会因为换了一个 AI 会话而丢失已验证的能力。

机制 5-6:质量门(双门验证)

第五和第六是输入审查和输出验证:

  • 执行前:需求定义是否足够清晰?是否可执行?是否可验证?
  • 执行后:交付是否符合规范?是否有遗漏?质量指标如何?

这两道门形成了一个"质量棘轮"——通过的标准会随着系统成熟逐步提高。

机制 7:数据自愈(Index Librarian)

最后一个是索引系统的自我修复。4 个 Python 脚本负责扫描、验证、更新、初始化索引。它们有独占写入权限——包括 AI 在内的任何角色都不能直接编辑 INDEX.md。

这个设计看起来保守,但解决了一个关键问题:防止 AI 在"有用"的意图下引入不一致。

七个机制形成的闭环

这七个机制不是孤立的,它们形成了一个完整的循环:

每一轮循环后,系统从更高的基线开始下一轮。知识更丰富、技能更精准、索引更完整。

从系统论的角度,这个设计包含了自组织系统的四个核心属性:

  • 负反馈(稳态维持):验证系统检测漂移并修正
  • 正反馈(能力放大):技能侦察发现新能力并注册
  • 涌现(整体大于部分之和):跨技能链推理产生单个技能无法提供的洞察
  • 自指(系统观察自身):验证系统对自身施加同样的契约标准,但最终裁决权始终在人类手中(R9 原则)

我把它叫做 Homeostatic Evolution——在稳定运行的同时持续进化。

与 Hermes Agent 的对话

在评估这个设计时,我发现了一个非常有趣的开源项目:Nous Research 的 Hermes Agent

Hermes Agent 也具备自成长能力,而且在某些维度上做得更好:

  • 它的进化是全自动的——每 10-15 次工具调用,GEPA(遗传帕累托进化算法)自动优化 prompt 和工具描述,不需要人工触发
  • 它的技能生态是开放的——100+ 社区技能,agentskills.io 开放标准
  • 它支持多平台交互——Slack、Telegram、Discord,随时随地

但对比之后,我发现两者的本质差异:

Hermes 优化"怎么做事"——让同一件任务执行得更快更好。 我的系统优化"看什么"——让管理者看到的全景图越来越完整和准确。

如果用大脑来类比:Hermes 是小脑(程序记忆,越做越顺),我的系统是前额叶(工作记忆,关联推理)。

它们不是替代关系,而是互补关系。理想的架构可能是:用 Hermes 做执行引擎,用这套知识系统做领域层。

11 天后的坦诚审视

在经过审计后,这个系统的实际评分是 7.5/10

做得好的地方:

  • 统一的实体模型和 SoT(单一数据源)原则
  • 5 层技能架构和 47+ 技能间关系映射
  • 知识发现协议让知识基底单调递增
  • 7 个自成长机制中 5 个有明确运行证据

做得不好的地方:

  • 循环不是全自动的——每个环节仍需用户主动触发
  • 没有量化进化指标——无法回答"上周比这周强了多少"
  • 上手门槛极高——只有我自己能用
  • 依赖 AI 模型质量——模型升级/切换可能导致行为漂移

最诚实的评价是:蓝图很完整,运转还不够自动

给想做类似尝试的人

如果你也想建一个"越用越懂你"的 AI 系统,这是我 11 天学到的几个关键点:

  1. 先定实体模型,再做 AI。YAML frontmatter 的统一格式比任何 prompt 工程都重要
  2. SoT 原则必须从第一天执行。每个字段只有一个写入者,否则 AI 会制造矛盾
  3. 知识需要生命周期。确信度 + 衰减 + 冲突检测是正确的方向——但要注意"写了规则"和"自动执行规则"的差距。我的衰减规则目前还只是协议,没有脚本强制
  4. 结晶是必需的。如果不显式区分"实验"和"已验证事实",AI 会混淆两者
  5. 人类是终止节点。系统可以自检、自修复,但所有架构级判定必须升级到人。AI 的角色是发现异常并报告,不是裁决

最后一点体会:

这个系统最大的价值不在于任何单个技能或机制。而在于每次使用都让它更好用这个事实本身。

在一个所有工具都是"用了就丢"的世界里,一个"越用越懂你"的系统,本身就是一种不同的存在方式。


本文描述的系统是一个个人实验项目,基于 Markdown + YAML + Git + AI 技能构建。核心理念(Homeostatic Evolution、知识发现协议、验证自指性)是可迁移的——你可以用 Obsidian、Tana、甚至 Notion 实现类似的思路,只是深度和自动化程度会有差异。

Comments