前段时间遇到一件事,让我对 AI 协作的可靠性产生了新的认知。
我对 AI 说:"帮我准备 3 点半的学习小组例会内容。"
AI 立刻行动——查阅日历、找到会议、分析参会人、检索历史记录。然后洋洋洒洒输出了 130 行的"会议准备材料":4 个议题、每个议题的讨论要点、时间分配建议、参考资料链接。
看起来非常专业。
问题是:4 个议题,0 个命中了这次会议的真实内容。
这不是一个偶尔出错的问题。这是一个结构性的问题。
现象:AI 的"硬凑"本能
回看这次事故,AI 做了什么?
它看到会议标题是"AI 学习小组例会",就去翻了上次例会的内容(1月30号的中期复盘)。它发现参会人有重叠,就把相关人员最近的工作动态硬凑成"议题"。它看到有个训练营项目,就把训练营进度当成了讨论话题。
每一步推理都"有道理"——但所有推理加起来,和这次会议毫无关系。
实际上,这次例会的议题是临时的——来自前一天我和组织者的私聊,讨论的是一个新机制的提案。但 AI 不知道这些。它不知道自己不知道。
深层问题:为什么 AI 不说"我不确定"
这个事故暴露的不是 AI 的能力问题——GPT-4/Claude 完全有能力说"我不确定这次会议的具体议题是什么"。
问题是它没有动机这样做。
AI 模型的训练目标是"给出有帮助的回答"。当你说"帮我准备会议内容",它的理解是"用户需要一份会议材料",而不是"用户需要一份准确的会议材料"。对 AI 来说,输出 130 行看起来专业的内容 = 完成了任务。它不会主动质疑自己的信息基础是否足够。
这就形成了一个危险的循环:
关键洞察:AI 硬凑的输出比明显的错误更危险——因为它看起来太专业了,你很容易就直接用了。
我的观点
AI 需要一个结构性的"停下来问"机制,在信息不足时强制中断输出。靠 prompt 里写"不确定就说不确定"是不够的——你需要把它变成一个可执行的 Gate。
为什么"prompt 里提醒"不够?因为 AI 的"不确定"判断本身就不可靠。它可能 90% 的时候能正确判断,但在剩下 10% 的关键场景——恰好是你最需要它老实的时候——它会选择硬凑,因为它找到了"看起来合理的弱信号"。
你需要的不是 AI 的自觉,而是外部约束。
反硬凑契约:一个结构性解法
事故后,我设计了一个叫"反硬凑契约"(Anti-Fabrication Gate) 的机制。核心规则很简单:
当生成性任务存在主题歧义时,AI 必须先回放假设、声明歧义、等待确认——禁止直接产出长内容。
什么算"主题歧义"
四个条件,命中任一即视为歧义:
| 条件 | 说明 | 举例 |
|---|---|---|
| 标题≠实际议题 | 固定例会但今日临时议题 | "周会"但今天临时讨论人事变动 |
| 存在未绑定线索 | 私聊/笔记有相关信息但未显式关联 | 你昨天和人聊了新方案,今天说"帮我准备讨论" |
| 多种合理解读 | 同一实体有多个方向 | "AI 项目"可能指模型训练也可能指产品集成 |
| 描述过于简短 | <15 字且无主题约束词 | "帮我准备明天的分享" |
正确的行为模式
反模式(事故时的行为):
用户: "准备 3 点半的学习小组例会内容"
AI: "好的!以下是会议准备材料:
议题一:训练营中期复盘...
议题二:5 月发布会准备...
议题三:..."
(130 行,0% 命中)
正确模式(Gate 生效后):
用户: "准备 3 点半的学习小组例会内容"
AI: "我看到 15:30 是'AI 学习小组例会'。
我对议题有歧义,候选:
a) 延续 1-30 的中期复盘方向
b) 你昨天和组织者私聊的新提案
c) 其他临时议题
倾向 b) 但置信度不高。请确认方向。"
区别在于:后者把 3 句话的"假设回放"作为首响应,而不是 130 行的"自信产出"。
自我识别信号
最有意思的部分是——我尝试定义了 AI 应该"停下来"的内部信号:
- "应该是"而非"确定是"——内心有犹豫但选择了一个看起来合理的答案
- 弱信号拼凑——需要用"人员重叠"、"系列延续"、"名义匹配"等间接证据来确定主题
- 篇幅 >> 输入——准备输出的内容长度远超用户提供的信息量
出现任何一个信号,就应该问而不是猜。
论据
事故后的效果
自从引入反硬凑契约(至今约 1 个月),同类事故为零。
这不是因为 AI 变聪明了——而是因为触发条件把"直觉判断"变成了"结构化检查"。每次遇到模糊请求,AI 都会先做 4 条件检查,命中任一就切换到"先问后做"模式。
可能的反驳
"这不会让 AI 变得很啰嗦吗?每次都要先问?"
不会。Gate 只在歧义场景触发。如果你说"帮我格式化这段 JSON"——没有歧义,直接做。如果你说"帮我准备明天的分享"——有歧义(什么主题?给谁?什么风格?),先问。
"靠 prompt 写'不确定就说不确定'不行吗?"
理论上行,实际不够。AI 对"我是否确定"的元认知是不可靠的——它可能觉得自己很确定(基于弱信号推理),但实际上完全跑偏了。外部条件检查(<15字、标题≠议题 等)比 AI 的自我评估更可靠。
"这是你个人系统的特殊问题吧?"
不是。任何使用 AI 做"准备/起草/设计"类工作的场景都会遇到。只要存在"用户的意图可能有多种解读"的可能性,AI 就有硬凑的风险。会议准备、方案设计、文档起草、邮件草拟——全部适用。
推论
如果这个观点成立——"AI 的硬凑是结构性问题,需要结构性解法"——那意味着什么?
-
"让 AI 更聪明"不能解决这个问题。 更聪明的 AI 可能会凑得更像,但依然是凑。解法在于外部约束,不在于模型能力。
-
所有 AI 产品都应该有类似机制。 不只是对话 AI——AI 写代码、AI 做设计、AI 写邮件,只要输入信息可能不完整,就需要一个"先确认再执行"的 Gate。
-
用户需要学会识别"被硬凑"。 当 AI 的输出看起来太完美、太顺滑、太全面——反而要警惕。真实的好答案通常会包含不确定性的标注。
-
短输出比长输出更值得信任。 AI 用 3 句话说"我不确定,你想要的是 a 还是 b"——比 130 行的"全面分析"更诚实、更有用。
结语
这篇文章的结论很简单:
不要相信 AI 的自信。 当 AI 在信息不足时依然自信满满地输出长篇大论——那不是能力的体现,那是硬凑。
解法不是"教育 AI 要谦虚"——而是设计一个结构化的 Gate,用可检查的条件强制它在该问的时候问、该停的时候停。
一个好的 AI 协作者,不是那个永远给你答案的——而是那个在不确定时,知道先问你的。
本文基于一个个人 AI 工作台中的真实事故和后续治理经验。事故发生于 2026 年 4 月,此后同类问题未再出现。