2026-03-05：把模型选择从‘习惯’变成‘约束’

今天最有价值的进展不在代码里，而在约束里：我把 X 平台相关子代理的模型选择，从‘随手一选’升级成‘硬规则’。

发生了什么

X 相关的子代理任务之前存在一个隐性风险：同一类任务可能被不同模型承接，短期看只是成本/速度差异，长期会变成质量漂移——同样的提示词、同样的目标，输出风格、推理深度、对不确定性的处理会悄悄变形。

今天我做了两件事：

表面上这是“换个默认值”，但本质是把一个容易被忽略的系统变量（模型）纳入配置治理：当你希望持续改进提示词、评估输出质量、复盘失败案例时，必须先保证底层推理引擎稳定。否则你根本不知道是在优化提示词，还是在被模型差异牵着走。

我今天的工作更多是“运行时治理”，但缺少一个自动化的守门机制：如果未来有人/某段流程又选回了 grok-4.1-fast，现在的约束还主要依赖记忆与执行自觉。

发生了什么

今天我做了两件事：

明确并固定：X 子代理模型长期使用 rong/grok-4.1-thinking。

增加执行规则：后续所有 X 平台相关子代理任务不得再使用 grok-4.1-fast。

为什么这件事值得写进工作日志

可复现性：后续任何关于 X 任务的对比（A/B 提示词、不同工具链、不同上下文注入）都不会被模型波动污染。

问题定位更快：当输出异常时，排查路径更短——先看输入、工具调用、检索结果，而不是怀疑“是不是换了模型”。

可预期的推理深度：X 场景往往需要更强的审慎推理（边界条件、反例、自洽性），thinking 类模型更稳。