Skip to content

战略大于分析

分析的陷阱

LLM 应用开发中最常见的失败模式发生在决策层面。问题在于把有限的时间和注意力花在了错误的层面上。

一个团队花三周时间对比了五个大模型在某个 benchmark 上的表现差异,最终选择了分数最高的那个。然后花两周时间微调 prompt,把准确率从 87% 提升到 91%。然后花一周时间集成了一个编排框架。六周后系统上线,发现核心问题是:这个任务根本不应该用 LLM 来做——用一个正则表达式加规则引擎就能解决,准确率 100%,延迟低两个数量级,成本低三个数量级。

这是一种结构性的思维偏差:当手里有了锤子,看什么都像钉子。团队在模型选型、prompt 调优、框架集成上做的每一件事,在战术层面都是合理的。问题出在战略层面——这个任务根本不需要 LLM。如果在第一周就花两小时做这个判断,后面五周的工作可以完全省掉。

Strategy 大于 Analysis 的精确含义

时间、注意力、成本都有限,战略方向对系统成败的影响远大于战术上的精雕细琢。战略方向对了,战术粗糙一些也能成;战略方向错了,战术再精湛也是在优化一个注定失败的方案。

在 LLM 工程中,战略决策包括:这个任务是否应该用 LLM?LLM 在系统中的角色是什么——核心引擎还是辅助组件?不确定性的容忍边界在哪里?战术决策包括:用 GPT-4o 还是 Claude?temperature 设多少?prompt 怎么优化?用哪个框架?战术决策只在战略方向正确时才有意义。

战略决策框架

战略决策要落地,需要回答三个层级的问题。

任务适配性。 判断标准是 LLM 做这件事是否比替代方案有结构性优势。第一章已经划定了边界:精确计算、状态维护、一致性保障不在边界内,意图解析、自然语言生成、模式识别在边界内。适配性有程度之分——从强适配(LLM 有不可替代的优势)到不适配(任务核心需求超出能力边界)。

不确定性容忍度。 系统能承受多大的不确定性?内部工具偶尔出错可以接受,面向客户的合同生成系统则不能。容忍度决定了验证层的厚度、冗余度和人工审核流程的严格程度。零容忍场景下 LLM 不应作为最终决策者——零容错要求和概率性输出本身就是矛盾的。

架构定位。 LLM 在系统中扮演什么角色?核心引擎模式下系统可靠性上限就是 LLM 的可靠性。智能接口模式下 LLM 处理自然语言输入输出,核心业务逻辑用确定性代码实现——大多数生产系统应该首选这个模式。辅助组件模式下系统主流程不依赖 LLM 输出。

这三层评估应该在写第一行代码之前完成。分类本身是粗粒度的,但它迫使团队在正确的层面上思考问题。

常见的战术陷阱

Benchmark 崇拜。 花大量时间对比不同模型在标准 benchmark 上的得分,但 benchmark 衡量的是一般能力,你的任务是特定的。先在十条真实数据上用任意主流模型做原型验证,确认任务可行后再考虑模型选择。

Prompt 炼金术。 反复调整 prompt 措辞,缺少收敛判据——不知道什么时候该停。如果一个任务需要极其精心的 prompt 才能勉强工作,这本身就是信号:也许需要的是更好的架构设计。预先定义质量阈值,达不到时升级到架构层面。

框架选型过度投入。 在 LangChain、LlamaIndex、CrewAI 之间反复比较,三周过去还没写业务代码。框架解决的是代码组织问题,在业务逻辑不清晰时选框架,是在没有地图的情况下选交通工具。先用纯 Python 实现核心逻辑的原型,确认方向后再考虑框架。

怎么落地

写战略评估文档。 任何 LLM 项目动手之前,先写一页纸的战略评估:为什么用 LLM 而非替代方案?LLM 的角色是什么?不确定性容忍边界在哪里?

设收敛判据。 在开始 prompt 优化或模型对比之前,预先定义什么结果意味着方向正确、什么意味着需要战略调整。不知道什么时候该停的优化,就是死循环。

原型验证先于系统建设。 用最少的代码验证核心假设,然后根据结果决定推进、深入调查还是转向。原型验证的价值在于:花最少的代价拿到战略层面的关键信息。

把隐含假设写下来。 当团队围绕技术选型争论时,让每个人写下自己对各种结果的概率估计和价值判断。分歧的真实来源会立刻浮现——通常在于对失败场景的概率估计或对失败后果的严重程度判断不同。写下来还能暴露容易忽略的尾部风险。

先排除不可行方案,再排序。 把约束条件(成本上限、延迟上限、可靠性下限、开发周期、团队技术栈)写成检查表,不满足任何一项即排除。剩下的可行方案通常不多,决策就容易了。一个理论上再好的方案,只要违反硬约束就不是可选项。

补充一点:以上分析工具适用于高影响、低可逆性的决策。如果决策后果小、可逆性高(比如 prompt 的一个措辞调整),直接做实验比分析更高效。知道什么时候分析、分析到什么程度,本身是一个战略判断。

决策层级越高,反馈周期越长。人倾向于在反馈快的低层级上反复优化——每次调整都能立即看到结果。高层级的战略决策因为反馈慢,错误往往数周后才暴露。等发现方向错误时,已经在错误方向上投入了大量收不回来的资源。