战略大于分析

分析的陷阱

LLM 应用开发中最常见的失败模式发生在决策层面。问题在于把有限的时间和注意力花在了错误的层面上。

一个团队花三周时间对比了五个大模型在某个 benchmark 上的表现差异，最终选择了分数最高的那个。然后花两周时间微调 prompt，把准确率从 87% 提升到 91%。然后花一周时间集成了一个编排框架。六周后系统上线，发现核心问题是：这个任务根本不应该用 LLM 来做——用一个正则表达式加规则引擎就能解决，准确率 100%，延迟低两个数量级，成本低三个数量级。

这是一种结构性的思维偏差：当手里有了锤子，看什么都像钉子。团队在模型选型、prompt 调优、框架集成上做的每一件事，在战术层面都是合理的。问题出在战略层面——这个任务根本不需要 LLM。如果在第一周就花两小时做这个判断，后面五周的工作可以完全省掉。

Strategy 大于 Analysis 的精确含义

时间、注意力、成本都有限，战略方向对系统成败的影响远大于战术上的精雕细琢。战略方向对了，战术粗糙一些也能成；战略方向错了，战术再精湛也是在优化一个注定失败的方案。

在 LLM 工程中，战略决策包括：这个任务是否应该用 LLM？LLM 在系统中的角色是什么——核心引擎还是辅助组件？不确定性的容忍边界在哪里？战术决策包括：用 GPT-4o 还是 Claude？temperature 设多少？prompt 怎么优化？用哪个框架？战术决策只在战略方向正确时才有意义。

战略决策框架

战略决策要落地，需要回答三个层级的问题。

任务适配性。 判断标准是 LLM 做这件事是否比替代方案有结构性优势。第一章已经划定了边界：精确计算、状态维护、一致性保障不在边界内，意图解析、自然语言生成、模式识别在边界内。适配性有程度之分——从强适配（LLM 有不可替代的优势）到不适配（任务核心需求超出能力边界）。

不确定性容忍度。 系统能承受多大的不确定性？内部工具偶尔出错可以接受，面向客户的合同生成系统则不能。容忍度决定了验证层的厚度、冗余度和人工审核流程的严格程度。零容忍场景下 LLM 不应作为最终决策者——零容错要求和概率性输出本身就是矛盾的。

架构定位。 LLM 在系统中扮演什么角色？核心引擎模式下系统可靠性上限就是 LLM 的可靠性。智能接口模式下 LLM 处理自然语言输入输出，核心业务逻辑用确定性代码实现——大多数生产系统应该首选这个模式。辅助组件模式下系统主流程不依赖 LLM 输出。

这三层评估应该在写第一行代码之前完成。分类本身是粗粒度的，但它迫使团队在正确的层面上思考问题。

常见的战术陷阱

Benchmark 崇拜。 花大量时间对比不同模型在标准 benchmark 上的得分，但 benchmark 衡量的是一般能力，你的任务是特定的。先在十条真实数据上用任意主流模型做原型验证，确认任务可行后再考虑模型选择。

Prompt 炼金术。 反复调整 prompt 措辞，缺少收敛判据——不知道什么时候该停。如果一个任务需要极其精心的 prompt 才能勉强工作，这本身就是信号：也许需要的是更好的架构设计。预先定义质量阈值，达不到时升级到架构层面。

框架选型过度投入。 在 LangChain、LlamaIndex、CrewAI 之间反复比较，三周过去还没写业务代码。框架解决的是代码组织问题，在业务逻辑不清晰时选框架，是在没有地图的情况下选交通工具。先用纯 Python 实现核心逻辑的原型，确认方向后再考虑框架。

怎么落地

写战略评估文档。 任何 LLM 项目动手之前，先写一页纸的战略评估：为什么用 LLM 而非替代方案？LLM 的角色是什么？不确定性容忍边界在哪里？

设收敛判据。 在开始 prompt 优化或模型对比之前，预先定义什么结果意味着方向正确、什么意味着需要战略调整。不知道什么时候该停的优化，就是死循环。

原型验证先于系统建设。 用最少的代码验证核心假设，然后根据结果决定推进、深入调查还是转向。原型验证的价值在于：花最少的代价拿到战略层面的关键信息。

把隐含假设写下来。 当团队围绕技术选型争论时，让每个人写下自己对各种结果的概率估计和价值判断。分歧的真实来源会立刻浮现——通常在于对失败场景的概率估计或对失败后果的严重程度判断不同。写下来还能暴露容易忽略的尾部风险。

先排除不可行方案，再排序。 把约束条件（成本上限、延迟上限、可靠性下限、开发周期、团队技术栈）写成检查表，不满足任何一项即排除。剩下的可行方案通常不多，决策就容易了。一个理论上再好的方案，只要违反硬约束就不是可选项。

补充一点：以上分析工具适用于高影响、低可逆性的决策。如果决策后果小、可逆性高（比如 prompt 的一个措辞调整），直接做实验比分析更高效。知道什么时候分析、分析到什么程度，本身是一个战略判断。

决策层级越高，反馈周期越长。人倾向于在反馈快的低层级上反复优化——每次调整都能立即看到结果。高层级的战略决策因为反馈慢，错误往往数周后才暴露。等发现方向错误时，已经在错误方向上投入了大量收不回来的资源。

战略大于分析 ​

分析的陷阱 ​

Strategy 大于 Analysis 的精确含义 ​

战略决策框架 ​

常见的战术陷阱 ​

怎么落地 ​