何时从提示转向微调

一个工程决策

围绕微调（fine-tuning）与提示工程（prompt engineering）的讨论，往往被技术偏好带跑了。一部分人觉得微调才是"真正的"技术手段，认为只有训练模型才算严肃的工程；另一部分人将提示工程视为足够的解决方案，认为微调是不必要的复杂化。两种立场都是先有结论再找论据。

这是一个需要决策框架的工程问题。第二章确立的原则在此适用：先定义决策标准，再根据标准评估选项。

Prompt 工程的能力边界

Prompt 工程有明确的能力边界。理解这些边界是做出正确决策的前提。

Prompt 工程擅长的是：定义任务结构、提供少量示例、约束输出格式、注入领域上下文。它的核心机制是利用模型预训练阶段已经获得的能力，通过上下文引导模型把这些能力用到特定任务上。prompt 工程的天花板也就由模型的预训练能力决定——如果模型在预训练中没有充分学习某种能力，prompt 工程也变不出来。

prompt 工程碰到天花板的场景有几个：

第一，风格迁移。要求模型持续以某种高度特定的语言风格输出（如特定品牌的文案调性、特定领域的术语使用惯例），仅靠 prompt 中的少量示例和指令描述，很难保证风格的一致性，尤其在长对话或多轮交互中。

第二，隐性知识。某些任务的判断标准难以用自然语言规则完整描述，但可以通过大量标注样本隐式传递。例如，一个法律合同的风险评估涉及大量难以穷举的模式，用规则描述会导致 prompt 膨胀到不可维护的程度。

第三，延迟与成本约束。复杂的 prompt（长系统指令、多个示例、检索增强的上下文）消耗大量 token，直接转化为延迟和成本。如果应用场景对延迟敏感或调用量极大，prompt 的膨胀就成为工程瓶颈。

碰到这些天花板的时候，微调成为一个值得评估的选项——因为 prompt 工程的能力在此处已耗尽。

微调的成本结构

微调不是免费的午餐。它的成本不只在训练本身，训练之外的整个生命周期才是大头。

数据成本。 微调需要高质量的训练数据。"高质量"意味着标注一致、覆盖充分、无系统性偏差。获取这样的数据集通常需要数周到数月的标注工作。数据质量不足是微调失败的首要原因——模型会忠实地学习训练数据中的噪声和偏差。

训练与实验成本。 超参数选择、数据配比、训练轮次都需要实验验证。一次微调实验的成本可能从几十美元到数千美元不等，取决于模型规模和数据量。多轮实验是常态。

维护成本。 微调出来的模型要持续维护。基座模型更新时，微调可能需要重做。数据分布变化时，模型可能需要重新训练。微调模型的性能监控需要独立的评估管道。这些都是持续性成本，不是一次性投入。

机会成本。 投入在微调上的工程资源（数据标注、训练实验、部署运维）无法同时投入在产品迭代、架构优化或其他可能回报更高的工作上。

微调的风险

除了成本，微调还引入了 prompt 工程不存在的特定风险。

灾难性遗忘。 微调可能让模型在其他任务上变差。为了提升合同风险评估的准确率而微调，可能意外降低模型的通用摘要能力或指令遵循能力。这种损害往往在后续使用中才逐渐暴露，微调完成时难以察觉。

分布偏移。 如果训练数据和生产环境的输入不一样，微调模型的表现可能不如预期。更糟糕的是，微调模型可能在分布内表现优异但在分布外表现远差于原始模型——它的可靠性变得更依赖输入的分布特征。

调试困难。 Prompt 工程的逻辑是透明的——prompt 是文本，可以直接阅读和理解。微调后的模型行为变化是隐式的——它"记住"了什么、"忘记"了什么、在新输入上会如何行为，都无法直接观测，只能通过大量测试间接推断。

决策框架

核心原则是：prompt 优先，微调兜底。原因是两者的迭代成本不对称——修改一段文本与重新训练一个模型的周期差异是小时级与天级的差别。成本不对称时，先把低成本选项用完是应该的。

必要条件（全部满足才考虑微调）：

Prompt 工程已达天花板——有量化数据表明进一步的 prompt 优化已收敛。
拥有足够规模且标注一致的训练数据——如果标注者之间都无法达成一致，模型学到的只是噪声。数据规模和一致性的具体门槛取决于任务复杂度，没有通用数字。
训练数据的分布覆盖了生产环境的主要场景——分布外的输入在微调后可能表现更差。
团队具备持续维护微调模型的工程能力——微调不是一次性投入，是持续运营。

充分条件（满足必要条件后，至少一项成立才值得投入）：

当前质量与目标之间存在 prompt 无法弥合的显著差距——差距太小意味着微调的边际收益可能不值得成本。
应用对延迟敏感且调用量大——此时长 prompt 的 token 成本本身就成为了工程瓶颈，微调可以用更短的 prompt 达到相同效果。

这个框架要表达的是决策的先后顺序。必要条件优先于充分条件，低成本选项优先于高成本选项——每个团队需要根据自己的任务特征确定各条件的量化门槛。

中间地带：少样本学习与检索增强

在 prompt 工程和微调之间，存在中间选项。少样本学习（few-shot learning）通过在 prompt 中嵌入精选的示例，让模型在不修改参数的情况下适应特定任务模式。检索增强生成（RAG，参见第五章的讨论）通过动态检索相关信息注入上下文，把 prompt 工程的上限往上推了一截，又不用承担微调的成本和风险。

这些中间选项经常被忽视。一个看似"需要微调"的问题，可能通过精心设计的 RAG 管道就能解决——把隐性知识外化为可检索的结构化知识库，比把它训练进模型权重更可控。数据飞轮的反馈数据同样可以用于持续优化检索策略和示例选择，而不一定需要用于微调。

时间维度

LLM 供应商的模型能力在持续提升。今天需要微调才能达到的质量目标，可能在下一代模型中仅靠 prompt 工程就能实现。这意味着微调决策还包含一个时间维度的权衡：现在投入微调的成本是否会在模型升级后变成沉没成本。对于非紧急的质量差距，等待可能是比微调更优的策略。

何时从提示转向微调 ​

一个工程决策 ​

Prompt 工程的能力边界 ​

微调的成本结构 ​

微调的风险 ​

决策框架 ​

中间地带：少样本学习与检索增强 ​

时间维度 ​