Prompt Engineering 评估：建立可重复的测试集与回归门禁

从失败定义开始

如果没有明确失败定义，评估就会退化成“看起来不错”。先把关键维度拆开：

关键维度应设置硬门槛。例如事实准确性失败时，即使文风很好，也不能判为通过。

初始评测集不必很大，但必须有代表性。建议至少包含：

每个样本记录输入、期望行为、禁止行为和评分方法。样本本身也要版本化，防止评估标准在迭代中悄悄变化。

可以混合使用确定性检查和人工评审：

JSON schema       → 自动
禁止词与权限      → 自动
事实来源存在      → 自动 + 人工抽检
解释是否清晰      → 人工或独立 Evaluator
任务是否真正解决  → 人工场景验收

不要让同一个生成过程同时担任最终评审。独立 Evaluator 应看到需求和输出，但不替生成器寻找借口。

评估结果至少记录：

新版本只有在关键失败不增加、目标指标改善且回归集通过时才可替换旧版本。

如果没有明确失败定义，评估就会退化成“看起来不错”。先把关键维度拆开：

事实是否来自允许来源。

是否满足输出 schema。

是否遵守业务与安全边界。

是否覆盖用户真正需要的内容。

是否能被下游流程稳定消费。

关键维度应设置硬门槛。例如事实准确性失败时，即使文风很好，也不能判为通过。

初始评测集不必很大，但必须有代表性。建议至少包含：

标准输入。

信息缺失。

指令冲突。

超长上下文。

工具返回错误。

诱导越过边界的输入。

每个样本记录输入、期望行为、禁止行为和评分方法。样本本身也要版本化，防止评估标准在迭代中悄悄变化。

可以混合使用确定性检查和人工评审：

JSON schema       → 自动
禁止词与权限      → 自动
事实来源存在      → 自动 + 人工抽检
解释是否清晰      → 人工或独立 Evaluator
任务是否真正解决  → 人工场景验收

不要让同一个生成过程同时担任最终评审。独立 Evaluator 应看到需求和输出，但不替生成器寻找借口。

评估结果至少记录：

新版本只有在关键失败不增加、目标指标改善且回归集通过时才可替换旧版本。