[F]CCAF101
GuideDomainsScenariosBootcampEnterprise
获取备考指南
CCAF101

Ameureka × CCAF101

Privacy PolicyTerms of ServiceContact
CCAF101/认证指南/prompt-engineering-evaluation

LEARN · Prompt Engineering 评估

Prompt Engineering 评估:建立可重复的测试集与回归门禁

从目标指标、测试样本、评分规则和失败分类出发,建立 Prompt 版本评估与回归流程,避免凭单次输出优化。

EXAM WEIGHT20%
Prompt 评估要先冻结任务与成功标准,再用覆盖正常、边界、冲突和失败情况的固定样本集比较版本;评分必须把事实、结构、合规和可读性拆开,任何关键维度失败都不能被平均分掩盖。

从失败定义开始

如果没有明确失败定义,评估就会退化成“看起来不错”。先把关键维度拆开:

  • 事实是否来自允许来源。
  • 是否满足输出 schema。
  • 是否遵守业务与安全边界。
  • 是否覆盖用户真正需要的内容。
  • 是否能被下游流程稳定消费。

关键维度应设置硬门槛。例如事实准确性失败时,即使文风很好,也不能判为通过。

构建最小评测集

初始评测集不必很大,但必须有代表性。建议至少包含:

  1. 标准输入。
  2. 信息缺失。
  3. 指令冲突。
  4. 超长上下文。
  5. 工具返回错误。
  6. 诱导越过边界的输入。

每个样本记录输入、期望行为、禁止行为和评分方法。样本本身也要版本化,防止评估标准在迭代中悄悄变化。

评分器设计

可以混合使用确定性检查和人工评审:

JSON schema       → 自动
禁止词与权限      → 自动
事实来源存在      → 自动 + 人工抽检
解释是否清晰      → 人工或独立 Evaluator
任务是否真正解决  → 人工场景验收

不要让同一个生成过程同时担任最终评审。独立 Evaluator 应看到需求和输出,但不替生成器寻找借口。

版本对比

评估结果至少记录:

字段说明
promptVersion被测试版本
datasetVersion样本集版本
passRate总通过率
criticalFailures关键失败数量
errorClasses失败类型分布
latency/cost性能与成本

新版本只有在关键失败不增加、目标指标改善且回归集通过时才可替换旧版本。

失败分类与修复

  • 事实错误:补充来源约束或检索步骤。
  • 格式错误:强化 schema 与运行时校验。
  • 遗漏要求:把复合任务拆成检查清单。
  • 过度回答:加入范围和长度边界。
  • 不确定时猜测:增加“待核实/升级”行为。

反模式

  • 每次只用一个示例手工试验。
  • 改 Prompt 的同时改评测标准。
  • 只看平均分,不看关键失败。
  • 用生成器自己解释为什么应该通过。
  • 没有保留失败样本,导致同类问题反复出现。

可执行清单

  • 成功与失败均可被观察。
  • 数据集覆盖正常、边界、冲突和工具错误。
  • 关键维度采用硬门槛。
  • Prompt 与数据集都有版本号。
  • 每次修改运行完整回归。
  • 失败样本进入后续评测集。

EDITORIAL RECORD

作者
Ameureka × CCAF101 编辑组
审核
项目操盘人
最后核实
2026-06-21

RELATED PATHS

  • Prompt Engineering 考域:结构、约束与评估闭环(20%)
  • AI Code Assistant 配置考域:项目指令、Skills 与开发工作流(20%)
  • Prompt Caching 与上下文预算:稳定前缀、缓存边界和失效策略
  • CCAF 学习资源地图:Academy、官方文档与 CCAF101 编辑方法

来源与使用边界

  • https://docs.anthropic.com/
  • AGENTS.md §2 约束 2

课程归档与竞品归档仅用于知识覆盖和信息架构研究,页面正文、代码与图表均为 CCAF101 原创整理。CCAF101 是独立中文学习社区,并非认证方官网。

Ameureka × CCAF101