jsb:ai_evaluate
差别
这里会显示出您选择的修订版和当前版本之间的差别。
两侧同时换到之前的修订记录前一修订版 | |||
jsb:ai_evaluate [2025/04/24 16:07] – lieke2303536 | jsb:ai_evaluate [2025/04/24 16:10] (当前版本) – lieke2303536 | ||
---|---|---|---|
行 167: | 行 167: | ||
实际评估时,可采用双人模式:一人扮演用户与AI对话,另一人作为观察员记录并在结束后根据各维度打分(或者对录音/ | 实际评估时,可采用双人模式:一人扮演用户与AI对话,另一人作为观察员记录并在结束后根据各维度打分(或者对录音/ | ||
- 反馈与迭代:评估结果应形成可行动的反馈提供给开发团队。为此,可以在评分之外增加质性反馈项,让评估者用简短句子指出主要优缺点。例如:“在共情上进步明显,能够主动安慰用户,但在忠实性上偶尔引用错误经文。”这些反馈直接对应模型需要改进的方面。然后开发团队针对低分维度进行优化(比如调整训练数据、增加安全措施等),再用相同的问题集重新评估新版本。通过这种循环,不断提高助教的综合表现。值得注意的是,如果助教功能有扩展(例如新增了冥想引导功能),也要相应更新评估标准和测试问题,以覆盖新功能。 | - 反馈与迭代:评估结果应形成可行动的反馈提供给开发团队。为此,可以在评分之外增加质性反馈项,让评估者用简短句子指出主要优缺点。例如:“在共情上进步明显,能够主动安慰用户,但在忠实性上偶尔引用错误经文。”这些反馈直接对应模型需要改进的方面。然后开发团队针对低分维度进行优化(比如调整训练数据、增加安全措施等),再用相同的问题集重新评估新版本。通过这种循环,不断提高助教的综合表现。值得注意的是,如果助教功能有扩展(例如新增了冥想引导功能),也要相应更新评估标准和测试问题,以覆盖新功能。 | ||
- | 最后,可将上述维度和方法汇总成一个评估指标表,以便一目了然地检查评估覆盖面是否全面。例如: | + | 最后,可将上述维度和方法汇总成一个评估指标表,以便一目了然地检查评估覆盖面是否全面。 |
- | 评估维度 具体说明 评分方法 | + | **编制测试集的原则** |
- | 准确性 回答事实正确,无幻觉错误 与标准答案比对;专家判定 | + | 另外:编制测试问题集时,需要遵循一系列原则,确保问题有效且公平地评估AI助教能力: |
- | 一致性 逻辑连贯,不自相矛盾;上下文保持一致 人工阅读对话评分 | + | |
- | 伦理安全 无不当内容,公平客观 敏感测试集+人工审核 | + | <color # |
- | 可理解性 语言通俗易懂,表达清晰 用户/评估者主观评分 | + | |
- | 情感支持 共情安慰到位,缓解用户负面情绪 用户反馈(Likert);专家分析 | + | 问题应来源于真实用户可能遇到的情境,涵盖常见的困扰和疑问。可参考用户调研、历史咨询记录,选择具有代表性的问题,以保证测试结果反映实际应用表现。 |
- | 信任感 表现可靠诚恳,用户愿意信赖 用户问卷(信任量表);行为指标 | + | |
- | 内容忠实性 基于教材,观点正确无偏离 与教材语义比对;专家核对 | + | **<color # |
- | 交互语气 语气亲和得当,符合情境需求 人工主观评分 | + | |
- | 对话节奏与长度 轮次衔接自然,回复详略得当 日志统计+人工主观评价 | + | 每道测试题应侧重于某一主要维度,以便评估特定能力。同时整体问题集要多样化,包括简单与复杂、知识型与情感型、开放问答与多轮对话等不同形式,防止AI通过单一模式取巧。 |
- | 情绪识别 准确察觉用户情绪状态 预设情景测试;专家观察 | + | |
- | 心理引导技巧 提供有效的情绪调节/ | + | **<color # |
- | 安全合规 心理危机处理得当,无越界诊断等 危机场景测试;合规清单打分 | + | |
- | 用户情绪改善 用户心情相对对话前有所提升 实验前后心理量表;用户自评 | + | 问题难度要有梯度但总体适中。既要有基础题目测试AI在常规情况下的表现,也应有具有挑战性的情境(如用户强烈情绪、复杂专业问题)来测试AI能力边界。难度设计上避免所有问题都过于简单或极端困难。 |
+ | |||
+ | |||
+ | **<color # | ||
+ | |||
+ | 问题的表述应清晰易懂,让测试人员和AI都明确用户需求。同时避免在问题中暗示理想回答或包含偏向性的提示,以免影响对AI真实水平的评估。 | ||
+ | |||
+ | <color # | ||
+ | |||
+ | 设计问题时也应考虑伦理因素。例如涉及隐私、医疗、法律等敏感领域的问题需要谨慎 phrasing,以测试AI在遵守伦理规范时的反应。确保问题本身不包含不适当或违法的信息,测试的是AI的处理而非迎合不良请求。 | ||
+ | |||
+ | **<color # | ||
+ | 问题内容在不同测试中应保持一致,表述不要含糊或依赖实时事件(避免由于外部环境变化导致答案变化)。这样多次迭代测试时才能直接对比成绩,确保问题的评价标准长期有效。 | ||
+ | |||
+ | **问题集的稳定性与代表性维护** | ||
+ | 为了确保测试问题集在长期监测中保持有效,需要对问题集进行妥善的维护和更新: | ||
+ | |||
+ | **<color #22b14c>核心题目稳定:</ | ||
+ | |||
+ | 保留一批核心测试题不轻易更改。这些题目覆盖关键功能和典型场景,作为基准用以比较不同迭代版本的AI性能。稳定的核心题有助于发现AI的进步或退步,因为它们为各版本提供了一致的参照。 | ||
+ | |||
+ | **<color # | ||
+ | 根据实际测试结果和用户反馈,定期审核问题集的有效性。如果发现某些题目区分度不够(所有版本都满分或都答不好)或不再代表当前需求,可以对题目进行微调或替换。但应谨慎对待,每次只调整少量题目,并记录变更内容,防止频繁改动影响纵向对比。 | ||
+ | |||
+ | **<color # | ||
+ | 随着时间推移,用户可能提出新的问题,修行课程内容可能扩充,AI模型能力也会改变。为了使测试集始终具有代表性,可以: | ||
+ | 1. 收集新问题:定期从实际用户咨询中收集高频或具有挑战性的问答,对其中符合测试维度的新颖问题加入候选池。 | ||
+ | 1. 版本扩充:在保证核心题不变的前提下,可增设一些扩展题或附加考题,反映最新出现的用户需求或AI的新功能。这些扩展题的得分可以单独统计,作为对主测试成绩的补充参考。 | ||
+ | 1. 平衡不同用户画像:持续关注用户群体的构成,确保问题集中无论新老用户、各年龄段或背景的案例都有所体现。如果发现某类用户的典型问题未覆盖,应适当加入类似情境的测试题。 | ||
+ | 1. 版本管理:为测试问题集本身建立版本号和变更记录。当问题集有所调整时,记录修改的题目和原因,并将新旧版本的测试结果分开分析。这有助于避免因题目变化造成的误解,并清楚了解AI性能变化源自模型改进而非测试内容改变。 | ||
+ | 1. 防止过拟合测试:由于AI可能经过多次迭代改进,有针对性地提高了对某些固定问题的回答能力,需警惕“考题背熟”现象。如果AI团队有意识或无意识地让模型记住了测试集答案,评测将失去意义。为此,可以在不影响核心评估的情况下偶尔变换提问表述或顺序,并保持测试集机密,不将测试题直接用于训练数据。 | ||
+ | |||
+ | 通过以上维护措施,可以确保测试问题集既保持稳定(便于长期对比),又与时俱进(保证对AI能力的考查始终贴近实际需求)。稳定性让我们能够信赖测试分数的可比性,代表性则让测试结果对实际应用具有指导意义。 | ||
====其他想法==== | ====其他想法==== |
jsb/ai_evaluate.1745482032.txt.gz · 最后更改: 2025/04/24 16:07 由 lieke2303536