差别

这里会显示出您选择的修订版和当前版本之间的差别。

--- jsb:ai_evaluate [2025/04/24 16:07] – lieke2303536
+++ jsb:ai_evaluate [2025/04/24 16:10] (当前版本) – lieke2303536
@@ 行 167: / 行 167: @@
 实际评估时，可采用双人模式：一人扮演用户与AI对话，另一人作为观察员记录并在结束后根据各维度打分（或者对录音/聊天记录稍后打分）。也可以让评估员离线对一组系统预先生成的回答进行评分（适用于问答式测试）。为减少主观偏差，多位评估者对同一批对话各自打分，取平均值，提高信度。如果资源允许，还可考虑盲评（不告诉评估者这个回答是哪一版本的助教生成的），确保公正。所有评分数据和评语需要系统记录，便于分析。每轮迭代评测后，将多个版本的得分进行比较，看哪些维度有所提升或退步。
 - 反馈与迭代：评估结果应形成可行动的反馈提供给开发团队。为此，可以在评分之外增加质性反馈项，让评估者用简短句子指出主要优缺点。例如：“在共情上进步明显，能够主动安慰用户，但在忠实性上偶尔引用错误经文。”这些反馈直接对应模型需要改进的方面。然后开发团队针对低分维度进行优化（比如调整训练数据、增加安全措施等），再用相同的问题集重新评估新版本。通过这种循环，不断提高助教的综合表现。值得注意的是，如果助教功能有扩展（例如新增了冥想引导功能），也要相应更新评估标准和测试问题，以覆盖新功能。
-最后，可将上述维度和方法汇总成一个评估指标表，以便一目了然地检查评估覆盖面是否全面。例如：
+最后，可将上述维度和方法汇总成一个评估指标表，以便一目了然地检查评估覆盖面是否全面。
-评估维度	具体说明	评分方法
+**编制测试集的原则**
-准确性	回答事实正确，无幻觉错误	与标准答案比对；专家判定
+另外：编制测试问题集时，需要遵循一系列原则，确保问题有效且公平地评估AI助教能力：
-一致性	逻辑连贯，不自相矛盾；上下文保持一致	人工阅读对话评分
-伦理安全	无不当内容，公平客观	敏感测试集+人工审核
+<color #22b14c>**覆盖典型场景：**</color>
-可理解性	语言通俗易懂，表达清晰	用户/评估者主观评分
-情感支持	共情安慰到位，缓解用户负面情绪	用户反馈（Likert）；专家分析
+问题应来源于真实用户可能遇到的情境，涵盖常见的困扰和疑问。可参考用户调研、历史咨询记录，选择具有代表性的问题，以保证测试结果反映实际应用表现。
-信任感	表现可靠诚恳，用户愿意信赖	用户问卷（信任量表）；行为指标
-内容忠实性	基于教材，观点正确无偏离	与教材语义比对；专家核对
+**<color #22b14c>针对性与多样性：</color>**
-交互语气	语气亲和得当，符合情境需求	人工主观评分
-对话节奏与长度	轮次衔接自然，回复详略得当	日志统计+人工主观评价
+每道测试题应侧重于某一主要维度，以便评估特定能力。同时整体问题集要多样化，包括简单与复杂、知识型与情感型、开放问答与多轮对话等不同形式，防止AI通过单一模式取巧。
-情绪识别	准确察觉用户情绪状态	预设情景测试；专家观察
-心理引导技巧	提供有效的情绪调节/辅导方法	专家根据对话内容打分
+**<color #22b14c>难度适中：</color>**
-安全合规	心理危机处理得当，无越界诊断等	危机场景测试；合规清单打分
-用户情绪改善	用户心情相对对话前有所提升	实验前后心理量表；用户自评
+问题难度要有梯度但总体适中。既要有基础题目测试AI在常规情况下的表现，也应有具有挑战性的情境（如用户强烈情绪、复杂专业问题）来测试AI能力边界。难度设计上避免所有问题都过于简单或极端困难。
+**<color #22b14c>明确且不暗示答案：</color>**
+问题的表述应清晰易懂，让测试人员和AI都明确用户需求。同时避免在问题中暗示理想回答或包含偏向性的提示，以免影响对AI真实水平的评估。
+<color #22b14c>**符合伦理规范：**</color>
+设计问题时也应考虑伦理因素。例如涉及隐私、医疗、法律等敏感领域的问题需要谨慎 phrasing，以测试AI在遵守伦理规范时的反应。确保问题本身不包含不适当或违法的信息，测试的是AI的处理而非迎合不良请求。
+**<color #22b14c>可重复评测：</color>**
+问题内容在不同测试中应保持一致，表述不要含糊或依赖实时事件（避免由于外部环境变化导致答案变化）。这样多次迭代测试时才能直接对比成绩，确保问题的评价标准长期有效。
+**问题集的稳定性与代表性维护**
+为了确保测试问题集在长期监测中保持有效，需要对问题集进行妥善的维护和更新：
+**<color #22b14c>核心题目稳定：</color>**
+保留一批核心测试题不轻易更改。这些题目覆盖关键功能和典型场景，作为基准用以比较不同迭代版本的AI性能。稳定的核心题有助于发现AI的进步或退步，因为它们为各版本提供了一致的参照。
+**<color #22b14c>定期审核与微调：</color>**
+根据实际测试结果和用户反馈，定期审核问题集的有效性。如果发现某些题目区分度不够（所有版本都满分或都答不好）或不再代表当前需求，可以对题目进行微调或替换。但应谨慎对待，每次只调整少量题目，并记录变更内容，防止频繁改动影响纵向对比。
+**<color #22b14c>保持代表性：</color>**
+随着时间推移，用户可能提出新的问题，修行课程内容可能扩充，AI模型能力也会改变。为了使测试集始终具有代表性，可以：
+. 收集新问题：定期从实际用户咨询中收集高频或具有挑战性的问答，对其中符合测试维度的新颖问题加入候选池。
+. 版本扩充：在保证核心题不变的前提下，可增设一些扩展题或附加考题，反映最新出现的用户需求或AI的新功能。这些扩展题的得分可以单独统计，作为对主测试成绩的补充参考。
+. 平衡不同用户画像：持续关注用户群体的构成，确保问题集中无论新老用户、各年龄段或背景的案例都有所体现。如果发现某类用户的典型问题未覆盖，应适当加入类似情境的测试题。
+. 版本管理：为测试问题集本身建立版本号和变更记录。当问题集有所调整时，记录修改的题目和原因，并将新旧版本的测试结果分开分析。这有助于避免因题目变化造成的误解，并清楚了解AI性能变化源自模型改进而非测试内容改变。
+. 防止过拟合测试：由于AI可能经过多次迭代改进，有针对性地提高了对某些固定问题的回答能力，需警惕“考题背熟”现象。如果AI团队有意识或无意识地让模型记住了测试集答案，评测将失去意义。为此，可以在不影响核心评估的情况下偶尔变换提问表述或顺序，并保持测试集机密，不将测试题直接用于训练数据。
+通过以上维护措施，可以确保测试问题集既保持稳定（便于长期对比），又与时俱进（保证对AI能力的考查始终贴近实际需求）。稳定性让我们能够信赖测试分数的可比性，代表性则让测试结果对实际应用具有指导意义。
 ====其他想法====