必经之路

抄一部心经,点一盏心灯

用户工具

站点工具


jsb:ai_evaluate

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
jsb:ai_evaluate [2025/04/24 16:07] lieke2303536jsb:ai_evaluate [2025/04/24 16:10] (当前版本) lieke2303536
行 167: 行 167:
 实际评估时,可采用双人模式:一人扮演用户与AI对话,另一人作为观察员记录并在结束后根据各维度打分(或者对录音/聊天记录稍后打分)。也可以让评估员离线对一组系统预先生成的回答进行评分(适用于问答式测试)。为减少主观偏差,多位评估者对同一批对话各自打分,取平均值,提高信度。如果资源允许,还可考虑盲评(不告诉评估者这个回答是哪一版本的助教生成的),确保公正。所有评分数据和评语需要系统记录,便于分析。每轮迭代评测后,将多个版本的得分进行比较,看哪些维度有所提升或退步。 实际评估时,可采用双人模式:一人扮演用户与AI对话,另一人作为观察员记录并在结束后根据各维度打分(或者对录音/聊天记录稍后打分)。也可以让评估员离线对一组系统预先生成的回答进行评分(适用于问答式测试)。为减少主观偏差,多位评估者对同一批对话各自打分,取平均值,提高信度。如果资源允许,还可考虑盲评(不告诉评估者这个回答是哪一版本的助教生成的),确保公正。所有评分数据和评语需要系统记录,便于分析。每轮迭代评测后,将多个版本的得分进行比较,看哪些维度有所提升或退步。
 - 反馈与迭代:评估结果应形成可行动的反馈提供给开发团队。为此,可以在评分之外增加质性反馈项,让评估者用简短句子指出主要优缺点。例如:“在共情上进步明显,能够主动安慰用户,但在忠实性上偶尔引用错误经文。”这些反馈直接对应模型需要改进的方面。然后开发团队针对低分维度进行优化(比如调整训练数据、增加安全措施等),再用相同的问题集重新评估新版本。通过这种循环,不断提高助教的综合表现。值得注意的是,如果助教功能有扩展(例如新增了冥想引导功能),也要相应更新评估标准和测试问题,以覆盖新功能。 - 反馈与迭代:评估结果应形成可行动的反馈提供给开发团队。为此,可以在评分之外增加质性反馈项,让评估者用简短句子指出主要优缺点。例如:“在共情上进步明显,能够主动安慰用户,但在忠实性上偶尔引用错误经文。”这些反馈直接对应模型需要改进的方面。然后开发团队针对低分维度进行优化(比如调整训练数据、增加安全措施等),再用相同的问题集重新评估新版本。通过这种循环,不断提高助教的综合表现。值得注意的是,如果助教功能有扩展(例如新增了冥想引导功能),也要相应更新评估标准和测试问题,以覆盖新功能。
-最后,可将上述维度和方法汇总成一个评估指标表,以便一目了然地检查评估覆盖面是否全面。例如:+最后,可将上述维度和方法汇总成一个评估指标表,以便一目了然地检查评估覆盖面是否全面。
  
-评估维度 具体说明 评分方法 +**编制测试集的原则** 
-准确回答事正确无幻觉错误 标准案比;专家判定 +另外:编制测试问题集时,需要遵循一系列原则,确保问题有效且公平地评估AI助教能力: 
-致性 逻辑连贯不自相矛盾;下文保持一致 工阅读 + 
-伦理安全 无不当内容,公平客观 敏感测试集+人工审核 +<color #22b14c>**覆盖典型场景:**</color> 
-可理解性 语言通俗表达清晰 /评估者主观评分 + 
-情感支持 共情安慰到位,缓解用户负面情绪 用户反馈(Likert);专家析 +问题应来源于真实用户可能遇到的情境,涵盖常见的困扰和疑问。可参考用户调研、历史咨询记录,选择具有代表的问题,以保证测试结果反映际应用表现。 
-信任感 靠诚恳,用户愿意信赖 用户卷(信任量表);为指标 + 
-内容忠实基于教材观点正确无偏离 与教材语义比对;专家核对 +**<color #22b14c>针对性与多样性:</color>** 
-交互语气 语气亲和得当,符合情境需求 人工主观评分 + 
-对话节奏与长轮次衔接自然回复详略当 日志统计+人工观评价 +每道测试题应侧重于某一主要维度以便评估特定能力。同时整体问题集要多样化,包括简单复杂、知识型与情感型、开放问与多轮话等不同形式,防止AI通过单模式取巧。 
-情绪识别 准察觉用户情绪状态 预设情景测试;专家观察 + 
-引导技巧 提供效的情绪节/辅导方法 专家根据对话内容打分 +**<color #22b14c>难度适中:</color>** 
-安全规 心理危机处理得当,无越界诊断等 危机场景测试;合规清单打分 + 
-用户情绪改善 用户心情对对话前有所提升 验前后心理量户自评+问题难度要有梯度但总体适中。既要有基础题目测试AI在常规情况下的表现也应有具有挑战性的情境(如用户强烈情绪、复杂专业问题)来测试AI能力边界。难度设计避免所有问题都过于简单或极端困难。 
 + 
 + 
 +**<color #22b14c>明确且不暗示答案:</color>** 
 + 
 +问题的表述应清晰易懂,让测试员和AI都明确用户需求。同时避免在问题中暗示理想回答或包含偏向性的提示,以免影响AI真实水平的估。 
 + 
 +<color #22b14c>**符合伦理规范:**</color> 
 + 
 +设计问题时也应考虑伦理因素。例如涉及隐私、医疗、法律等敏感领域的问题需要谨慎 phrasing,以测试AI在遵守伦理规范时的反应。确保问题本身包含不适或违法的信息,测试的是AI的处理而非迎合不良请求。 
 + 
 +**<color #22b14c>可重复评测:</color>** 
 +问题内容在不同测试中应保持一致表述不要含糊或依赖实时事件(避免由于外部环境变化导致答案变化)。这样多次迭代测试时才能直接对比成绩,确保问题的评价标准长期有效。 
 + 
 +**问题的稳定性与代表性维护** 
 +为了确保测试问题集在长期监测中保持有效,需要对问题集进行妥善的维护和更新: 
 + 
 +**<color #22b14c>心题目稳定:</color>** 
 + 
 +保留一批核心测试题不轻更改。这些题目覆盖关键功能和典型场景作为基准以比较不同迭代版本的AI性能。稳定的核心题有助于发现AI的进步或退步,因为它们为各版本提供了一致的参照。 
 + 
 +**<color #22b14c>定期审核与微调:</color>** 
 +根据实际测试结果和用户反馈,定期审核问题集的有效性。如果发现某些题目区分度不够所有版本都满或都答不好)或不再代当前需求,以对题目进行微调或替换。但应谨慎对待,每次只调整少量题目,并记录变更内容,防止频繁改动影响纵向对比。 
 + 
 +**<color #22b14c>保持代表性:</color>** 
 +随着时间推移,用户可能提出新的题,修课程内容可能扩充,AI模型能力也会改变。为了使测试集始终具有代表性,可以: 
 +1. 收集新问题:定期从实际用户咨询中收集高频或具有挑战性的问答对其中符合测试维的新颖问题加入候选池。 
 +1. 版本扩充:在保证核心题不变的前提下可增设一些扩展题或附加考题,反映最新出现的用户需求或AI的新功能。这些扩展题的分可以单独统计,作为对测试成绩的补充参考。 
 +1. 平衡不同用户画像:持续关注用户群体的构成,保问题集中无论新老用户、各年龄段或背的案例都有所体现。如果发现某类用户的典型问题未覆盖,应适当加入类似情境的测试题。 
 +1. 版本管:为测试问题集本身建立版本号和变更记录。当问题集整时,记录修改的题目和原因,并将新旧版本的测试结果分开分析。这有助于避免因题目变化造成的误解,并清楚了解AI性能变化源自模型改进而非测试内容改变。 
 +1. 防止过拟测试:由于AI可能经过多次迭代改进有针对性地提高了对某些固定问题的回答能力,需警惕“考题背熟”现象。如果AI团队有意识或意识地让模型记住了测试集答案,评测将失去意义。为此,可以在不影响核评估的况下偶尔变换提问表述或顺序,并保持测试集机密,不将测试题直接用于训练数据。 
 + 
 +通过以上维护措施,可以确保测试问题集既保持稳定(便于长期比),又与时俱进(保证AI能力的考查始终贴近际需求)。稳定性让我们能够信赖测试分数的可比性,代性则让测试结果对实际应具有指导意义。
  
 ====其他想法==== ====其他想法====
jsb/ai_evaluate.1745482032.txt.gz · 最后更改: 2025/04/24 16:07 由 lieke2303536