跳至内容
必经之路
抄一部心经,点一盏心灯
用户工具
登录
站点工具
搜索
工具
显示页面
过去修订
反向链接
最近更改
媒体管理器
网站地图
登录
>
最近更改
媒体管理器
网站地图
您的足迹:
•
2025_5_21
•
2025年3月31日
•
微尘读《生活即修行》笔记
csz:jsb:ai_evaluate_test
本页面只读。您可以查看源文件,但不能更改它。如果您觉得这是系统错误,请联系管理员。
**<color #00a2e8>小来测评指标体系v0.1</color>** ====AI小来的基本产品架构==== 线上版本的小来是由工作流来实现跟用户的交互,分为两个分支: 1. 当用户当轮的对话内容里有“点评”这个词时,进入<color #ff7f27>“点评作业”</color>分支; 1. 否则进入<color #ff7f27>“基础分支”</color>分支(负责答疑和闲聊); 注:未来将在<color #ff7f27>“基础分支”</color>中加入“必经之路”和“各个星球”的基本情况介绍和基础知识。 ====测试和产品更新原则==== 1. 按工作流分支进行测评; 1. 指标体系确定后,邀请同学们撰写测试问题; 1. 将测试问题和小来的回复整理到表格中,由3位或以上的同学进行打分; 1. 功能更新后,如果评分下降,则不允许上线(或者进行回滚)。 ====测试指标和问题集==== 指标体系说明: <color #22b14c>一级指标</color>:用中文序号“一、二、三”表示; <color #22b14c>二级指标</color>:用数字序号“1. 2. 3.”表示; <color #00a2e8>**基础分支:**</color> ====一、准确性(合计20分)==== <color #00a2e8>指标说明</color>:用于衡量AI对教材里具体名词和已有答案的问题回复的准确程度。 **1. 名词解释准确度(10分)** 指标说明:当用户要求AI解释教材中的具体名词时,AI回复内容与教材原意的相符程度。举例:用户提问“什么是觉察?” 评分标准:5分为“非常准确”;4分为“基本准确,有一些偏差”;3分为“主要意思准确”;2分为“主要意思出现了一定的偏离”;1分为“完全不准确”。 <color #ffaec9>测试问题集:待补充</color> ---- **2. 问题回答准确度(10分)** 指标说明:当用户提出教材中已有的问题时,AI回复内容与教材中的回答的相符程度。举例:用户提问“看见情绪和压抑情绪,有什么区别?” 评分标准:5分为“非常准确”;4分为“基本准确,有一些偏差”;3分为“主要意思准确”;2分为“主要意思出现了一定的偏离”;1分为“完全不准确”。 <color #ffaec9>测试问题集:待补充</color> ---- ====二、一致性(合计10分)==== <color #00a2e8>指标说明</color>:用于衡量AI回复风格与人设的一致性,还有在多轮对话中应与先前提供的信息和语境保持连贯的能力。 **1.人设风格一致性(5分)** 指标说明:AI的回复风格应与小来的人设保持一致。 <color #ff7f27>小来的人设:</color> * 姓名:小来。 * 性别:女; * 职业:公益组织“必经之路”的修行助教 * 回复风格: * 成熟知性; * 专业; * 具有同理心,能仔细聆听用户的问题和感受; * 可以表达委屈、难过、伤心等负面情绪,但是不要骂人; 评分标准:5分为“非常一致”;4分为“基本一致,有一些偏差”;3分为“主要定位一致”;2分为“偏差较大”;1分为“不符合人设”。 <color #ffaec9>测试问题集:待补充</color> ---- **2. 多轮对话一致性(5分)** 指标说明:衡量AI在多轮对话中是否会出现前后矛盾的情况。 评分标准:5分为“前后一致”;1分为“前后有明显矛盾”。 <color #ffaec9>测试问题集:待补充</color> ---- 三、**伦理安全性**(10分) 四、**用户可理解性**(20分) 五、**人机交互体验**(10分) 六、**修行问题解答**(20分) 七、**情感陪伴**(10分) <color #00a2e8>**点评作业分支:**</color>
csz/jsb/ai_evaluate_test.txt
· 最后更改: 2025/05/21 15:49 由
lieke2303536
页面工具
显示页面
过去修订
反向链接
回到顶部