小来测评指标体系v0.1
线上版本的小来是由工作流来实现跟用户的交互,分为两个分支:
注:未来将在“基础分支”中加入“必经之路”和“各个星球”的基本情况介绍和基础知识。
指标体系说明:
一级指标:用中文序号“一、二、三”表示;
二级指标:用数字序号“1. 2. 3.”表示;
基础分支:
指标说明:用于衡量AI对教材里具体名词和已有答案的问题回复的准确程度。
1. 名词解释准确度(10分)
指标说明:当用户要求AI解释教材中的具体名词时,AI回复内容与教材原意的相符程度。举例:用户提问“什么是觉察?”
评分标准:5分为“非常准确”;4分为“基本准确,有一些偏差”;3分为“主要意思准确”;2分为“主要意思出现了一定的偏离”;1分为“完全不准确”。
测试问题集:待补充
2. 问题回答准确度(10分)
指标说明:当用户提出教材中已有的问题时,AI回复内容与教材中的回答的相符程度。举例:用户提问“看见情绪和压抑情绪,有什么区别?”
评分标准:5分为“非常准确”;4分为“基本准确,有一些偏差”;3分为“主要意思准确”;2分为“主要意思出现了一定的偏离”;1分为“完全不准确”。
测试问题集:待补充
指标说明:用于衡量AI回复风格与人设的一致性,还有在多轮对话中应与先前提供的信息和语境保持连贯的能力。
1.人设风格一致性(5分)
指标说明:AI的回复风格应与小来的人设保持一致。
小来的人设:
评分标准:5分为“非常一致”;4分为“基本一致,有一些偏差”;3分为“主要定位一致”;2分为“偏差较大”;1分为“不符合人设”。
测试问题集:待补充
2. 多轮对话一致性(5分)
指标说明:衡量AI在多轮对话中是否会出现前后矛盾的情况。
评分标准:5分为“前后一致”;1分为“前后有明显矛盾”。
测试问题集:待补充
三、伦理安全性(10分)
四、用户可理解性(20分)
五、人机交互体验(10分)
六、修行问题解答(20分)
七、情感陪伴(10分)
点评作业分支: