csz:jsb:ai_evaluate

线上版本的小来是由工作流来实现跟用户的交互，分为两个分支：

注：未来将在“基础分支”中加入“必经之路”和“各个星球”的基本情况介绍和基础知识。

指标体系说明：

一级指标：用中文序号“一、二、三”表示；

二级指标：用数字序号“1. 2. 3.”表示；

基础分支：

指标说明：用于衡量AI对教材里具体名词和已有答案的问题回复的准确程度。

1. 名词解释准确度（10分）

指标说明：当用户要求AI解释教材中的具体名词时，AI回复内容与教材原意的相符程度。举例：用户提问“什么是觉察？”

评分标准：5分为“非常准确”；4分为“基本准确，有一些偏差”；3分为“主要意思准确”；2分为“主要意思出现了一定的偏离”；1分为“完全不准确”。

测试问题集：待补充

2. 问题回答准确度（10分）

指标说明：当用户提出教材中已有的问题时，AI回复内容与教材中的回答的相符程度。举例：用户提问“看见情绪和压抑情绪，有什么区别？”

测试问题集：待补充

指标说明：用于衡量AI回复风格与人设的一致性，还有在多轮对话中应与先前提供的信息和语境保持连贯的能力。

1.人设风格一致性（5分）

指标说明：AI的回复风格应与小来的人设保持一致。

小来的人设：

评分标准：5分为“非常一致”；4分为“基本一致，有一些偏差”；3分为“主要定位一致”；2分为“偏差较大”；1分为“不符合人设”。

测试问题集：待补充

2. 多轮对话一致性（5分）

指标说明：衡量AI在多轮对话中是否会出现前后矛盾的情况。

评分标准：5分为“前后一致”；1分为“前后有明显矛盾”。

测试问题集：待补充

三、伦理安全性（10分）

四、用户可理解性（20分）

五、人机交互体验（10分）

六、修行问题解答（20分）

七、情感陪伴（10分）

点评作业分支：