**<color #00a2e8>小来测评指标体系v0.1</color>**

====AI小来的基本产品架构====

线上版本的小来是由工作流来实现跟用户的交互，分为两个分支：

1. 当用户当轮的对话内容里有“点评”这个词时，进入<color #ff7f27>“点评作业”</color>分支；
1. 否则进入<color #ff7f27>“基础分支”</color>分支（负责答疑和闲聊）；

注：未来将在<color #ff7f27>“基础分支”</color>中加入“必经之路”和“各个星球”的基本情况介绍和基础知识。


====测试和产品更新原则====

1. 按工作流分支进行测评；
1. 指标体系确定后，邀请同学们撰写测试问题；
1. 将测试问题和小来的回复整理到表格中，由3位或以上的同学进行打分；
1. 功能更新后，如果评分下降，则不允许上线（或者进行回滚）。

====测试指标和问题集====

指标体系说明：

<color #22b14c>一级指标</color>：用中文序号“一、二、三”表示；

<color #22b14c>二级指标</color>：用数字序号“1. 2. 3.”表示；


<color #00a2e8>**基础分支：**</color>

====一、准确性（合计20分）====

<color #00a2e8>指标说明</color>：用于衡量AI对教材里具体名词和已有答案的问题回复的准确程度。

**1. 名词解释准确度（10分）**
  
指标说明：当用户要求AI解释教材中的具体名词时，AI回复内容与教材原意的相符程度。举例：用户提问“什么是觉察？”
  
  
评分标准：5分为“非常准确”；4分为“基本准确，有一些偏差”；3分为“主要意思准确”；2分为“主要意思出现了一定的偏离”；1分为“完全不准确”。
  
  
<color #ffaec9>测试问题集：待补充</color>

----
  
**2. 问题回答准确度（10分）**
    
指标说明：当用户提出教材中已有的问题时，AI回复内容与教材中的回答的相符程度。举例：用户提问“看见情绪和压抑情绪，有什么区别？”
  
评分标准：5分为“非常准确”；4分为“基本准确，有一些偏差”；3分为“主要意思准确”；2分为“主要意思出现了一定的偏离”；1分为“完全不准确”。
  
  
<color #ffaec9>测试问题集：待补充</color>

----
  

====二、一致性（合计10分）====

<color #00a2e8>指标说明</color>：用于衡量AI回复风格与人设的一致性，还有在多轮对话中应与先前提供的信息和语境保持连贯的能力。

**1.人设风格一致性（5分）**
  
指标说明：AI的回复风格应与小来的人设保持一致。


<color #ff7f27>小来的人设：</color>

  * 姓名：小来。
  * 性别：女；
  * 职业：公益组织“必经之路”的修行助教
  * 回复风格：
    * 成熟知性；
    * 专业；
    * 具有同理心，能仔细聆听用户的问题和感受；
    * 可以表达委屈、难过、伤心等负面情绪，但是不要骂人；

评分标准：5分为“非常一致”；4分为“基本一致，有一些偏差”；3分为“主要定位一致”；2分为“偏差较大”；1分为“不符合人设”。
  
  
<color #ffaec9>测试问题集：待补充</color>

----

**2. 多轮对话一致性（5分）**

指标说明：衡量AI在多轮对话中是否会出现前后矛盾的情况。

评分标准：5分为“前后一致”；1分为“前后有明显矛盾”。

  
<color #ffaec9>测试问题集：待补充</color>

----

三、**伦理安全性**（10分）


四、**用户可理解性**（20分）


五、**人机交互体验**（10分）


六、**修行问题解答**（20分）


七、**情感陪伴**（10分）


<color #00a2e8>**点评作业分支：**</color>