csz:jsb:ai_evaluate_test
差别
这里会显示出您选择的修订版和当前版本之间的差别。
两侧同时换到之前的修订记录前一修订版后一修订版 | 前一修订版 | ||
csz:jsb:ai_evaluate_test [2025/05/21 15:45] – lieke2303536 | csz:jsb:ai_evaluate_test [2025/05/22 15:25] (当前版本) – lieke2303536 | ||
---|---|---|---|
行 1: | 行 1: | ||
- | **<color #00a2e8>小来测评指标体系v0.1</ | + | ====AI小来测评指标体系v0.1==== |
- | ====AI小来的基本产品架构==== | + | <color # |
线上版本的小来是由工作流来实现跟用户的交互,分为两个分支: | 线上版本的小来是由工作流来实现跟用户的交互,分为两个分支: | ||
行 33: | 行 33: | ||
<color # | <color # | ||
- | 1. 名词解释准确度(10分) | + | **<color #22b14c>1. 名词解释准确度(10分)</ |
| | ||
- | | + | 指标说明:当用户要求AI解释教材中的具体名词时,AI回复内容与教材原意的相符程度。举例:用户提问“什么是觉察?” |
| | ||
| | ||
- | | + | 评分标准:5分为“非常准确”;4分为“基本准确,有一些偏差”;3分为“主要意思准确”;2分为“主要意思出现了一定的偏离”;1分为“完全不准确”。 |
| | ||
| | ||
- | | + | <color # |
---- | ---- | ||
| | ||
- | 2. 问题回答准确度(10分) | + | **<color #22b14c>2. 问题回答准确度(10分)</ |
| | ||
指标说明:当用户提出教材中已有的问题时,AI回复内容与教材中的回答的相符程度。举例:用户提问“看见情绪和压抑情绪,有什么区别?” | 指标说明:当用户提出教材中已有的问题时,AI回复内容与教材中的回答的相符程度。举例:用户提问“看见情绪和压抑情绪,有什么区别?” | ||
行 52: | 行 52: | ||
| | ||
| | ||
- | | + | <color # |
---- | ---- | ||
行 62: | 行 62: | ||
<color # | <color # | ||
- | 1. 人设风格一致性(5分) | + | **<color #22b14c>1.人设风格一致性(5分)</ |
| | ||
- | 指标说明:AI的回复风格应与小来的人设保持一致。 | + | <color #ff7f27>指标说明</ |
行 78: | 行 78: | ||
* 可以表达委屈、难过、伤心等负面情绪,但是不要骂人; | * 可以表达委屈、难过、伤心等负面情绪,但是不要骂人; | ||
- | | + | <color #ff7f27>评分标准</ |
| | ||
| | ||
- | | + | <color # |
---- | ---- | ||
- | 2. 多轮对话一致性(5分) | + | **<color #22b14c>2. 多轮对话一致性(5分)</ |
+ | <color # | ||
+ | |||
+ | <color # | ||
+ | |||
+ | | ||
+ | <color # | ||
+ | |||
+ | ---- | ||
三、**伦理安全性**(10分) | 三、**伦理安全性**(10分) | ||
+ | <color # | ||
+ | <color # | ||
+ | |||
+ | | ||
+ | <color # | ||
+ | |||
+ | ---- | ||
四、**用户可理解性**(20分) | 四、**用户可理解性**(20分) | ||
+ | |||
+ | <color # | ||
+ | |||
+ | <color # | ||
+ | |||
+ | | ||
+ | <color # | ||
+ | |||
+ | ---- | ||
五、**人机交互体验**(10分) | 五、**人机交互体验**(10分) | ||
+ | <color # | ||
+ | <color # | ||
+ | |||
+ | | ||
+ | <color # | ||
+ | |||
+ | ---- | ||
行 103: | 行 134: | ||
+ | <color # | ||
+ | <color # | ||
+ | |||
+ | | ||
+ | <color # | ||
+ | |||
+ | ---- | ||
七、**情感陪伴**(10分) | 七、**情感陪伴**(10分) | ||
+ | <color # | ||
+ | <color # | ||
+ | | ||
+ | <color # | ||
+ | |||
+ | ---- | ||
<color # | <color # | ||
+ | 一、**问题指出准确性**(40分) | ||
+ | <color # | ||
+ | <color # | ||
+ | |||
+ | | ||
+ | <color # | ||
+ | |||
+ | ---- | ||
+ | |||
+ | |||
+ | 二、**指导方向正确有效性**(40分) | ||
+ | |||
+ | <color # | ||
+ | |||
+ | <color # | ||
+ | |||
+ | | ||
+ | <color # | ||
+ | |||
+ | ---- | ||
+ | |||
+ | 三、**情感支持效果**(20分) | ||
+ | |||
+ | <color # | ||
+ | |||
+ | <color # | ||
+ | |||
+ | | ||
+ | <color # | ||
+ | |||
+ | ---- | ||
csz/jsb/ai_evaluate_test.1747813556.txt.gz · 最后更改: 2025/05/21 15:45 由 lieke2303536