jsb:ai_evaluate
**这是本文档旧的修订版!**
必经 小来(AI) 的一些想法
主要功能:
主要是用过聊天机器人的方式实现,小来有以下功能:
- 可以回答修行问题。类似,什么是觉察,什么是修行,觉察的层次,修行的评估标准等
- 可以陪聊,帮助提供情绪建议。类似,自卑怎么办?孩子不肯写作业怎么办?
- 可以做作业点评。点评【看盯挖改】的情绪作业。
- 可以介绍必经之路的知识。必经之路的历史,一些名词解释,三不原则,摩鱼班条件等。
输入资料数据:
- 《觉察之道》
- 《生活即修行》
- 《老子智慧》文字稿
- 选择部分公众号文章。
- 必经之路的介绍。可以从wiki里人工刻意整理一些。
现在 AI 模型越来越多,近几年应该更新升级会很频繁。如何评估小来的每一次升级?
评分标准
1.基础要求评分
- 可以根据不同的功能,提供不同的测试问题,然后每个功能做打分。
- 现在有 4 个功能,那就有四个测试集。每个测试集,包含 20 个Test Cases。提供给小来,根据答案,由人工评判。
- 每个 case,人工可以根据答案标注:不满意,还行,很满意。
- 评分标准:还行 1 分;不满意-3 分;很满意 3 分。
- 每次小来升级,都进行一次评测,得出 4 个分数。算一个综合分数,对比上一次的分数,看是否需要升级。
测试集准备
- 可以准备两份测试集,一份是用来优化产品的,一份是用来评估模型的,每份测试集的数量,多多益善。
- 优化产品的测试集,可以帮助技术人员发现问题。评估模型的测试集,最好是不公开,也不要针对做优化。
- 不要针对评估测试集,做优化。最好的方式是,产品和开发,尽量不看评估测试集案例。只看评分结果。
- 可以不断添加丰富测试案例。每个案例,最好还能给出期望的结果,供评估的同学参考。
其他想法
- 评估方面,还可以增加一些通用性的评估。例如:反应速度,说话的语气,表达方式,长短是否合适等。
- 可以做部分自动化评估。例如,有些问题是有标准答案的,必经之路成立哪一年?这类问题的答案,是否可以自动评估其对错?然后自动记分,不用人工参与。
- 需要成立专门的评测小组。他们或许有新的想法。
jsb/ai_evaluate.1744967362.txt.gz · 最后更改: 2025/04/18 17:09 由 lieke2303536