jsb:ai_evaluate

这是本文档旧的修订版！

必经小来（AI）的一些想法

主要功能：

主要是用过聊天机器人的方式实现，小来有以下功能：

可以回答修行问题。类似，什么是觉察，什么是修行，觉察的层次，修行的评估标准等
可以陪聊，帮助提供情绪建议。类似，自卑怎么办？孩子不肯写作业怎么办？
可以做作业点评。点评【看盯挖改】的情绪作业。
可以介绍必经之路的知识。必经之路的历史，一些名词解释，三不原则，摩鱼班条件等。

输入资料数据：

《觉察之道》
《生活即修行》
《老子智慧》文字稿
选择部分公众号文章。
必经之路的介绍。可以从wiki里人工刻意整理一些。

现在 AI 模型越来越多，近几年应该更新升级会很频繁。如何评估小来的每一次升级？

评分标准

1.基础要求评分

可以根据不同的功能，提供不同的测试问题，然后每个功能做打分。
现在有 4 个功能，那就有四个测试集。每个测试集，包含 20 个Test Cases。提供给小来，根据答案，由人工评判。
每个 case，人工可以根据答案标注：不满意，还行，很满意。
评分标准：还行 1 分；不满意-3 分；很满意 3 分。
每次小来升级，都进行一次评测，得出 4 个分数。算一个综合分数，对比上一次的分数，看是否需要升级。

测试集准备

可以准备两份测试集，一份是用来优化产品的，一份是用来评估模型的，每份测试集的数量，多多益善。
优化产品的测试集，可以帮助技术人员发现问题。评估模型的测试集，最好是不公开，也不要针对做优化。
不要针对评估测试集，做优化。最好的方式是，产品和开发，尽量不看评估测试集案例。只看评分结果。
可以不断添加丰富测试案例。每个案例，最好还能给出期望的结果，供评估的同学参考。

其他想法

评估方面，还可以增加一些通用性的评估。例如：反应速度，说话的语气，表达方式，长短是否合适等。
可以做部分自动化评估。例如，有些问题是有标准答案的，必经之路成立哪一年？这类问题的答案，是否可以自动评估其对错？然后自动记分，不用人工参与。
需要成立专门的评测小组。他们或许有新的想法。

jsb/ai_evaluate.1744967362.txt.gz · 最后更改: 2025/04/18 17:09 由 lieke2303536