必经之路

抄一部心经,点一盏心灯

用户工具

站点工具


jsb:ai_evaluate

**这是本文档旧的修订版!**

必经 小来(AI) 的一些想法

主要是用过聊天机器人的方式实现,小来有以下功能:

  1. 可以回答修行问题。类似,什么是觉察,什么是修行,觉察的层次,修行的评估标准等
  2. 可以陪聊,帮助提供情绪建议。类似,自卑怎么办?孩子不肯写作业怎么办?
  3. 可以做作业点评。点评【看盯挖改】的情绪作业。
  4. 可以介绍必经之路的知识。必经之路的历史,一些名词解释,三不原则,摩鱼班条件等。

给 AI 的资料数据:

  1. 《觉察之道》
  2. 《生活即修行》
  3. 《老子智慧》文字稿
  4. 必经之路的介绍。可以人工刻意整理一些。(wiki 数据可用吗?)

现在 AI 模型越来越多,近几年应该更新升级会很频繁。如何评估小来的每一次升级?

  1. 可以根据不同的功能,提供不同的测试问题,然后每个功能做打分。
  2. 现在有 4 个功能,那就有四个测试集。每个测试集,包含 20 个Test Cases。提供给小来,根据答案,由人工评判。
  3. 每个 case,人工可以根据答案标注:不满意,还行,很满意
  4. 评分标准:还行 1 分;不满意-3 分;很满意 3 分。
  5. 每次小来升级,都进行一次评测,得出 4 个分数。算一个综合分数,对比上一次的分数,看是否需要升级。
  6. 可以准备两份测试集,一份是用来优化产品的,一份是用来评估模型的,每份测试集的数量,多多益善。
  7. 优化产品的测试集,可以帮助技术人员发现问题。评估模型的测试集,最好是不公开,也不要针对做优化。
  8. 不要针对评估测试集,做优化。最好的方式是,产品和开发,尽量不看评估测试集案例。只看评分结果。
  9. 评估方面,还可以增加一些通用性的评估。例如:反应速度,说话的语气,表达方式,长短是否合适等。
jsb/ai_evaluate.1743945265.txt.gz · 最后更改: 2025/04/06 21:14 由 lanshizi