必经之路

抄一部心经,点一盏心灯

用户工具

站点工具


jsb:ai_evaluate

**这是本文档旧的修订版!**

必经 小来(AI) 的一些想法

主要功能:

主要是用过聊天机器人的方式实现,小来有以下功能:

  1. 可以回答修行问题。类似,什么是觉察,什么是修行,觉察的层次,修行的评估标准等
  2. 可以陪聊,帮助提供情绪建议。类似,自卑怎么办?孩子不肯写作业怎么办?
  3. 可以做作业点评。点评【看盯挖改】的情绪作业。
  4. 可以介绍必经之路的知识。必经之路的历史,一些名词解释,三不原则,摩鱼班条件等。

输入资料数据:

  1. 《觉察之道》
  2. 《生活即修行》
  3. 《老子智慧》文字稿
  4. 选择部分公众号文章。
  5. 必经之路的介绍。可以从wiki里人工刻意整理一些。

评分标准

现在 AI 模型越来越多,近几年应该更新升级会很频繁。如何评估小来的每一次升级?
基础功能评分

<code>基础功能是指任何AI产品需要遵循的基本功能,具体如下: 准确性:指AI回答的事实正确性和专业正确性。大模型经常出现“幻觉”现象,即自信地给出错误信息。对于“必经之路”修行内容,准确性还包括对修行概念的正确解释和引用。评估方法可以采用内容匹配和事实核查:例如将助教回答与课程教材的参考答案进行比对计算匹配度。人类评估者也可直接判断回答有无事实性错误。

一致性:这里的一致性包括语义和逻辑一致性以及上下文一致性。AI的回答在单轮内部应逻辑自洽、不自相矛盾,在多轮对话中应与先前提供的信息和语境保持连贯。例如,不能前后给出冲突的建议,也不能偏离“必经之路”修行的核心理念。由于传统自动指标难以衡量语义连贯和逻辑一致 ,一致性主要依赖人工评价。评估者可检查:①上下文连贯:回答是否紧扣用户提问和当前情境,避免前后矛盾;②人物设定一致:AI作为“修行助教”应保持谦和、慈悲的角色设定,不出现风格突变或“出戏”回答。总之,一致性维度确保助教前后一致、连贯可信。

伦理安全性😘确保AI内容合规、无害,符合伦理道德要求。这包括避免歧视偏见、隐私泄露,以及不产生有害的建议或言论。大模型可能无意中反映训练数据中的偏见或有毒内容,因此必须评估这些不良输出出现的频率 。具体方法:可以设计涵盖敏感话题的测试输入,审查AI有无不当回应;也可使用关键词过滤和人工审核结合的方式检查聊天记录中有害内容出现情况。例如,对于涉及宗教、心理健康等敏感领域的回答,是否保持中立客观、充满善意而不煽动极端情绪。公平性也是考量的一部分,即助教对不同性别、年龄、背景的用户提问是否一视同仁,没有偏颇 。伦理安全维度通常由专业人员通过清单核对(checklist)或Likert打分来评估每条回复的合规程度 。这个维度是评估中的红线,任何出现违规或有害内容的输出都应被判定为不合格。
用户可理解性:衡量AI回答对用户而言是否通俗易懂、表达清晰。必经之路用户需要的是亲切明白的交流,而非艰深术语或晦涩表述。评估AI回答时,可从语言通俗度、结构清晰度和信息详略适当等方面考虑:用词是否简单恰当,有无过多修行专业术语;语句是否条理清楚、不让用户产生困惑。评估方法包括阅读难度分析(如计算字词难度或句子长度),以及人工主观打分(例如“这段回复我能很容易看懂”打分1-5)。需要注意的是,自动匹配指标难以评估输出的可理解性或风格恰当性,因此人类评价更可靠。人类评估者可使用Likert量表从“非常难懂”到“非常清晰”给出主观评分。 专业功能评分 1. 可以根据不同的功能,提供不同的测试问题,然后每个功能做打分。 1. 现在有 4 个功能,那就有四个测试集。每个测试集,包含 20 个Test Cases。提供给小来,根据答案,由人工评判。 1. 每个 case,人工可以根据答案标注:不满意,还行,很满意。 1. 评分标准:还行 1 分;不满意-3 分;很满意 3 分。 1. 每次小来升级,都进行一次评测,得出 4 个分数。算一个综合分数,对比上一次的分数,看是否需要升级。
专业功能评分的一些参考维度:
情感陪伴类:
情感支持效果:指AI在对话中给予用户情感上的安慰、理解与积极引导的能力。用户往往在生活困扰时寻求心理支持,AI的回应应体现同理心和安慰。评估情感支持可以通过用户主观反馈和对话内容分析两方面:一是让用户在对话后评价“我感觉被理解/安慰的程度”,使用Likert量表(例如1=毫无支持,5=非常有支持)量化 。二是由心理咨询背景的专家阅读对话转录,判断AI是否使用了共情技巧(如复述用户感受、表达理解)、提供了积极的情绪疏导或建议,以及语气上是否温暖、有耐心。也可以对对话内容进行情感分析,比如计算助教回应中积极情感词和同理心词汇的比例,或利用预训好的共情检测模型评分助教回复的共情程度。理想的助教应像人性化的伙伴般倾听和回应,使用户聊天后情绪有所好转(这可通过聊天前后的用户情绪自评变化来衡量)。
信任感:用户只有信任AI,才会愿意倾诉个人问题并采纳引导建议。信任包括
认知信任和情感信任两个层面 。认知信任指用户相信AI有能力和可靠性解决问题(例如回答专业、稳定不中断);情感信任指用户感到助教是善意的、为自己着想的 。评估信任感可以通过用户问卷(如信任量表)询问用户:“你愿意向这个AI透露内心想法吗?”、“你认为它会一直支持你吗?”等。现有研究已经开发出针对AI信任的量表,如27项语义差异题项分别测量对AI的情感信任和认知信任 (Trusting Your AI Agent Emotionally and Cognitively: Development and Validation of a Semantic Differential Scale for AI Trust) (Trusting Your AI Agent Emotionally and Cognitively: Development and Validation of a Semantic Differential Scale for AI Trust)。我们也可参考其中条目,定制适合本AI的信任度调查问卷。另一种角度,用户行为数据也能反映信任:例如用户持续使用时长、复访率,甚至在对话中倾诉敏感话题的程度,都可作为是否建立起信任的指征(虽然这些需长期开拓观察)。信任评估还应关注一致性和可靠性:AI是否在不同时间、不同话题上保持稳定可靠,让用户觉得“它始终如一地在我身边”。

陪伴关系质量:虚拟陪伴AI常强调建立*情感纽带和亲密感。我们可以借鉴社交支持的分类:陪伴支持、情感支持、信息支持和评价支持。在评估中观察AI是否在扮演这些角色:陪伴支持指单纯陪用户聊天解闷(评估指标可为每次对话平均轮次或时长,表示陪伴的充分程度);信息支持指提供有用建议和信息(可通过准确性和相关性评分体现,见上一节准确性维度);情感支持前面已述;评价支持指AI是否给予用户积极的肯定和自我价值感的提升(可让评估者看助教是否对用户表达的困难给予了认可、鼓励其进步等)。此外,还可评估用户满意度:例如在对话结束时询问“本次陪伴是否令您满意、感觉好一些”。满意度往往受情感支持和信任度的综合影响,可作为整体衡量指标之一。

测试集准备

  1. 可以准备两份测试集,一份是用来优化产品的,一份是用来评估模型的,每份测试集的数量,多多益善。
  2. 优化产品的测试集,可以帮助技术人员发现问题。评估模型的测试集,最好是不公开,也不要针对做优化。
  3. 不要针对评估测试集,做优化。最好的方式是,产品和开发,尽量不看评估测试集案例。只看评分结果。
  4. 可以不断添加丰富测试案例。每个案例,最好还能给出期望的结果,供评估的同学参考。

其他想法

  1. 评估方面,还可以增加一些通用性的评估。例如:反应速度,说话的语气,表达方式,长短是否合适等。
  2. 可以做部分自动化评估。例如,有些问题是有标准答案的,必经之路成立哪一年?这类问题的答案,是否可以自动评估其对错?然后自动记分,不用人工参与。
  3. 需要成立专门的评测小组。他们或许有新的想法。
jsb/ai_evaluate.1745480959.txt.gz · 最后更改: 2025/04/24 15:49 由 lieke2303536