2024-11-14-如何提升chatbot质量
背景知识
生成式AI NLP,一个字一个字生成
- 生成式:对于现有的数据集,需要mask后面的,因为生成阶段,看不到后面。
- 注意力:一个句子的不同部分对接下来要生成的东西,有不同的影响力,称为注意力
RLHF
- 监督微调(SFT):首先,通过模仿人类标注的数据来训练基础语言模型。
- 奖励模型训练:接着,使用人类反馈数据来训练奖励模型,以便能够准确预测人类偏好。
- PPO微调:最后,利用PPO算法对语言模型进行微调,以最大化从奖励模型获得的反馈
GenRM
- 之前使用rank,但无法利用生成式的特征
- 验证过程重新定义为一个生成任务 Instruction, CoT
