Sam Lin

Sam Lin

2024-11-14-如何提升chatbot质量

背景知识

生成式AI NLP,一个字一个字生成

  1. 生成式:对于现有的数据集,需要mask后面的,因为生成阶段,看不到后面。
  2. 注意力:一个句子的不同部分对接下来要生成的东西,有不同的影响力,称为注意力

RLHF

  1. 监督微调(SFT):首先,通过模仿人类标注的数据来训练基础语言模型。
  2. 奖励模型训练:接着,使用人类反馈数据来训练奖励模型,以便能够准确预测人类偏好。
  3. PPO微调:最后,利用PPO算法对语言模型进行微调,以最大化从奖励模型获得的反馈

GenRM

  1. 之前使用rank,但无法利用生成式的特征
  2. 验证过程重新定义为一个生成任务 Instruction, CoT