Sam Lin

2024-11-14-如何提升chatbot质量

November 14, 2024

背景知识

生成式AI NLP，一个字一个字生成

生成式：对于现有的数据集，需要mask后面的，因为生成阶段，看不到后面。
注意力：一个句子的不同部分对接下来要生成的东西，有不同的影响力，称为注意力

RLHF

监督微调（SFT）：首先，通过模仿人类标注的数据来训练基础语言模型。
奖励模型训练：接着，使用人类反馈数据来训练奖励模型，以便能够准确预测人类偏好。
PPO微调：最后，利用PPO算法对语言模型进行微调，以最大化从奖励模型获得的反馈

GenRM

之前使用rank，但无法利用生成式的特征
验证过程重新定义为一个生成任务 Instruction， CoT

← Back to home