2025-03-18-网易云大模型应用开发实习总结-out
我主要参与了大模型评测系统和智能客服的全栈开发,侧重后端。 大模型评测系统具体如下:
-
目的:搭建高效数据打标平台,积累评测样本,为优化线上社交聊天产品的模型提供优质数据支撑。
-
方法:利用了Flask,SQLAlchemy,Nextjs,Ant Design,在Dify基础上开发模型评测。提高大模型评测准确性,提升模型聊天和记忆能力。探索多轮对话中的长期记忆存储及动态知识更新机制。
-
难点:优化评测数据生产链路,打标交互流程,适配社交业务;闭源修改dify的同时,保持对开源的适配;深入业务,评测脚本Prompt优化,Badcase分析
-
效果:内部算法和运营团队投入使用,系统持续迭代完善。
智能客服系统具体如下:
-
目的:为内部平台开发智能客服,深度融入内部提效工程,实现工单自动化、会话群组创建等功能,降低客服运维人力成本。
-
方法:运用“dify + workflow + RAG”技术组合搭建智能客服bot,借助dify导出api;基于Fastapi与Nextjs构建web应用,依托开源框架Ant Design X编写会话数据管理逻辑,整合dify的api请求逻辑。开发dify2openai代理,改写开源项目lobechat,复用dify灵活编排agent,chatflow的能力
-
难点:利用dify的RAG,外挂知识库,上下文知识,few shot,CoT等多种手段提升问答效果;对dify的chatflow,workflow,agent三种高级bot深度探索。
-
效果:内部算法平台已应用,显著提升工作效率,MVP验证成功,已开展业界产品调研并规划二期改造。
数据型经验累积
- 数据集目的是什么,怎么建立评测指标,怎么评价评测的好坏。case驱动,数据驱动。 催睡觉,科技感,约见面,先积累case评测集,再积累类别评测集,例如情感一百问
- 学习一些新东西,主要是看方法论能否融入。比如gpt3我们已经不用了,但是用来学习encoder-base的模型还是很好的。不是拿来主义,能用就拿来,有些暂时用不到,但是方法论可以学习。但是前提是能cover工作,或者说,工作不是很繁重,这就是选团队的问题了
- 做项目的护城河。代码可能不是,数据资产很重要。
