Sam Lin

2025-03-18-网易云大模型应用开发实习总结-out

March 18, 2025

我主要参与了大模型评测系统和智能客服的全栈开发，侧重后端。大模型评测系统具体如下：

目的：搭建高效数据打标平台，积累评测样本，为优化线上社交聊天产品的模型提供优质数据支撑。
方法：利用了Flask，SQLAlchemy，Nextjs，Ant Design，在Dify基础上开发模型评测。提高大模型评测准确性，提升模型聊天和记忆能力。探索多轮对话中的长期记忆存储及动态知识更新机制。
难点：优化评测数据生产链路，打标交互流程，适配社交业务；闭源修改dify的同时，保持对开源的适配；深入业务，评测脚本Prompt优化，Badcase分析
效果：内部算法和运营团队投入使用，系统持续迭代完善。

智能客服系统具体如下：

目的：为内部平台开发智能客服，深度融入内部提效工程，实现工单自动化、会话群组创建等功能，降低客服运维人力成本。
方法：运用“dify + workflow + RAG”技术组合搭建智能客服bot，借助dify导出api；基于Fastapi与Nextjs构建web应用，依托开源框架Ant Design X编写会话数据管理逻辑，整合dify的api请求逻辑。开发dify2openai代理，改写开源项目lobechat，复用dify灵活编排agent，chatflow的能力
难点：利用dify的RAG，外挂知识库，上下文知识，few shot，CoT等多种手段提升问答效果；对dify的chatflow，workflow，agent三种高级bot深度探索。
效果：内部算法平台已应用，显著提升工作效率，MVP验证成功，已开展业界产品调研并规划二期改造。

数据型经验累积

数据集目的是什么，怎么建立评测指标，怎么评价评测的好坏。case驱动，数据驱动。催睡觉，科技感，约见面，先积累case评测集，再积累类别评测集，例如情感一百问
学习一些新东西，主要是看方法论能否融入。比如gpt3我们已经不用了，但是用来学习encoder-base的模型还是很好的。不是拿来主义，能用就拿来，有些暂时用不到，但是方法论可以学习。但是前提是能cover工作，或者说，工作不是很繁重，这就是选团队的问题了
做项目的护城河。代码可能不是，数据资产很重要。

← Back to home