Sam Lin

Sam Lin

2025-04-02-大模型推理.md

大模型应用的token消耗很大,护城河不高,做toC很容易被大厂打死;销售获取市场需要的产品。

怎么加速推理,怎么高并发 vllm

websocket和流式输出