2025-04-02-大模型推理.mdApril 1, 2025大模型应用的token消耗很大,护城河不高,做toC很容易被大厂打死;销售获取市场需要的产品。 怎么加速推理,怎么高并发 vllm websocket和流式输出