vLLM 部署实战：高吞吐量 LLM 推理服务

Reply to vLLM 部署实战：高吞吐量 LLM 推理服务 on Mon, 22 Jun 2026 03:03:45 GMT

眼底客栈 — Mon, 22 Jun 2026 03:03:45 GMT

显存只有 8G 能跑什么模型？主要用于代码辅助。

观雪驻足 — Mon, 22 Jun 2026 03:03:45 GMT

知识库更新频率也是个问题，我们做了增量索引方案。

七街酒 — Mon, 22 Jun 2026 03:03:45 GMT

微调一个 7B 模型大概多少钱？有没有便宜的方案？