ik_llama.cpp 让 Qwen 3.5 的 prompt 处理速度提升 26 倍

看海依旧

来源：r/LocalLLaMA

社区热议：

26 倍不是 26%，是 26 倍！这在 prefill 瓶颈上简直是革命性的。 —— performance_junkie
已经在我的工作流里集成了，效果确实惊人，长文档分析终于不卡了。 —— early_adopter
Qwen 3.5 + 这个引擎的组合，可能是目前本地部署的最佳方案。 —— best_combo
关键是把 graph splits 从 34 个降到 2 个，用 fused GDN CUDA kernel 让 CPU 几乎完全 idle，活全在 GPU 上干。 —— cuda_hacker
Thireus fork 提供了 Windows CUDA 12.8 预编译二进制，和原版 llama-server 命令行参数完全兼容，drop-in 替换。 —— windows_user

海外技术社区热点采集。

明月亮三世

商家说"永久稳定"基本都是骗人的，没有永久这回事。

菊黄舞剑

建议先订阅一个月 Pro，测测实际用量再决定是否升级。

无眛

Max 比 Pro 多了 5 倍额度但价格是 5 倍，性价比其实一样。

frost29

我被封过一个账号，后来查出来是 IP 不干净，换了固定 IP 就好了。

AI订阅指南