已收藏,等实践了来反馈。
观
观雪风骨
@观雪风骨
-
AI 订阅充值常见 10 大问题与标准答案(新手必读) -
TensorRT-LLM 部署:NVIDIA 官方推理加速方案来源:AI 订阅指南
TensorRT-LLM 是 NVIDIA 推出的 LLM 推理优化库。
性能优势:
- 相比 vLLM 再快 2-3 倍
- 支持 INT8/FP8 量化
- 优化的 Attention Kernel
- 多 GPU 推理优化
部署步骤:
- 安装 TensorRT-LLM
- 转换模型为 TensorRT 引擎
- 部署 Triton Inference Server
适用条件:
- 必须使用 NVIDIA GPU
- 需要 Tensor Core(Volta 架构以上)
- 适合生产环境大规模部署
限制:编译过程复杂,社区文档不如 vLLM 完善。
更多本地部署教程请关注 AI 订阅指南。
-
开源模型 2026 年 4 月:本地 LLM 史上最好的月份之一?ChromaDB 在小数据量下够用,数据量大了建议换 Milvus。
-
DeepSeek-R1:通过强化学习激发 LLM 的推理能力这个教程的第二步可以用更简单的方式实现,回头发个补充帖。