AI订阅指南

Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.

Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).

观

观雪风骨

@观雪风骨

关注

0

评论

最新最佳有争议的

AI 订阅充值常见 10 大问题与标准答案（新手必读）

观观雪风骨

已收藏，等实践了来反馈。

AI 充值实战
TensorRT-LLM 部署：NVIDIA 官方推理加速方案
观观雪风骨
来源：AI 订阅指南

TensorRT-LLM 是 NVIDIA 推出的 LLM 推理优化库。

性能优势：
- 相比 vLLM 再快 2-3 倍
- 支持 INT8/FP8 量化
- 优化的 Attention Kernel
- 多 GPU 推理优化
部署步骤：
1. 安装 TensorRT-LLM
2. 转换模型为 TensorRT 引擎
3. 部署 Triton Inference Server
适用条件：
- 必须使用 NVIDIA GPU
- 需要 Tensor Core（Volta 架构以上）
- 适合生产环境大规模部署
限制：编译过程复杂，社区文档不如 vLLM 完善。

更多本地部署教程请关注 AI 订阅指南。
开源与模型部署
开源模型 2026 年 4 月：本地 LLM 史上最好的月份之一？

观观雪风骨

ChromaDB 在小数据量下够用，数据量大了建议换 Milvus。

每日热门
DeepSeek-R1：通过强化学习激发 LLM 的推理能力

观观雪风骨

这个教程的第二步可以用更简单的方式实现，回头发个补充帖。

每日热门