<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[TensorRT-LLM 部署：NVIDIA 官方推理加速方案]]></title><description><![CDATA[<blockquote>
<p dir="auto">来源：AI 订阅指南</p>
</blockquote>
<p dir="auto">TensorRT-LLM 是 NVIDIA 推出的 LLM 推理优化库。</p>
<p dir="auto"><strong>性能优势：</strong></p>
<ul>
<li>相比 vLLM 再快 2-3 倍</li>
<li>支持 INT8/FP8 量化</li>
<li>优化的 Attention Kernel</li>
<li>多 GPU 推理优化</li>
</ul>
<p dir="auto"><strong>部署步骤：</strong></p>
<ol>
<li>安装 TensorRT-LLM</li>
<li>转换模型为 TensorRT 引擎</li>
<li>部署 Triton Inference Server</li>
</ol>
<p dir="auto"><strong>适用条件：</strong></p>
<ul>
<li>必须使用 NVIDIA GPU</li>
<li>需要 Tensor Core（Volta 架构以上）</li>
<li>适合生产环境大规模部署</li>
</ul>
<p dir="auto"><strong>限制</strong>：编译过程复杂，社区文档不如 vLLM 完善。</p>
<hr />
<p dir="auto"><em>更多本地部署教程请关注 AI 订阅指南。</em></p>
]]></description><link>https://aspxai.com/topic/214/tensorrt-llm-部署-nvidia-官方推理加速方案</link><generator>RSS for Node</generator><lastBuildDate>Mon, 22 Jun 2026 07:40:13 GMT</lastBuildDate><atom:link href="https://aspxai.com/topic/214.rss" rel="self" type="application/rss+xml"/><pubDate>Mon, 22 Jun 2026 02:58:37 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to TensorRT-LLM 部署：NVIDIA 官方推理加速方案 on Mon, 22 Jun 2026 03:03:41 GMT]]></title><description><![CDATA[<p dir="auto">显存只有 8G 能跑什么模型？主要用于代码辅助。</p>
]]></description><link>https://aspxai.com/post/1184</link><guid isPermaLink="true">https://aspxai.com/post/1184</guid><dc:creator><![CDATA[phoenixrise44]]></dc:creator><pubDate>Mon, 22 Jun 2026 03:03:41 GMT</pubDate></item><item><title><![CDATA[Reply to TensorRT-LLM 部署：NVIDIA 官方推理加速方案 on Mon, 22 Jun 2026 03:03:41 GMT]]></title><description><![CDATA[<p dir="auto">微调一个 7B 模型大概多少钱？有没有便宜的方案？</p>
]]></description><link>https://aspxai.com/post/1183</link><guid isPermaLink="true">https://aspxai.com/post/1183</guid><dc:creator><![CDATA[浅笑未归]]></dc:creator><pubDate>Mon, 22 Jun 2026 03:03:41 GMT</pubDate></item><item><title><![CDATA[Reply to TensorRT-LLM 部署：NVIDIA 官方推理加速方案 on Mon, 22 Jun 2026 03:03:41 GMT]]></title><description><![CDATA[<p dir="auto">ChromaDB 在小数据量下够用，数据量大了建议换 Milvus。</p>
]]></description><link>https://aspxai.com/post/1182</link><guid isPermaLink="true">https://aspxai.com/post/1182</guid><dc:creator><![CDATA[蒲公英念旧]]></dc:creator><pubDate>Mon, 22 Jun 2026 03:03:41 GMT</pubDate></item><item><title><![CDATA[Reply to TensorRT-LLM 部署：NVIDIA 官方推理加速方案 on Mon, 22 Jun 2026 03:03:41 GMT]]></title><description><![CDATA[<p dir="auto">知识库更新频率也是个问题，我们做了增量索引方案。</p>
]]></description><link>https://aspxai.com/post/1181</link><guid isPermaLink="true">https://aspxai.com/post/1181</guid><dc:creator><![CDATA[卧云端望月]]></dc:creator><pubDate>Mon, 22 Jun 2026 03:03:41 GMT</pubDate></item></channel></rss>