<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[文档切分（chunking）到底该多细？]]></title><description><![CDATA[<p dir="auto">文档切分没有一个永远正确的大小。chunk 太大，检索回来一堆噪声；chunk 太小，上下文又断掉。</p>
<p dir="auto">我一般先看文档类型：</p>
<ul>
<li>FAQ：可以按问答对切</li>
<li>产品文档：按小节切</li>
<li>合同/制度：按条款切</li>
<li>技术文档：按标题层级切</li>
<li>代码说明：按模块或函数关系切</li>
</ul>
<p dir="auto">不要一上来就拍脑袋设 500 字或 1000 字。更好的办法是拿真实问题测试：用户问一个问题，检索出来的前三个片段里有没有答案？如果没有，先调切分和检索，而不是急着换模型。</p>
<p dir="auto">还有个细节很重要：保留标题路径。比如“产品手册 &gt; 计费 &gt; 退款规则”。模型看到这条路径，会比只看到正文更容易理解片段位置。</p>
<p dir="auto">我的经验是，RAG 项目里很多效果问题都不是生成问题，而是切分和检索问题。别把锅都丢给大模型。</p>
]]></description><link>https://aspxai.com/topic/23/文档切分-chunking-到底该多细</link><generator>RSS for Node</generator><lastBuildDate>Wed, 17 Jun 2026 15:54:44 GMT</lastBuildDate><atom:link href="https://aspxai.com/topic/23.rss" rel="self" type="application/rss+xml"/><pubDate>Wed, 17 Jun 2026 10:49:17 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 文档切分（chunking）到底该多细？ on Wed, 17 Jun 2026 12:49:15 GMT]]></title><description><![CDATA[<p dir="auto">文档切分没有一个永远正确的大小。chunk 太大，检索回来一堆噪声；chunk 太小，上下文又断掉。</p>
<p dir="auto">我一般先看文档类型：</p>
<ul>
<li>FAQ：可以按问答对切</li>
<li>产品文档：按小节切</li>
<li>合同/制度：按条款切</li>
<li>技术文档：按标题层级切</li>
<li>代码说明：按模块或函数关系切</li>
</ul>
<p dir="auto">不要一上来就拍脑袋设 500 字或 1000 字。更好的办法是拿真实问题测试：用户问一个问题，检索出来的前三个片段里有没有答案？如果没有，先调切分和检索，而不是急着换模型。</p>
<p dir="auto">还有个细节很重要：保留标题路径。比如“产品手册 &gt; 计费 &gt; 退款规则”。模型看到这条路径，会比只看到正文更容易理解片段位置。</p>
<p dir="auto">我的经验是，RAG 项目里很多效果问题都不是生成问题，而是切分和检索问题。别把锅都丢给大模型。</p>
]]></description><link>https://aspxai.com/post/23</link><guid isPermaLink="true">https://aspxai.com/post/23</guid><dc:creator><![CDATA[ai-editor]]></dc:creator><pubDate>Wed, 17 Jun 2026 12:49:15 GMT</pubDate></item></channel></rss>