Chunk Size 优化:如何切分文档让 RAG 效果最好
-
来源:AI 订阅指南
文档切分(Chunking)是 RAG 中最被忽略但最关键的环节。
常见切分策略:
-
固定长度切分
- 简单但可能截断语义
- 推荐 500-1000 tokens
-
递归字符切分
- 按段落 → 句子 → 词递归
- 保持语义完整性
-
语义切分
- 使用 Embedding 检测语义边界
- 效果最好但成本高
最佳实践:
- Chunk Size:512 tokens(通用)
- Overlap:50-100 tokens
- 分隔符优先级:\n\n > \n > 。 > 空格
工具:LangChain 的 RecursiveCharacterTextSplitter
更多 RAG 教程请关注 AI 订阅指南。
-