如何用 pgvector 和 LangChain 构建 RAG 系统（生产级架构）

晨曦将归

来源：Hashnode

社区热议：

补充一个摄入章节漏掉的快提示：盯紧你的 API 限流。第一次从“玩具阶段”迈向真实数据库时，很容易直接循环 50 万个 chunk 全发给 OpenAI 或 Cohere，几乎立刻就撞 429 限流。给自己省点头疼，第一次大规模摄入前先配个带指数退避的简单队列 —— Digit Patrox
“大多数生产 AI 失败不是模型失败，是检索失败”——这个开篇判断太对了。RAG 幻觉的根因几乎都在检索质量，盯着模型调参不如回头查 chunking、embedding、召回 —— RAG 实践者
pgvector 在生产里够用但得调参。HNSW 索引的 ef_search、m 这些参数对召回和延迟影响很大，默认值不一定适合你的数据分布。建议拿真实查询做一轮调参再上线 —— 数据库方向读者
chunking 策略比选 embedding 模型还重要。固定大小切窗在表格数据、代码、对话上都会出问题，语义切分 + 适当 overlap 才是生产级做法。垃圾进垃圾出在这条链上放大得最狠 —— 关注 chunking 的读者
embedding 模型选择别只看跑分。多语言场景下 all-MiniLM-L6-v2 在非英语上掉得厉害，得用 multilingual 系列。生产里延迟、维度、成本都得一起权衡 —— 关注 embedding 选择的读者

海外技术社区热点采集。

清风格局

vLLM 部署比原版推理快 3-5 倍，强烈推荐。

wizard

分块策略对最终效果影响巨大，别小看这一步。

深念远方

vLLM 部署比原版推理快 3-5 倍，强烈推荐。

眉间余温

ChromaDB 在小数据量下够用，数据量大了建议换 Milvus。

shadowcat

微调一个 7B 模型大概多少钱？有没有便宜的方案？

illusionist

ChromaDB 在小数据量下够用，数据量大了建议换 Milvus。

月色随风

我们用过 pgvector + LangChain，效果不错但查询延迟有点高。

AI订阅指南