跳转至内容
  • 文档切分(chunking)到底该多细?

    已固定 RAG 与知识库 rag help evaluation case-study
    1
    0 赞同
    1 帖子
    4 浏览
    A
    文档切分没有一个永远正确的大小。chunk 太大,检索回来一堆噪声;chunk 太小,上下文又断掉。 我一般先看文档类型: FAQ:可以按问答对切 产品文档:按小节切 合同/制度:按条款切 技术文档:按标题层级切 代码说明:按模块或函数关系切 不要一上来就拍脑袋设 500 字或 1000 字。更好的办法是拿真实问题测试:用户问一个问题,检索出来的前三个片段里有没有答案?如果没有,先调切分和检索,而不是急着换模型。 还有个细节很重要:保留标题路径。比如“产品手册 > 计费 > 退款规则”。模型看到这条路径,会比只看到正文更容易理解片段位置。 我的经验是,RAG 项目里很多效果问题都不是生成问题,而是切分和检索问题。别把锅都丢给大模型。
  • 0 赞同
    1 帖子
    8 浏览
    A
    多步 Agent 最容易失败的地方,往往不是模型完全不会,而是中间某一步偏了,后面还继续认真执行。 我见过比较多的是这几种: 一开始理解错目标,后面越努力越偏 工具返回异常,它假装没事继续编 查到旧资料,却当成最新信息 中间结果没有校验,直接进入下一步 权限边界不清楚,尝试做不该做的动作 防法也不复杂,但要提前设计: 关键节点让它停下来确认 工具调用失败必须显式报错 涉及时效信息要求标注来源和日期 每一步输出可检查的中间结果 高风险动作只给建议,不自动执行 Agent 不是越自主越好。很多业务场景里,“半自动 + 人确认”比“全自动”更靠谱。 如果你们的 Agent 已经上线,我建议先把失败案例收集起来。真实失败样本比漂亮 demo 更值钱,它会告诉你系统到底哪里脆。
  • AI 编程提效是真的,但这 5 个坑也是真的

    AI 编程 ai-coding help beginner evaluation
    1
    0 赞同
    1 帖子
    9 浏览
    A
    AI 编程提效是真的,但坑也是真的。我现在最警惕的是这几类: 第一,改得太顺。AI 很容易给你一种“它都懂了”的错觉。实际上它可能只是顺着命名猜,遇到隐藏约束就翻车。 第二,测试太假。它会写出能过的测试,但不一定写出有保护力的测试。 第三,依赖幻觉。一个包、一个 API、一个配置项,看起来像真的,实际不存在或者版本不对。 第四,局部正确、全局不通。单个函数没问题,接到现有项目里就破坏了缓存、权限、事务或兼容逻辑。 第五,人开始懒得 review。这个最危险。AI 让写代码变快,但不代表理解成本消失了。 我现在的底线是:凡是 AI 改过的核心逻辑,必须自己看 diff;凡是涉及数据、权限、支付、删除、迁移,必须跑验证;凡是它引用的库和 API,必须查官方文档。 把 AI 当加速器很好,把它当责任人就不行了。
  • 0 赞同
    1 帖子
    4 浏览
    A
    AI 写单元测试确实快,但我踩过一个很典型的坑:它很容易写出“看起来覆盖了,其实什么也没防住”的测试。 最常见的情况是,它把实现逻辑又抄了一遍。代码怎么写,它测试就怎么断言。这样测试当然能过,但一旦实现本身有 bug,测试也跟着错。 我现在给 AI 写测试时,会把要求说得更具体: 不要复述实现,测用户能观察到的行为 至少覆盖一个正常输入、一个边界输入、一个错误输入 如果函数依赖外部服务,优先 mock 边界,不要 mock 掉真正要测的逻辑 测试名要像一句说明,而不是 test case 1 还有个办法很有效:先让 AI 列测试用例,不让它写代码。你先看用例是否靠谱,再让它补测试。这样能避免它直接冲进实现细节。 AI 写测试最适合的不是“替我保证质量”,而是“帮我把我已经想清楚的质量标准快速落地”。这两件事差别很大。 你们有遇到过那种全部绿灯、上线照样炸的 AI 测试吗?