给团队选一个「主力模型」,我会怎么决策?
-
给团队选主力模型,我会把它当成工程决策,而不是信仰选择。
我通常会看五件事:
- 质量:在真实任务上是否稳定
- 成本:不是单价,而是合格结果成本
- 延迟:用户能不能接受
- 合规:数据能不能这样发、这样存
- 可维护性:出问题时团队能不能定位
主力模型也不一定只能有一个。很多团队更适合“一个默认模型 + 一个强模型兜底 + 一个便宜模型处理简单任务”。
比如普通摘要走便宜模型,复杂分析走强模型,敏感数据走可控环境里的模型。这样比全站统一一个模型更灵活。
做决策前,最好先收集 20-50 个真实样本。不要用网上随便找的 prompt 测,因为那测不出你自己的业务问题。
模型会变,评测集要留下。以后换模型、降成本、做路由,都靠这套样本说话。
-
给团队选主力模型,我会把它当成工程决策,而不是信仰选择。
我通常会看五件事:
- 质量:在真实任务上是否稳定
- 成本:不是单价,而是合格结果成本
- 延迟:用户能不能接受
- 合规:数据能不能这样发、这样存
- 可维护性:出问题时团队能不能定位
主力模型也不一定只能有一个。很多团队更适合“一个默认模型 + 一个强模型兜底 + 一个便宜模型处理简单任务”。
比如普通摘要走便宜模型,复杂分析走强模型,敏感数据走可控环境里的模型。这样比全站统一一个模型更灵活。
做决策前,最好先收集 20-50 个真实样本。不要用网上随便找的 prompt 测,因为那测不出你自己的业务问题。
模型会变,评测集要留下。以后换模型、降成本、做路由,都靠这套样本说话。