跳转至内容
  • 0 赞同
    1 帖子
    10 浏览
    A
    AI 信息太多了,我现在反而不建议关注太多来源。 我的做法是分三层: 第一层看官方。模型能力、价格、API 变化、废弃通知,尽量回到官方博客和文档。二手消息可以提醒你,但不要当最终依据。 第二层看少量高质量作者。不是每天转新闻那种,而是能讲清楚为什么重要、适合谁、有什么限制的人。 第三层看社区讨论。社区的价值不只是新闻,而是真实使用者会讲失败、吐槽、替代方案和坑。 我还会定期清理信息源。一个账号关注了一个月,如果只制造焦虑,没有帮我做出更好判断,就取消。 还有个很朴素的标准:输入要变成输出。看到一个新工具,最好能写一段笔记、做一次小测试、发一个讨论,而不是只收藏。 跟上 AI 不靠刷得多,靠筛得准。信息源越多,越需要自己的判断框架。
  • 0 赞同
    1 帖子
    4 浏览
    A
    向量库怎么选,先别急着追最强。问自己三个问题就够了: 数据量多大?查询量多大?团队会不会运维? 如果只是小项目、内部工具、数据量不大,pgvector 很香。它和 PostgreSQL 在一起,部署简单,团队也容易理解。 如果数据量更大、检索性能要求高、后面要做更复杂的向量检索,Milvus 这类专门向量库更合适,但运维成本也会上来。 如果团队人少,不想自己管服务,可以先用托管方案。贵一点,但省时间,尤其适合验证产品。 我不建议一开始就把架构做得很重。很多 RAG 项目真正卡住的不是向量库性能,而是文档质量、切分策略、embedding 选择和评测方法。 先用最简单的方案跑通,再根据瓶颈升级。不要为了一个还没验证的知识库,上来就背一套复杂运维。
  • 0 赞同
    1 帖子
    4 浏览
    A
    给团队选主力模型,我会把它当成工程决策,而不是信仰选择。 我通常会看五件事: 质量:在真实任务上是否稳定 成本:不是单价,而是合格结果成本 延迟:用户能不能接受 合规:数据能不能这样发、这样存 可维护性:出问题时团队能不能定位 主力模型也不一定只能有一个。很多团队更适合“一个默认模型 + 一个强模型兜底 + 一个便宜模型处理简单任务”。 比如普通摘要走便宜模型,复杂分析走强模型,敏感数据走可控环境里的模型。这样比全站统一一个模型更灵活。 做决策前,最好先收集 20-50 个真实样本。不要用网上随便找的 prompt 测,因为那测不出你自己的业务问题。 模型会变,评测集要留下。以后换模型、降成本、做路由,都靠这套样本说话。
  • 0 赞同
    1 帖子
    9 浏览
    A
    多模态这块现在很热,但落到产品里要分开看:图像、视频、语音不是一回事。 图像理解已经比较实用,比如识别截图、读图表、看 UI、分析商品图。很多办公和客服场景可以直接用起来。 图像生成也成熟不少,但商业使用要注意版权、品牌一致性和可控性。生成一张好看的图不难,稳定生成符合品牌规范的图才难。 视频生成还在快速变化,适合创意探索、短片草稿、分镜尝试,但如果你要求严格一致的人物、动作和镜头,仍然要谨慎。 语音方向我反而觉得更容易先落地:转写、总结会议、语音客服、口语练习,这些需求明确,也容易评估效果。 我的建议是别笼统地说“我们要做多模态”。先说清楚你要处理哪种输入、输出要到什么质量、失败成本有多高。 多模态不是炫技,它最后还是要回到具体流程里节省时间或提高质量。
  • 0 赞同
    1 帖子
    9 浏览
    A
    DeepSeek、Qwen、Kimi 在国内场景里经常被放在一起比较,但我觉得它们更像不同取向的选择。 DeepSeek 的优势是技术圈讨论多,性价比和推理能力经常被拿来测试,适合开发者先做原型和评测。 Qwen 的优势是生态和部署选择,尤其你在阿里云或企业内部场景里,会比较容易找到配套方案。 Kimi 给很多人的印象是长文本和中文阅读体验不错,适合资料整理、阅读、办公类任务先试。 但别只凭印象选。国内项目还要考虑: API 稳定性 数据合规 是否能私有化或专有云 成本是否可控 团队是否方便调试和运维 我建议每个团队都留一套自己的中文任务评测集。比如客服问答、合同条款、代码解释、产品文案、知识库问答各放几个样本。用真实任务测,比看别人的榜单更靠谱。
  • 0 赞同
    1 帖子
    4 浏览
    A
    长上下文听起来像万能解法,但实际用下来,它的问题也很明显:能塞进去,不等于模型真的会用好。 常见翻车点有几个: 前面给的信息被后面冲淡 模型抓住了显眼段落,忽略了关键小字 多文档之间的冲突没处理 问题问得太泛,它不知道该看哪里 所以长上下文任务里,我不建议直接把几十页材料扔进去让模型“总结一下”。更好的做法是先让它建立目录感: 先列文档结构 标出和问题相关的章节 再围绕这些章节回答 最后要求引用依据 如果是企业知识库,长上下文也不一定替代 RAG。长上下文适合一次性读材料,RAG 适合长期、可更新、可检索的知识系统。 我的判断是:长上下文提高了上限,但没有取消信息组织能力。材料越长,越需要你帮模型建立路标。
  • 0 赞同
    1 帖子
    4 浏览
    A
    模型性价比不是“单价低”这么简单。 我更愿意这么算: 真实成本 = token 单价 × 实际输入输出量 × 重试次数 + 人工返工成本 便宜模型如果经常答偏,最后可能更贵。贵模型如果一次做对,反而省钱。 几个容易被忽略的地方: 输出 token 往往比输入更贵,长文生成要特别注意 Prompt 里反复塞大段上下文,会把成本悄悄抬高 失败重试不只是多花 token,还会多花人的时间 简单任务用强模型,是另一种浪费 比较稳的做法是分级路由:简单分类、格式转换、短摘要用便宜模型;复杂推理、代码审查、关键文案再用强模型。 还有一个省钱办法:整理上下文。很多成本不是模型贵,是你每次都把一堆无关内容塞进去。 所以不要只看价格表。拿你的真实任务跑一轮,算“完成一个合格结果”的成本,这个数字才有意义。
  • 0 赞同
    1 帖子
    4 浏览
    A
    OpenAI、Claude、Gemini、DeepSeek、Qwen 怎么选?我现在不会直接问“哪个最好”,而是先问任务。 如果是复杂文档、代码理解、长推理,我会把 Claude 放进候选。 如果是生态、工具调用、第三方集成、产品化接口,OpenAI 仍然很强。 如果你重度依赖 Google 生态,或者任务里多模态和长上下文很多,Gemini 值得测。 如果你在国内做产品,DeepSeek、Qwen 这类模型的可获得性、成本、中文体验和部署选择都很现实。 真正要定主力模型时,我建议做一个小盲测:拿你团队最常见的 20 个任务,统一 Prompt,隐藏模型名,让实际使用的人打分。质量、速度、成本、稳定性、合规要求一起看。 不要只看榜单。榜单解决的是通用能力排序,项目里需要的是“在你的任务上少出错”。这两个不是一回事。 官方文档入口可以从 OpenAI、Anthropic、Google AI、DeepSeek、阿里云百炼分别看起,价格和能力以官方最新信息为准。
  • 0 赞同
    1 帖子
    4 浏览
    A
    现在很多需求一上来就想做 Agent,但我会先问一个很土的问题:这个任务的步骤能不能写死? 如果能写死,先别上 Agent。用普通 Prompt、工作流、规则链,通常更便宜、更稳定、更好调。 适合 Prompt 的任务: 总结一篇文章 改写一段文案 从固定文本里抽字段 做简单分类 适合 Agent 的任务: 需要查资料 要调用工具 每一步取决于上一步结果 失败后要换策略 要操作外部系统 Agent 的问题不是“不强”,而是复杂度高。它会带来调试成本、token 成本、权限风险、失败重试,还有一个很现实的问题:出了错你不一定知道它是哪一步错的。 所以我的判断是:先工作流,后 Agent。先把能确定的步骤确定下来,只把真正需要模型判断的部分交给模型。 你们现在做的 Agent 项目里,有多少其实可以拆成普通工作流?
  • 0 赞同
    1 帖子
    5 浏览
    A
    我做过几次中文代码解释的小对比,感觉 DeepSeek、Qwen、Claude 的差异不是“谁一定赢”,而是风格不同。 Claude 通常解释得更稳,尤其是复杂调用链、边界条件、隐含假设,它更愿意把上下文讲完整。缺点是有时候篇幅偏长。 DeepSeek 在中文表达和代码理解之间的平衡不错,回答比较直接,适合快速看懂一段逻辑。对国内开发者来说,可获得性和成本也更友好。 Qwen 的优势是中文生态和国内部署选择多,做企业内部工具时比较容易纳入现有链路。解释业务代码时,如果上下文给得足,它也能做得不错。 我建议不要拿“解释一个函数”就决定主力模型。更好的测法是准备 10 个真实样本:老代码、异常栈、复杂 SQL、前后端联调、配置问题各放几个。让模型分别解释,再看谁更接近你团队的表达习惯。 模型选型最后不是排行榜问题,而是团队工作流问题。谁能让团队少误解、少返工,谁就更适合。
  • 0 赞同
    1 帖子
    4 浏览
    A
    GitHub Copilot 到 2026 还值不值得用?我的答案是:值,但它的位置变了。 它不再是那个“用了就觉得跨时代”的工具了。现在 Cursor、Claude Code、Codex 这类工具把上限拉得很高,Copilot 的优势反而变成了稳定、轻量、低打扰。 我会把它放在这些场景里: 写样板代码 补参数、补类型、补简单分支 根据上下文完成小函数 在已有代码风格里继续写几行 但如果任务是“读完整个仓库后重构”“跨文件迁移”“自动跑测试并修复”,Copilot 就不是最合适的主角了。 所以我不会说 Copilot 过时。它更像键盘增强,不像项目 Agent。对团队来说,这种工具反而容易推广:学习成本低,对现有流程影响小,也不会让新人一下子把大任务都交给 AI。 如果你只想日常提速,Copilot 仍然够用;如果你想把 AI 变成开发流程的一部分,那就需要 Cursor、Claude Code 这类更主动的工具一起上。
  • 0 赞同
    1 帖子
    6 浏览
    A
    我最近看别人聊 Cursor 和 Claude Code,经常会被带到“谁更强”这个问题上。但真拿老项目重构来说,我觉得这个问题问反了。 老项目最麻烦的不是让 AI 写代码,而是你能不能放心让它动很多文件。这里 Cursor 和 Claude Code 的气质差别很明显: Cursor 更像坐在你旁边的编辑器搭子,适合边看 diff 边改。你想一处处确认、慢慢推进,它很舒服。 Claude Code 更像一个能在终端里跑任务的执行者,适合先让它读项目、列计划、改一批文件、再跑测试。 我的实际建议是:小范围重构、命名调整、局部逻辑梳理,用 Cursor;跨目录的批量改造、迁移、测试补齐,用 Claude Code。但前提只有一个:你得有测试。没有测试时,工具越强,越可能把风险放大。 重构前我一般会先让 AI 做三件事:读结构、列风险、给改动计划。计划没问题再让它动手。不要一上来就说“帮我重构整个项目”,那基本是在把方向盘交出去。 你们现在重构老项目时,更信任 Cursor 这种逐步确认,还是 Claude Code 这种长任务执行?