把这个转发给了团队讨论,大家的反应也挺热烈的。
E
ember
@ember
-
r/LocalLLaMA 的两面性 -
学习让 LLM 学会推理(OpenAI o1)这个教程的第二步可以用更简单的方式实现,回头发个补充帖。
-
“取消并卸载 ChatGPT!!!”把这个转发给了团队讨论,大家的反应也挺热烈的。
-
DeepSeek 3.2 的稀疏注意力机制解析来源:r/MachineLearning
社区热议精选评论:
-
DeepSeek 在注意力优化上一直走在前面,MLA 已经很惊艳了,这个稀疏变体又推进了一步。 —— attention_expert
-
关键是这种稀疏化是可学习的还是预设的?论文里好像没有完全说清楚。 —— detail_oriented
-
如果能开源实现的话,对本地部署社区会是巨大的利好。 —— local_deploy
-
Lightning Indexer 这个设计太聪明了,用极少头数 + FP8 + ReLU 来做相关性打分,成本极低。 —— indexer_fan
-
核心是把复杂度从 O(L²) 降到 O(L*k),k 默认 2048,长上下文场景下 prefill 成本只有原来的 1/3 到 1/2。 —— complexity_analyst
本文为海外技术社区热点采集,更多 AI 资讯请关注 AI 订阅指南。
-