Qwen3-235B-A22B-Thinking-2507 发布!
-
来源:r/LocalLLaMA
社区热议:
-
阿里一个月内发了三个 Qwen3 版本,这个发布节奏太疯狂了。美国团队在干什么? —— tekium_observer
-
Unsloth 已经放出了 GGUF 量化版本,89GB 统一内存可以跑到 6 tok/s,比预期好太多了。 —— unsloth_fan
-
希望能把这些改进迁移到 30B A3B 蒸馏版本上,那样普通显卡也能跑了。 —— local_enthusiast
-
MoE 架构 128 个专家每次只激活 8 个,235B 总参数但激活只有 22B,这个效率比设计得太精妙了。 —— moe_architect
-
AIME25 数学推理拿到 92.3 分,直接超越 OpenAI o4-mini 和 DeepSeek R1,开源模型第一次在硬核推理上媲美闭源。 —— benchmark_tracker
海外技术社区热点采集。
-
-
有几个同类工具我也用过,回头单独开帖做个对比测评。