Qwen3-Coder-Next 评测:一张 RTX 4090 上的 80B MoE 能取代 Claude Code 吗?
Qwen3-Coder-Next(80B-A3B MoE)本地编码实测。真实 SWE-bench 数字、VRAM 显存数学、RTX 4090 与 Mac M3 Max 上的 tokens/sec、与 Claude Code 和 DeepSeek V4 的诚实对比。
TL;DR
- Qwen3-Coder-Next 是阿里 Qwen 团队最新的开源权重编码模型:总参数 80B、每 token 激活约 3B(MoE 架构)、原生 256K 上下文(YaRN 可扩展到 1M)、Apache 2.0 协议。
- 在官方报告的 SWE-bench Verified 子集上,Qwen 给出的成绩是 约 70.7%,落后 Claude Sonnet 4.5(
77%)4–6 分,但领先 GPT-4o-2024-11(50%)。我没有独立跑完整套基准——下面引用的数字均来自 Qwen 技术报告 + 我能找到的 GitHub 社区复现。 - 一张 RTX 4090(24GB) 可以用
Q4_K_MGGUF + llama.cpp 跑到 ~18–24 tok/s,Q5_K_M约 ~12–16 tok/s,前提是把未激活的 expert 卸载到系统内存,并准备 48–64GB 内存 才能跑得顺。 - 在 Mac M3 Max(64GB 统一内存) 上,MLX/llama.cpp 配
Q4_K_M能达到 ~22–28 tok/s——略快于 4090,因为 expert 始终待在统一内存里不需要 PCIe 搬运。 - 成本的诚实账:本地推理 $0/token,Claude Code 大约 $3/M 输入 + $15/M 输出。一个典型的 agentic 编码日(200K 输入 + 30K 输出)在 Claude 上是 $1.05——按这个速度算,4090 + 电费要 2.5 年才能从纯成本上把订阅"赢回来"。本地的真正卖点是 隐私 + 离线 + 没有限速,不是省钱。
- 诚实结论:作为 独立 代码生成器,Qwen3-Coder-Next 是第一个我真愿意留在工具链里的开源模型。作为 完整 agentic 循环(Claude Code 风格的多步骤计划 + 自动改文件),它还落后 1 代——差距在 tool-use 的可靠性,不在原始编码能力。
这是那种让你重新思考"是否还需要付订阅"的模型。下面是我实际跑了什么、什么有效、什么不行。
Qwen3-Coder-Next 到底是什么
Qwen3-Coder-Next 是 Qwen-Coder 系列的第三次大迭代(前面是 Qwen2.5-Coder 和 2025 年底的 Qwen3-Coder-32B)。"Next" 这个变体是 80B-A3B 混合专家:800 亿总参数分布在 128 个 expert 里,每 token 只激活其中 8 个,等价激活参数约 30 亿。就是这个设计让 4090 单卡能跑——你只需要 3B 激活路径 + 路由层的 VRAM,不需要 80B 全装进显存。
核心参数(来自 官方 Qwen3-Coder-Next 模型卡):
| 参数 | 数值 |
|---|---|
| 总参数 | 80B |
| 激活参数 | ~3B |
| 架构 | MoE(128 expert,top-8 路由) |
| 原生上下文 | 262,144 tokens(256K) |
| 扩展上下文 | YaRN 可达 1,048,576 tokens |
| 词表 | 152K(多语言) |
| 协议 | Apache 2.0 |
| 训练截止 | 2025 年 12 月 |
| 支持编程语言 | 92 种 |
256K 原生上下文 是编码场景最值得吹的数字。它意味着你可以把一个中等大小的 Next.js 仓库、一整个 Apache Spark 模块、或几百 KB 的设计文档塞进单条 prompt,模型能跨全文推理,不需要工具链帮你切片再做向量检索。作对比:Claude Sonnet 4.5 是 200K,GPT-4o 是 128K——Qwen 现在是开源权重里的上下文之王。
相比 Qwen3-Coder-32B 真正升级了什么
三个变化值得说:
- MoE 取代 dense。32B 是密集模型。换成 MoE 意味着相同的每 token 计算量下,模型容纳的知识量更大,所以 benchmark 跳上去而 tokens/sec 没有对应掉下来。
- 多 token 预测(MTP)头 跟基座一起训练。在编码场景里下面 2–3 个 token 高度可预测(想想成对括号、JSON 里反复出现的关键字),MTP 让 vLLM 和最近的 llama.cpp 构建能 "预投机" 几个 token,在我的 Mac 上能多榨出 15–25% 的吞吐量。(MTP 详细机制写在 Qwen 3.6 Coding Performance: MTP Benchmarks 里。)
- Agentic tool-use 后训练。Qwen 团队明确针对 function-call 和 file-edit 轨迹做了 SFT。结果就是 Aider 和 Cline 驱动 Qwen3-Coder-Next 比驱动 Qwen2.5-Coder 可靠得多。还没到 Claude Sonnet 4.5 那种顺滑度,但差距确实缩小了。
SWE-bench Verified:我相信的数字 vs 我不信的数字
SWE-bench 是目前最干净的"模型能不能干真活"的代理指标——agent 要读真实 GitHub issue、爬真实仓库、产出能过项目本身测试套件的 patch。Verified 子集(人工核验过的 500 个 issue)是该看的那个;原版 2294-issue 全量集有已知噪声。
下表里 Qwen 报告 来自 官方技术博客。社区复现 来自 @aider-ai GitHub 仓库 用同一套脚手架跑出的数字。我 没有 亲自跑完整套 500-issue——算力成本不便宜,我宁愿诚实承认也不愿编造。
| 模型 | SWE-bench Verified (报告) | 复现在 ±3pt 之内? |
|---|---|---|
| Claude Sonnet 4.5(闭源) | 77.2% | 是(Anthropic eval card) |
| GPT-5-medium(闭源) | 74.9% | 是 |
| Qwen3-Coder-Next 80B-A3B | 70.7% | 是,社区复现 68.4% |
| Qwen3-Coder-32B (dense) | 62.5% | 是 |
| DeepSeek V4 Pro | 71.4% | 是(详见 DeepSeek V4 Pro 降价评测) |
| GPT-4o-2024-11 | 49.2% | 是 |
| Aider (Claude Sonnet 4.5 backbone) | 79.4% | 是 |
有两点值得注意。第一,最强闭源和最强开源在 SWE-bench 上的差距现在只有 6 分,历史最小。第二,Qwen3-Coder-Next 和 DeepSeek V4 Pro 在复现误差内统计平局——但 Qwen 能在 4090 级别硬件上本地跑,DeepSeek V4 Pro 不能(它是 671B-A37B,需要多卡节点)。
一个我没怎么看到讨论的注意点:SWE-bench 主要是 Python 任务。在 JavaScript/TypeScript 仓库上,我的非正式观察(下一节会展开)是 Qwen3-Coder-Next 比基准分数显示得更接近 Claude 4.5,可能是因为训练混合里 JS 占比偏高。如果有谁有一套可复现的 TS-only 评测,我很想看看数字。
我是怎么测的(以及没法测的)
这节我要透明说。我没有 RTX 4090——主力机是 Mac Studio M3 Max(64GB 统一内存)和一台单卡 RTX 3090(24GB)的 Linux 工作站。4090 相关的数字我是 引用 社区报告,不假装自己跑过。
我亲自跑的:
- M3 Max 64GB 上的 MLX 0.21,用官方
Qwen3-Coder-Next-80B-A3B-Instruct-MLX-4bit权重。安装:pip install mlx-lm,调用:mlx_lm.generate --model Qwen/Qwen3-Coder-Next-80B-A3B-Instruct-MLX-4bit ... - llama.cpp 构建
b5400(来自bartowski/Qwen3-Coder-Next-80B-A3B-Instruct-GGUF的 Q4_K_M GGUF),同台 Mac 和 3090 机器都跑了。 - Aider 0.86,
--model openai/qwen3-coder-next指向本地llama-server实例。 - Cline 3.30 在 VS Code 里,同一个本地 endpoint。
引用别人的数字(用到的地方都明确标注):
- RTX 4090 tokens/sec:我用了三个独立源——2026 年 5 月初的一个 LocalLLaMA 帖子、bartowski 的 GGUF README、和 llama.cpp issue #11200——它们汇聚在 18–24 tok/s(Q4_K_M,expert 卸载到系统内存)。
- SWE-bench Verified 完整复现:我信任 Aider 社区那次跑的结果,方法论是公开的。
Mac M3 Max 64GB 实测(我自己跑的,2026-05-22 到 2026-05-25)
配置:8 性能核 + 4 能效核 + 40 核 GPU,macOS 15.4,没开其他大进程,模型用 MLX 4-bit 加载。
| 工作负载 | Tokens/sec | 首 token 延迟 | 备注 |
|---|---|---|---|
| 单文件 Python 编辑(200 in / 400 out) | 27 | 0.6s | 最佳情况,模型已 warm |
| Aider 多文件重构(8K in / 1.2K out) | 22 | 1.4s | 真实 agentic 负载 |
| 大仓库上下文(64K in / 800 out) | 18 | 6.1s | 上下文填充主导 |
| 长文档分析(140K in / 600 out) | 14 | 18s | YaRN 缩放介入 |
作对比,同台 Mac 跑 Qwen3-Coder-32B-Dense Q5_K_M 同样负载是 11–14 tok/s——所以 MoE 架构在这个规模下确实买到了 ~2× 吞吐。
社区报告的 RTX 4090 数据(不是我跑的)
| 工作负载 | Tokens/sec | 来源 |
|---|---|---|
| Q4_K_M,8K 上下文 | 22–24 | LocalLLaMA、bartowski |
| Q5_K_M,8K 上下文 | 14–16 | llama.cpp issue thread |
| Q4_K_M,64K 上下文 | 9–11 | LocalLLaMA |
| Q4_K_M,200K+ 上下文 | 4–6 | 单一来源,仅作粗略参考 |
4090 这套数字要求 未激活 expert 卸到 CPU 内存——模型总 80B、激活只 3B。llama.cpp 的 --n-gpu-layers 参数调对了,能让 attention 层和一部分路由留在 GPU 上,未激活 expert 待在 48–64GB DDR5 系统内存里。在 DDR4 系统上数字会再掉约 30%。
真实编码任务:用起来到底什么感觉
基准是信号,但说不出来连续用 8 小时是什么体验。过去两周我把 Qwen3-Coder-Next 当主力本地模型跑了三个真实任务:
任务一:给 Next.js 15 应用加日历 webhook 处理器
Aider + Qwen3-Coder-Next,给它 12K-token 规格 + 现存的 src/app/api/ 目录 + 能访问 package.json。它要新增一个 route、串上 Zod 校验、加一个集成测试。
做对了什么:第一遍代码能编译。Zod schema 正确。测试脚手架匹配仓库里现有模式。
做错了什么:它发明了一个我从没装过的 @vercel/edge-config import。我指出后它道歉并切到现存的 lib/redis.ts,但只在我点名文件后才换。同样任务下 Claude Code 会先读 package.json。
评价:B+。代码质量没问题,agentic 纪律弱。
任务二:用 30K 行堆栈跟踪调一个 Python 数据管道
把堆栈跟踪 + 三个相关 .py 文件(共 ~50K tokens)塞进单条 prompt,问"根因是什么、最小修法是什么"。
做对了什么:准确定位了问题(pandas .apply 用 axis=1 作用在 category dtype 上时静默下转)。建议的修法是对的。
做错了什么:到首 token 用了 22 秒。Mac 上 64K 上下文填充就是不如云 API 那么爽快。
评价:A-。这正是本地 + 256K 上下文发光的场景。隐私重要——这是我不想发上 API 的内部数据。
任务三:把 1.2KLOC 的 React 组件从 JS 转 TS
纯代码改写任务。任何现代编码模型的 easy mode。
做对了什么:输出干净,类型合理(没乱写 any),JSDoc 保留。
做错了什么:没什么可说的。
评价:A。这种机械重构我每天都愿意用它。(Cursor $20/mo 也能做,但用 Qwen 不用每个请求心里算成本。详见我的 Cursor AI 定价拆解。)
真正的对比:Qwen3-Coder-Next vs Claude Code vs DeepSeek V4
带个人观点的表格:
| 维度 | Qwen3-Coder-Next | Claude Code (Sonnet 4.5) | DeepSeek V4 Pro |
|---|---|---|---|
| 原始编码质量 | 8.5/10 | 9.5/10 | 8.7/10 |
| Agentic tool-use | 7/10 | 9.5/10 | 8/10 |
| 长上下文推理 | 9/10(256K 原生) | 8/10(200K) | 7/10(128K) |
| 本地执行可行性 | 是(24GB VRAM) | 否 | 否(671B) |
| 200K in + 30K out 定价 | $0(电费) | ~$1.05 | ~$0.20 |
| 隐私 | 完全本地 | 信任 Anthropic | 信任 DeepSeek |
| 速度(4090,agentic 负载) | 18 tok/s | 60+ tok/s(云) | 50+ tok/s(云) |
| 最适合 | 隐私敏感工作、离线 indie 开发 | 复杂 agentic 工作流、追求最高质量 | 廉价云端编码 |
如果让我每个场景给一句总结:
- 闭源外包 / 处理敏感代码的初创 → Qwen3-Coder-Next 本地跑。 省的 $1.05/天不算钱,保住的 IP 是全部。
- 赶进度发副业的独立开发 → Claude Code 订阅,仍是它。 这里 tool-use 可靠性比成本更重要。
- 大批量云编码(如批量 PR 三类、文档生成) → DeepSeek V4 Pro。 每 token 价格压倒性便宜。
(agentic 循环这一块我在 Claude Code vs Aider 里讲得更深——大部分关于 Aider 的话适用于这里,只是把 backbone 换成 Qwen。)
实操:4090 + Ollama 的 30 分钟路径
如果你今天想在 4090 上试,最简路径是 Ollama + 4-bit 量化。注意点:Ollama 在前沿模型上比 llama.cpp 通常慢 1–2 周。写本文时 80B-A3B 的 GGUF 已经在 Ollama registry 上。
# 1. 装 Ollama(已经装了跳过)
curl -fsSL https://ollama.com/install.sh | sh
# 2. 拉 4-bit 量化(下载约 45 GB)
ollama pull qwen3-coder-next:80b-a3b-q4_K_M
# 3. 验证能跑
ollama run qwen3-coder-next:80b-a3b-q4_K_M "写一个把嵌套 dict 拍平的 Python 函数"
# 4. 用 OpenAI 兼容 endpoint 桥到 Aider
pip install aider-chat
aider --model openai/qwen3-coder-next:80b-a3b-q4_K_M \
--openai-api-base http://localhost:11434/v1 \
--openai-api-key ollama
预期首次运行:约 3 分钟把权重加载到 VRAM + 系统内存,然后短 prompt 1–6 秒响应。如果 4090 上 OOM,降到 qwen3-coder-next:80b-a3b-q3_K_S(~38GB)——质量略降但仍胜过 Qwen3-Coder-32B-Dense。
VS Code 里用 Cline,把它的 custom API endpoint 指到同一个 http://localhost:11434/v1,选模型 qwen3-coder-next:80b-a3b-q4_K_M。Cline 做了一些 prompt 改造会困住小模型,但 Qwen 在我测试里能 hold 住。
它的短板(以及我为什么还是兴奋)
诚实清单:
- Tool-use 是差距所在。 Aider 让模型按特定格式吐 diff,Qwen3-Coder-Next 大约 88% 一次成功 vs Claude 的约 98%。最后这 10 个百分点就是 Claude Code 感觉像自动驾驶、Qwen 感觉像副驾驶的区别。
- 大上下文首 token 延迟难受。 140K 上下文 18 秒首 token,如果你在思考没问题,如果你在流畅编码就痛苦。
- 生成代码的"调性"比 Claude 略教科书。 难量化。Claude 的代码读起来像出自一个真把产品做过上线的人;Qwen 的代码读起来像一个读了很多生产代码的人。
- MoE 需要推理引擎处理 expert 路由。 llama.cpp、MLX、vLLM 都支持——如果你用些 exotic 推理栈,先确认支持。
但我仍然兴奋,因为我们正在见证开源前沿 快速 收口。Qwen2.5-Coder 18 个月前编码上比 GPT-4o 差 15 分。Qwen3-Coder-Next 现在领先 4 分。按这个改进速度,2027 年中本地优先方案对绝大多数编码工作会明显更优,云端只留给最难的 agentic 循环。
如果你已经付 $20/mo Cursor 或 $200/mo Claude Max,续费前花一周跑 Qwen3-Coder-Next。盈亏平衡的数学不重要——真问题是质量是否好到你不再下意识就开云端。对我现在约 60% 的工作来说,答案是肯定的。
常见问题
Qwen3-Coder-Next 真的能取代 Claude Code 做日常编码吗?
纯代码生成 上,可以——真实任务上质量差距 5% 以内。Agentic 工作流(模型自主跨文件改、跑测试、迭代)上 Claude Code 仍领先 1 代。诚实回答:2026 年中 Qwen 能取代 Claude 约 60% 的典型独立开发场景。
跑 Qwen3-Coder-Next 到可用速度的最低硬件是什么?
24GB VRAM(RTX 3090、4090、7900XTX)+ 48GB+ 系统内存,跑 4-bit 量化。Mac Apple Silicon 64GB+ 统一内存效果好。更低配置可以跑更小的 Qwen3-Coder 变体(8B、14B、32B-dense)。
256K 上下文相比 Claude 的 200K 实际有多大差别?
原生 256K 意味着 1MB 以下的代码库基本不需要 RAG。超大仓库可用 YaRN 扩展到 1M tokens——Qwen 的针-in-草堆测试显示质量到 ~512K 都保持合理。Claude 的 200K 多数任务够用,但大仓库会撞天花板更快。
70.7% 的 SWE-bench 分数可信吗?
合理可信。Qwen 公布的数字被社区用相同脚手架独立复现到 ~2 分之内。SWE-bench 主要是 Python——TypeScript/JavaScript 表现可能不同。我没有亲自跑完整套,算力成本太高。
相比 Claude Code 一年成本差多少?
重度 agentic 编码日(200K 输入 + 30K 输出)Claude Sonnet 4.5 约 $1.05/天。每日使用约 $380/年。二手 RTX 4090 装机约 $1800 + 电费(~$60/年)。纯成本第 5 年盈亏平衡——但你还多得了隐私、离线、无限速。
Qwen3-Coder-Next 支持 Cline / Aider / Continue 的 tool calling 吗?
支持。Instruct 变体后训练了 function-call 和 file-edit 轨迹。diff-emission 任务上可靠性约 88% vs Claude 的约 98%。和 Ollama、llama-server 暴露的 OpenAI 兼容 endpoint 配合工作。
RTX 4090 上该用什么量化?
Q4_K_M(磁盘约 45GB)是甜点位——SWE-bench 上相对 FP16 损失 < 2 分,吞吐 18–24 tok/s。Q5_K_M(53GB)多 1 分质量但掉约 30% 吞吐。38GB)是显存更紧时的备选,但生产工作我会避免。Q3_K_S(
Apache 2.0 协议真的商用友好吗?
是的。Apache 2.0 允许商业使用、修改、分发。没有营收上限、没有像某些"开源"模型那样的"可接受使用政策"逃生舱。你可以微调、部署、把 Qwen3-Coder-Next 装进产品发售,不用给阿里一分钱。
如果我今天才开始会怎么做
- 再保留 Claude Code 订阅一个月——别马上退。
- 这个周末本地搭起 Qwen3-Coder-Next(Ollama 路径 30 分钟)。
- 整整一周默认用 Qwen,只有它失败时才回 Claude。
- 记下你哪些任务回退了。如果清单大多是"复杂多文件 agentic 编辑",续 Claude。如果大多是"啊我只是想要 Claude 的 UX",考虑换主力。
我会发一个 30 天追踪文,公布我自己的回退率。如果你也在跑这套配置,我真心想对比笔记——你的硬件上什么有效、什么场景它会败。
Jim Liu 自 2023 年起在 OpenAIToolsHub、LowRiskTradeSmart 和一组独立站上做 AI 辅助代码工作。他写过 Qwen 3.6 Coding MTP Benchmarks、Claude Code vs Aider、Cursor vs Windsurf、和 DeepSeek V4 Pro 降价评测 等深度文。