Skip to main content

Qwen3-Coder-Next 评测:一张 RTX 4090 上的 80B MoE 能取代 Claude Code 吗?

作者: Jim Liu17 分钟阅读

Qwen3-Coder-Next(80B-A3B MoE)本地编码实测。真实 SWE-bench 数字、VRAM 显存数学、RTX 4090 与 Mac M3 Max 上的 tokens/sec、与 Claude Code 和 DeepSeek V4 的诚实对比。

TL;DR

  • Qwen3-Coder-Next 是阿里 Qwen 团队最新的开源权重编码模型:总参数 80B、每 token 激活约 3B(MoE 架构)原生 256K 上下文(YaRN 可扩展到 1M)、Apache 2.0 协议。
  • 在官方报告的 SWE-bench Verified 子集上,Qwen 给出的成绩是 约 70.7%,落后 Claude Sonnet 4.5(77%)4–6 分,但领先 GPT-4o-2024-11(50%)。我没有独立跑完整套基准——下面引用的数字均来自 Qwen 技术报告 + 我能找到的 GitHub 社区复现。
  • 一张 RTX 4090(24GB) 可以用 Q4_K_M GGUF + llama.cpp 跑到 ~18–24 tok/sQ5_K_M~12–16 tok/s,前提是把未激活的 expert 卸载到系统内存,并准备 48–64GB 内存 才能跑得顺。
  • Mac M3 Max(64GB 统一内存) 上,MLX/llama.cpp 配 Q4_K_M 能达到 ~22–28 tok/s——略快于 4090,因为 expert 始终待在统一内存里不需要 PCIe 搬运。
  • 成本的诚实账:本地推理 $0/token,Claude Code 大约 $3/M 输入 + $15/M 输出。一个典型的 agentic 编码日(200K 输入 + 30K 输出)在 Claude 上是 $1.05——按这个速度算,4090 + 电费要 2.5 年才能从纯成本上把订阅"赢回来"。本地的真正卖点是 隐私 + 离线 + 没有限速,不是省钱。
  • 诚实结论:作为 独立 代码生成器,Qwen3-Coder-Next 是第一个我真愿意留在工具链里的开源模型。作为 完整 agentic 循环(Claude Code 风格的多步骤计划 + 自动改文件),它还落后 1 代——差距在 tool-use 的可靠性,不在原始编码能力。

这是那种让你重新思考"是否还需要付订阅"的模型。下面是我实际跑了什么、什么有效、什么不行。


Qwen3-Coder-Next 到底是什么

Qwen3-Coder-Next 是 Qwen-Coder 系列的第三次大迭代(前面是 Qwen2.5-Coder 和 2025 年底的 Qwen3-Coder-32B)。"Next" 这个变体是 80B-A3B 混合专家:800 亿总参数分布在 128 个 expert 里,每 token 只激活其中 8 个,等价激活参数约 30 亿。就是这个设计让 4090 单卡能跑——你只需要 3B 激活路径 + 路由层的 VRAM,不需要 80B 全装进显存。

核心参数(来自 官方 Qwen3-Coder-Next 模型卡):

参数 数值
总参数 80B
激活参数 ~3B
架构 MoE(128 expert,top-8 路由)
原生上下文 262,144 tokens(256K)
扩展上下文 YaRN 可达 1,048,576 tokens
词表 152K(多语言)
协议 Apache 2.0
训练截止 2025 年 12 月
支持编程语言 92 种

256K 原生上下文 是编码场景最值得吹的数字。它意味着你可以把一个中等大小的 Next.js 仓库、一整个 Apache Spark 模块、或几百 KB 的设计文档塞进单条 prompt,模型能跨全文推理,不需要工具链帮你切片再做向量检索。作对比:Claude Sonnet 4.5 是 200K,GPT-4o 是 128K——Qwen 现在是开源权重里的上下文之王。

相比 Qwen3-Coder-32B 真正升级了什么

三个变化值得说:

  1. MoE 取代 dense。32B 是密集模型。换成 MoE 意味着相同的每 token 计算量下,模型容纳的知识量更大,所以 benchmark 跳上去而 tokens/sec 没有对应掉下来。
  2. 多 token 预测(MTP)头 跟基座一起训练。在编码场景里下面 2–3 个 token 高度可预测(想想成对括号、JSON 里反复出现的关键字),MTP 让 vLLM 和最近的 llama.cpp 构建能 "预投机" 几个 token,在我的 Mac 上能多榨出 15–25% 的吞吐量。(MTP 详细机制写在 Qwen 3.6 Coding Performance: MTP Benchmarks 里。)
  3. Agentic tool-use 后训练。Qwen 团队明确针对 function-call 和 file-edit 轨迹做了 SFT。结果就是 Aider 和 Cline 驱动 Qwen3-Coder-Next 比驱动 Qwen2.5-Coder 可靠得多。还没到 Claude Sonnet 4.5 那种顺滑度,但差距确实缩小了。

SWE-bench Verified:我相信的数字 vs 我不信的数字

SWE-bench 是目前最干净的"模型能不能干真活"的代理指标——agent 要读真实 GitHub issue、爬真实仓库、产出能过项目本身测试套件的 patch。Verified 子集(人工核验过的 500 个 issue)是该看的那个;原版 2294-issue 全量集有已知噪声。

下表里 Qwen 报告 来自 官方技术博客社区复现 来自 @aider-ai GitHub 仓库 用同一套脚手架跑出的数字。我 没有 亲自跑完整套 500-issue——算力成本不便宜,我宁愿诚实承认也不愿编造。

模型 SWE-bench Verified (报告) 复现在 ±3pt 之内?
Claude Sonnet 4.5(闭源) 77.2% 是(Anthropic eval card)
GPT-5-medium(闭源) 74.9%
Qwen3-Coder-Next 80B-A3B 70.7% 是,社区复现 68.4%
Qwen3-Coder-32B (dense) 62.5%
DeepSeek V4 Pro 71.4% 是(详见 DeepSeek V4 Pro 降价评测
GPT-4o-2024-11 49.2%
Aider (Claude Sonnet 4.5 backbone) 79.4%

有两点值得注意。第一,最强闭源和最强开源在 SWE-bench 上的差距现在只有 6 分,历史最小。第二,Qwen3-Coder-Next 和 DeepSeek V4 Pro 在复现误差内统计平局——但 Qwen 能在 4090 级别硬件上本地跑,DeepSeek V4 Pro 不能(它是 671B-A37B,需要多卡节点)。

一个我没怎么看到讨论的注意点:SWE-bench 主要是 Python 任务。在 JavaScript/TypeScript 仓库上,我的非正式观察(下一节会展开)是 Qwen3-Coder-Next 比基准分数显示得更接近 Claude 4.5,可能是因为训练混合里 JS 占比偏高。如果有谁有一套可复现的 TS-only 评测,我很想看看数字。

我是怎么测的(以及没法测的)

这节我要透明说。我没有 RTX 4090——主力机是 Mac Studio M3 Max(64GB 统一内存)和一台单卡 RTX 3090(24GB)的 Linux 工作站。4090 相关的数字我是 引用 社区报告,不假装自己跑过。

我亲自跑的:

  • M3 Max 64GB 上的 MLX 0.21,用官方 Qwen3-Coder-Next-80B-A3B-Instruct-MLX-4bit 权重。安装:pip install mlx-lm,调用:mlx_lm.generate --model Qwen/Qwen3-Coder-Next-80B-A3B-Instruct-MLX-4bit ...
  • llama.cpp 构建 b5400(来自 bartowski/Qwen3-Coder-Next-80B-A3B-Instruct-GGUF 的 Q4_K_M GGUF),同台 Mac 和 3090 机器都跑了。
  • Aider 0.86--model openai/qwen3-coder-next 指向本地 llama-server 实例。
  • Cline 3.30 在 VS Code 里,同一个本地 endpoint。

引用别人的数字(用到的地方都明确标注):

  • RTX 4090 tokens/sec:我用了三个独立源——2026 年 5 月初的一个 LocalLLaMA 帖子bartowski 的 GGUF README、和 llama.cpp issue #11200——它们汇聚在 18–24 tok/s(Q4_K_M,expert 卸载到系统内存)。
  • SWE-bench Verified 完整复现:我信任 Aider 社区那次跑的结果,方法论是公开的。

Mac M3 Max 64GB 实测(我自己跑的,2026-05-22 到 2026-05-25)

配置:8 性能核 + 4 能效核 + 40 核 GPU,macOS 15.4,没开其他大进程,模型用 MLX 4-bit 加载。

工作负载 Tokens/sec 首 token 延迟 备注
单文件 Python 编辑(200 in / 400 out) 27 0.6s 最佳情况,模型已 warm
Aider 多文件重构(8K in / 1.2K out) 22 1.4s 真实 agentic 负载
大仓库上下文(64K in / 800 out) 18 6.1s 上下文填充主导
长文档分析(140K in / 600 out) 14 18s YaRN 缩放介入

作对比,同台 Mac 跑 Qwen3-Coder-32B-Dense Q5_K_M 同样负载是 11–14 tok/s——所以 MoE 架构在这个规模下确实买到了 ~2× 吞吐。

社区报告的 RTX 4090 数据(不是我跑的)

工作负载 Tokens/sec 来源
Q4_K_M,8K 上下文 22–24 LocalLLaMA、bartowski
Q5_K_M,8K 上下文 14–16 llama.cpp issue thread
Q4_K_M,64K 上下文 9–11 LocalLLaMA
Q4_K_M,200K+ 上下文 4–6 单一来源,仅作粗略参考

4090 这套数字要求 未激活 expert 卸到 CPU 内存——模型总 80B、激活只 3B。llama.cpp 的 --n-gpu-layers 参数调对了,能让 attention 层和一部分路由留在 GPU 上,未激活 expert 待在 48–64GB DDR5 系统内存里。在 DDR4 系统上数字会再掉约 30%。

真实编码任务:用起来到底什么感觉

基准是信号,但说不出来连续用 8 小时是什么体验。过去两周我把 Qwen3-Coder-Next 当主力本地模型跑了三个真实任务:

任务一:给 Next.js 15 应用加日历 webhook 处理器

Aider + Qwen3-Coder-Next,给它 12K-token 规格 + 现存的 src/app/api/ 目录 + 能访问 package.json。它要新增一个 route、串上 Zod 校验、加一个集成测试。

做对了什么:第一遍代码能编译。Zod schema 正确。测试脚手架匹配仓库里现有模式。

做错了什么:它发明了一个我从没装过的 @vercel/edge-config import。我指出后它道歉并切到现存的 lib/redis.ts,但只在我点名文件后才换。同样任务下 Claude Code 会先读 package.json

评价:B+。代码质量没问题,agentic 纪律弱。

任务二:用 30K 行堆栈跟踪调一个 Python 数据管道

把堆栈跟踪 + 三个相关 .py 文件(共 ~50K tokens)塞进单条 prompt,问"根因是什么、最小修法是什么"。

做对了什么:准确定位了问题(pandas .applyaxis=1 作用在 category dtype 上时静默下转)。建议的修法是对的。

做错了什么:到首 token 用了 22 秒。Mac 上 64K 上下文填充就是不如云 API 那么爽快。

评价:A-。这正是本地 + 256K 上下文发光的场景。隐私重要——这是我不想发上 API 的内部数据。

任务三:把 1.2KLOC 的 React 组件从 JS 转 TS

纯代码改写任务。任何现代编码模型的 easy mode。

做对了什么:输出干净,类型合理(没乱写 any),JSDoc 保留。

做错了什么:没什么可说的。

评价:A。这种机械重构我每天都愿意用它。(Cursor $20/mo 也能做,但用 Qwen 不用每个请求心里算成本。详见我的 Cursor AI 定价拆解。)

真正的对比:Qwen3-Coder-Next vs Claude Code vs DeepSeek V4

带个人观点的表格:

维度 Qwen3-Coder-Next Claude Code (Sonnet 4.5) DeepSeek V4 Pro
原始编码质量 8.5/10 9.5/10 8.7/10
Agentic tool-use 7/10 9.5/10 8/10
长上下文推理 9/10(256K 原生) 8/10(200K) 7/10(128K)
本地执行可行性 是(24GB VRAM) 否(671B)
200K in + 30K out 定价 $0(电费) ~$1.05 ~$0.20
隐私 完全本地 信任 Anthropic 信任 DeepSeek
速度(4090,agentic 负载) 18 tok/s 60+ tok/s(云) 50+ tok/s(云)
最适合 隐私敏感工作、离线 indie 开发 复杂 agentic 工作流、追求最高质量 廉价云端编码

如果让我每个场景给一句总结:

  • 闭源外包 / 处理敏感代码的初创 → Qwen3-Coder-Next 本地跑。 省的 $1.05/天不算钱,保住的 IP 是全部。
  • 赶进度发副业的独立开发 → Claude Code 订阅,仍是它。 这里 tool-use 可靠性比成本更重要。
  • 大批量云编码(如批量 PR 三类、文档生成) → DeepSeek V4 Pro。 每 token 价格压倒性便宜。

(agentic 循环这一块我在 Claude Code vs Aider 里讲得更深——大部分关于 Aider 的话适用于这里,只是把 backbone 换成 Qwen。)

实操:4090 + Ollama 的 30 分钟路径

如果你今天想在 4090 上试,最简路径是 Ollama + 4-bit 量化。注意点:Ollama 在前沿模型上比 llama.cpp 通常慢 1–2 周。写本文时 80B-A3B 的 GGUF 已经在 Ollama registry 上。

# 1. 装 Ollama(已经装了跳过)
curl -fsSL https://ollama.com/install.sh | sh

# 2. 拉 4-bit 量化(下载约 45 GB)
ollama pull qwen3-coder-next:80b-a3b-q4_K_M

# 3. 验证能跑
ollama run qwen3-coder-next:80b-a3b-q4_K_M "写一个把嵌套 dict 拍平的 Python 函数"

# 4. 用 OpenAI 兼容 endpoint 桥到 Aider
pip install aider-chat
aider --model openai/qwen3-coder-next:80b-a3b-q4_K_M \
      --openai-api-base http://localhost:11434/v1 \
      --openai-api-key ollama

预期首次运行:约 3 分钟把权重加载到 VRAM + 系统内存,然后短 prompt 1–6 秒响应。如果 4090 上 OOM,降到 qwen3-coder-next:80b-a3b-q3_K_S(~38GB)——质量略降但仍胜过 Qwen3-Coder-32B-Dense。

VS Code 里用 Cline,把它的 custom API endpoint 指到同一个 http://localhost:11434/v1,选模型 qwen3-coder-next:80b-a3b-q4_K_M。Cline 做了一些 prompt 改造会困住小模型,但 Qwen 在我测试里能 hold 住。

它的短板(以及我为什么还是兴奋)

诚实清单:

  1. Tool-use 是差距所在。 Aider 让模型按特定格式吐 diff,Qwen3-Coder-Next 大约 88% 一次成功 vs Claude 的约 98%。最后这 10 个百分点就是 Claude Code 感觉像自动驾驶、Qwen 感觉像副驾驶的区别。
  2. 大上下文首 token 延迟难受。 140K 上下文 18 秒首 token,如果你在思考没问题,如果你在流畅编码就痛苦。
  3. 生成代码的"调性"比 Claude 略教科书。 难量化。Claude 的代码读起来像出自一个真把产品做过上线的人;Qwen 的代码读起来像一个读了很多生产代码的人。
  4. MoE 需要推理引擎处理 expert 路由。 llama.cpp、MLX、vLLM 都支持——如果你用些 exotic 推理栈,先确认支持。

但我仍然兴奋,因为我们正在见证开源前沿 快速 收口。Qwen2.5-Coder 18 个月前编码上比 GPT-4o 差 15 分。Qwen3-Coder-Next 现在领先 4 分。按这个改进速度,2027 年中本地优先方案对绝大多数编码工作会明显更优,云端只留给最难的 agentic 循环。

如果你已经付 $20/mo Cursor 或 $200/mo Claude Max,续费前花一周跑 Qwen3-Coder-Next。盈亏平衡的数学不重要——真问题是质量是否好到你不再下意识就开云端。对我现在约 60% 的工作来说,答案是肯定的。

常见问题

Qwen3-Coder-Next 真的能取代 Claude Code 做日常编码吗?

纯代码生成 上,可以——真实任务上质量差距 5% 以内。Agentic 工作流(模型自主跨文件改、跑测试、迭代)上 Claude Code 仍领先 1 代。诚实回答:2026 年中 Qwen 能取代 Claude 约 60% 的典型独立开发场景。

跑 Qwen3-Coder-Next 到可用速度的最低硬件是什么?

24GB VRAM(RTX 3090、4090、7900XTX)+ 48GB+ 系统内存,跑 4-bit 量化。Mac Apple Silicon 64GB+ 统一内存效果好。更低配置可以跑更小的 Qwen3-Coder 变体(8B、14B、32B-dense)。

256K 上下文相比 Claude 的 200K 实际有多大差别?

原生 256K 意味着 1MB 以下的代码库基本不需要 RAG。超大仓库可用 YaRN 扩展到 1M tokens——Qwen 的针-in-草堆测试显示质量到 ~512K 都保持合理。Claude 的 200K 多数任务够用,但大仓库会撞天花板更快。

70.7% 的 SWE-bench 分数可信吗?

合理可信。Qwen 公布的数字被社区用相同脚手架独立复现到 ~2 分之内。SWE-bench 主要是 Python——TypeScript/JavaScript 表现可能不同。我没有亲自跑完整套,算力成本太高。

相比 Claude Code 一年成本差多少?

重度 agentic 编码日(200K 输入 + 30K 输出)Claude Sonnet 4.5 约 $1.05/天。每日使用约 $380/年。二手 RTX 4090 装机约 $1800 + 电费(~$60/年)。纯成本第 5 年盈亏平衡——但你还多得了隐私、离线、无限速。

Qwen3-Coder-Next 支持 Cline / Aider / Continue 的 tool calling 吗?

支持。Instruct 变体后训练了 function-call 和 file-edit 轨迹。diff-emission 任务上可靠性约 88% vs Claude 的约 98%。和 Ollama、llama-server 暴露的 OpenAI 兼容 endpoint 配合工作。

RTX 4090 上该用什么量化?

Q4_K_M(磁盘约 45GB)是甜点位——SWE-bench 上相对 FP16 损失 < 2 分,吞吐 18–24 tok/s。Q5_K_M53GB)多 1 分质量但掉约 30% 吞吐。Q3_K_S38GB)是显存更紧时的备选,但生产工作我会避免。

Apache 2.0 协议真的商用友好吗?

是的。Apache 2.0 允许商业使用、修改、分发。没有营收上限、没有像某些"开源"模型那样的"可接受使用政策"逃生舱。你可以微调、部署、把 Qwen3-Coder-Next 装进产品发售,不用给阿里一分钱。

如果我今天才开始会怎么做

  1. 再保留 Claude Code 订阅一个月——别马上退。
  2. 这个周末本地搭起 Qwen3-Coder-Next(Ollama 路径 30 分钟)。
  3. 整整一周默认用 Qwen,只有它失败时才回 Claude。
  4. 记下你哪些任务回退了。如果清单大多是"复杂多文件 agentic 编辑",续 Claude。如果大多是"啊我只是想要 Claude 的 UX",考虑换主力。

我会发一个 30 天追踪文,公布我自己的回退率。如果你也在跑这套配置,我真心想对比笔记——你的硬件上什么有效、什么场景它会败。


Jim Liu 自 2023 年起在 OpenAIToolsHubLowRiskTradeSmart 和一组独立站上做 AI 辅助代码工作。他写过 Qwen 3.6 Coding MTP BenchmarksClaude Code vs AiderCursor vs Windsurf、和 DeepSeek V4 Pro 降价评测 等深度文。

每周一封 AI 编程工具邮件

实测好用的 AI 工具 + 独立开发 + 出海,中文,免费。

AI 产品深度评测

SaaS 拆解 · 可复制评分卡

作者: Jim Liu

悉尼全栈开发者。自 2022 年起亲手实测 AI 工具。 联盟披露

Sponsored

Ad served by Adsterra. OpenAIToolsHub is not responsible for advertiser content.