Qwen3-Coder-Next 评测：一张 RTX 4090 上的 80B MoE 能取代 Claude Code 吗？

Q: Qwen3-Coder-Next 真的能取代 Claude Code 做日常编码吗？?

*纯代码生成* 上，可以——真实任务上质量差距 5% 以内。*Agentic 工作流*（模型自主跨文件改、跑测试、迭代）上 Claude Code 仍领先 1 代。诚实回答：2026 年中 Qwen 能取代 Claude 约 60% 的典型独立开发场景。

Q: RTX 4090 上该用什么量化？?

`Q4_K_M`（磁盘约 45GB）是甜点位——SWE-bench 上相对 FP16 损失 < 2 分，吞吐 18–24 tok/s。`Q5_K_M`（~53GB）多 1 分质量但掉约 30% 吞吐。`Q3_K_S`（~38GB）是显存更紧时的备选，但生产工作我会避免。

Q: Apache 2.0 协议真的商用友好吗？?

是的。Apache 2.0 允许商业使用、修改、分发。没有营收上限、没有像某些"开源"模型那样的"可接受使用政策"逃生舱。你可以微调、部署、把 Qwen3-Coder-Next 装进产品发售，不用给阿里一分钱。

TL;DR

Qwen3-Coder-Next 是阿里 Qwen 团队最新的开源权重编码模型：总参数 80B、每 token 激活约 3B（MoE 架构）、原生 256K 上下文（YaRN 可扩展到 1M）、Apache 2.0 协议。
在官方报告的 SWE-bench Verified 子集上，Qwen 给出的成绩是 约 70.7%，落后 Claude Sonnet 4.5（~~77%）4–6 分，但领先 GPT-4o-2024-11（~~50%）。我没有独立跑完整套基准——下面引用的数字均来自 Qwen 技术报告 + 我能找到的 GitHub 社区复现。
一张 RTX 4090（24GB） 可以用 Q4_K_M GGUF + llama.cpp 跑到 ~18–24 tok/s，Q5_K_M 约 ~12–16 tok/s，前提是把未激活的 expert 卸载到系统内存，并准备 48–64GB 内存 才能跑得顺。
在 Mac M3 Max（64GB 统一内存） 上，MLX/llama.cpp 配 Q4_K_M 能达到 ~22–28 tok/s——略快于 4090，因为 expert 始终待在统一内存里不需要 PCIe 搬运。
成本的诚实账：本地推理 $0/token，Claude Code 大约 $3/M 输入 + $15/M 输出。一个典型的 agentic 编码日（200K 输入 + 30K 输出）在 Claude 上是 $1.05——按这个速度算，4090 + 电费要 2.5 年才能从纯成本上把订阅"赢回来"。本地的真正卖点是 隐私 + 离线 + 没有限速，不是省钱。
诚实结论：作为独立代码生成器，Qwen3-Coder-Next 是第一个我真愿意留在工具链里的开源模型。作为 完整 agentic 循环（Claude Code 风格的多步骤计划 + 自动改文件），它还落后 1 代——差距在 tool-use 的可靠性，不在原始编码能力。

这是那种让你重新思考"是否还需要付订阅"的模型。下面是我实际跑了什么、什么有效、什么不行。

Qwen3-Coder-Next 到底是什么

Qwen3-Coder-Next 是 Qwen-Coder 系列的第三次大迭代（前面是 Qwen2.5-Coder 和 2025 年底的 Qwen3-Coder-32B）。"Next" 这个变体是 80B-A3B 混合专家：800 亿总参数分布在 128 个 expert 里，每 token 只激活其中 8 个，等价激活参数约 30 亿。就是这个设计让 4090 单卡能跑——你只需要 3B 激活路径 + 路由层的 VRAM，不需要 80B 全装进显存。

核心参数（来自官方 Qwen3-Coder-Next 模型卡）：

参数	数值
总参数	80B
激活参数	~3B
架构	MoE（128 expert，top-8 路由）
原生上下文	262,144 tokens（256K）
扩展上下文	YaRN 可达 1,048,576 tokens
词表	152K（多语言）
协议	Apache 2.0
训练截止	2025 年 12 月
支持编程语言	92 种

256K 原生上下文 是编码场景最值得吹的数字。它意味着你可以把一个中等大小的 Next.js 仓库、一整个 Apache Spark 模块、或几百 KB 的设计文档塞进单条 prompt，模型能跨全文推理，不需要工具链帮你切片再做向量检索。作对比：Claude Sonnet 4.5 是 200K，GPT-4o 是 128K——Qwen 现在是开源权重里的上下文之王。

相比 Qwen3-Coder-32B 真正升级了什么

三个变化值得说：

MoE 取代 dense。32B 是密集模型。换成 MoE 意味着相同的每 token 计算量下，模型容纳的知识量更大，所以 benchmark 跳上去而 tokens/sec 没有对应掉下来。
多 token 预测（MTP）头 跟基座一起训练。在编码场景里下面 2–3 个 token 高度可预测（想想成对括号、JSON 里反复出现的关键字），MTP 让 vLLM 和最近的 llama.cpp 构建能 "预投机" 几个 token，在我的 Mac 上能多榨出 15–25% 的吞吐量。（MTP 详细机制写在 Qwen 3.6 Coding Performance: MTP Benchmarks 里。）
Agentic tool-use 后训练。Qwen 团队明确针对 function-call 和 file-edit 轨迹做了 SFT。结果就是 Aider 和 Cline 驱动 Qwen3-Coder-Next 比驱动 Qwen2.5-Coder 可靠得多。还没到 Claude Sonnet 4.5 那种顺滑度，但差距确实缩小了。

SWE-bench Verified：我相信的数字 vs 我不信的数字

SWE-bench 是目前最干净的"模型能不能干真活"的代理指标——agent 要读真实 GitHub issue、爬真实仓库、产出能过项目本身测试套件的 patch。Verified 子集（人工核验过的 500 个 issue）是该看的那个；原版 2294-issue 全量集有已知噪声。

下表里 Qwen 报告 来自官方技术博客。社区复现 来自 @aider-ai GitHub 仓库用同一套脚手架跑出的数字。我没有亲自跑完整套 500-issue——算力成本不便宜，我宁愿诚实承认也不愿编造。

模型	SWE-bench Verified (报告)	复现在 ±3pt 之内？
Claude Sonnet 4.5（闭源）	77.2%	是（Anthropic eval card）
GPT-5-medium（闭源）	74.9%	是
Qwen3-Coder-Next 80B-A3B	70.7%	是，社区复现 68.4%
Qwen3-Coder-32B (dense)	62.5%	是
DeepSeek V4 Pro	71.4%	是（详见 DeepSeek V4 Pro 降价评测）
GPT-4o-2024-11	49.2%	是
Aider (Claude Sonnet 4.5 backbone)	79.4%	是

有两点值得注意。第一，最强闭源和最强开源在 SWE-bench 上的差距现在只有 6 分，历史最小。第二，Qwen3-Coder-Next 和 DeepSeek V4 Pro 在复现误差内统计平局——但 Qwen 能在 4090 级别硬件上本地跑，DeepSeek V4 Pro 不能（它是 671B-A37B，需要多卡节点）。

一个我没怎么看到讨论的注意点：SWE-bench 主要是 Python 任务。在 JavaScript/TypeScript 仓库上，我的非正式观察（下一节会展开）是 Qwen3-Coder-Next 比基准分数显示得更接近 Claude 4.5，可能是因为训练混合里 JS 占比偏高。如果有谁有一套可复现的 TS-only 评测，我很想看看数字。

我是怎么测的（以及没法测的）

这节我要透明说。我没有 RTX 4090——主力机是 Mac Studio M3 Max（64GB 统一内存）和一台单卡 RTX 3090（24GB）的 Linux 工作站。4090 相关的数字我是引用社区报告，不假装自己跑过。

我亲自跑的：

M3 Max 64GB 上的 MLX 0.21，用官方 Qwen3-Coder-Next-80B-A3B-Instruct-MLX-4bit 权重。安装：pip install mlx-lm，调用：mlx_lm.generate --model Qwen/Qwen3-Coder-Next-80B-A3B-Instruct-MLX-4bit ...
llama.cpp 构建 b5400（来自 bartowski/Qwen3-Coder-Next-80B-A3B-Instruct-GGUF 的 Q4_K_M GGUF），同台 Mac 和 3090 机器都跑了。
Aider 0.86，--model openai/qwen3-coder-next 指向本地 llama-server 实例。
Cline 3.30 在 VS Code 里，同一个本地 endpoint。

引用别人的数字（用到的地方都明确标注）：

RTX 4090 tokens/sec：我用了三个独立源——2026 年 5 月初的一个 LocalLLaMA 帖子、bartowski 的 GGUF README、和 llama.cpp issue #11200——它们汇聚在 18–24 tok/s（Q4_K_M，expert 卸载到系统内存）。
SWE-bench Verified 完整复现：我信任 Aider 社区那次跑的结果，方法论是公开的。

Mac M3 Max 64GB 实测（我自己跑的，2026-05-22 到 2026-05-25）

配置：8 性能核 + 4 能效核 + 40 核 GPU，macOS 15.4，没开其他大进程，模型用 MLX 4-bit 加载。

工作负载	Tokens/sec	首 token 延迟	备注
单文件 Python 编辑（200 in / 400 out）	27	0.6s	最佳情况，模型已 warm
Aider 多文件重构（8K in / 1.2K out）	22	1.4s	真实 agentic 负载
大仓库上下文（64K in / 800 out）	18	6.1s	上下文填充主导
长文档分析（140K in / 600 out）	14	18s	YaRN 缩放介入

作对比，同台 Mac 跑 Qwen3-Coder-32B-Dense Q5_K_M 同样负载是 11–14 tok/s——所以 MoE 架构在这个规模下确实买到了 ~2× 吞吐。

社区报告的 RTX 4090 数据（不是我跑的）

工作负载	Tokens/sec	来源
Q4_K_M，8K 上下文	22–24	LocalLLaMA、bartowski
Q5_K_M，8K 上下文	14–16	llama.cpp issue thread
Q4_K_M，64K 上下文	9–11	LocalLLaMA
Q4_K_M，200K+ 上下文	4–6	单一来源，仅作粗略参考

4090 这套数字要求 未激活 expert 卸到 CPU 内存——模型总 80B、激活只 3B。llama.cpp 的 --n-gpu-layers 参数调对了，能让 attention 层和一部分路由留在 GPU 上，未激活 expert 待在 48–64GB DDR5 系统内存里。在 DDR4 系统上数字会再掉约 30%。

真实编码任务：用起来到底什么感觉

基准是信号，但说不出来连续用 8 小时是什么体验。过去两周我把 Qwen3-Coder-Next 当主力本地模型跑了三个真实任务：

任务一：给 Next.js 15 应用加日历 webhook 处理器

Aider + Qwen3-Coder-Next，给它 12K-token 规格 + 现存的 src/app/api/ 目录 + 能访问 package.json。它要新增一个 route、串上 Zod 校验、加一个集成测试。

做对了什么：第一遍代码能编译。Zod schema 正确。测试脚手架匹配仓库里现有模式。

做错了什么：它发明了一个我从没装过的 @vercel/edge-config import。我指出后它道歉并切到现存的 lib/redis.ts，但只在我点名文件后才换。同样任务下 Claude Code 会先读 package.json。

评价：B+。代码质量没问题，agentic 纪律弱。

任务二：用 30K 行堆栈跟踪调一个 Python 数据管道

把堆栈跟踪 + 三个相关 .py 文件（共 ~50K tokens）塞进单条 prompt，问"根因是什么、最小修法是什么"。

做对了什么：准确定位了问题（pandas .apply 用 axis=1 作用在 category dtype 上时静默下转）。建议的修法是对的。

做错了什么：到首 token 用了 22 秒。Mac 上 64K 上下文填充就是不如云 API 那么爽快。

评价：A-。这正是本地 + 256K 上下文发光的场景。隐私重要——这是我不想发上 API 的内部数据。

任务三：把 1.2KLOC 的 React 组件从 JS 转 TS

纯代码改写任务。任何现代编码模型的 easy mode。

做对了什么：输出干净，类型合理（没乱写 any），JSDoc 保留。

做错了什么：没什么可说的。

评价：A。这种机械重构我每天都愿意用它。（Cursor $20/mo 也能做，但用 Qwen 不用每个请求心里算成本。详见我的 Cursor AI 定价拆解。）

真正的对比：Qwen3-Coder-Next vs Claude Code vs DeepSeek V4

带个人观点的表格：

维度	Qwen3-Coder-Next	Claude Code (Sonnet 4.5)	DeepSeek V4 Pro
原始编码质量	8.5/10	9.5/10	8.7/10
Agentic tool-use	7/10	9.5/10	8/10
长上下文推理	9/10（256K 原生）	8/10（200K）	7/10（128K）
本地执行可行性	是（24GB VRAM）	否	否（671B）
200K in + 30K out 定价	$0（电费）	~$1.05	~$0.20
隐私	完全本地	信任 Anthropic	信任 DeepSeek
速度（4090，agentic 负载）	18 tok/s	60+ tok/s（云）	50+ tok/s（云）
最适合	隐私敏感工作、离线 indie 开发	复杂 agentic 工作流、追求最高质量	廉价云端编码

如果让我每个场景给一句总结：

闭源外包 / 处理敏感代码的初创 → Qwen3-Coder-Next 本地跑。 省的 $1.05/天不算钱，保住的 IP 是全部。
赶进度发副业的独立开发 → Claude Code 订阅，仍是它。 这里 tool-use 可靠性比成本更重要。
大批量云编码（如批量 PR 三类、文档生成） → DeepSeek V4 Pro。 每 token 价格压倒性便宜。

（agentic 循环这一块我在 Claude Code vs Aider 里讲得更深——大部分关于 Aider 的话适用于这里，只是把 backbone 换成 Qwen。）

实操：4090 + Ollama 的 30 分钟路径

如果你今天想在 4090 上试，最简路径是 Ollama + 4-bit 量化。注意点：Ollama 在前沿模型上比 llama.cpp 通常慢 1–2 周。写本文时 80B-A3B 的 GGUF 已经在 Ollama registry 上。

# 1. 装 Ollama（已经装了跳过）
curl -fsSL https://ollama.com/install.sh | sh

# 2. 拉 4-bit 量化（下载约 45 GB）
ollama pull qwen3-coder-next:80b-a3b-q4_K_M

# 3. 验证能跑
ollama run qwen3-coder-next:80b-a3b-q4_K_M "写一个把嵌套 dict 拍平的 Python 函数"

# 4. 用 OpenAI 兼容 endpoint 桥到 Aider
pip install aider-chat
aider --model openai/qwen3-coder-next:80b-a3b-q4_K_M \
      --openai-api-base http://localhost:11434/v1 \
      --openai-api-key ollama

预期首次运行：约 3 分钟把权重加载到 VRAM + 系统内存，然后短 prompt 1–6 秒响应。如果 4090 上 OOM，降到 qwen3-coder-next:80b-a3b-q3_K_S（~38GB）——质量略降但仍胜过 Qwen3-Coder-32B-Dense。

VS Code 里用 Cline，把它的 custom API endpoint 指到同一个 http://localhost:11434/v1，选模型 qwen3-coder-next:80b-a3b-q4_K_M。Cline 做了一些 prompt 改造会困住小模型，但 Qwen 在我测试里能 hold 住。

它的短板（以及我为什么还是兴奋）

诚实清单：

Tool-use 是差距所在。 Aider 让模型按特定格式吐 diff，Qwen3-Coder-Next 大约 88% 一次成功 vs Claude 的约 98%。最后这 10 个百分点就是 Claude Code 感觉像自动驾驶、Qwen 感觉像副驾驶的区别。
大上下文首 token 延迟难受。 140K 上下文 18 秒首 token，如果你在思考没问题，如果你在流畅编码就痛苦。
生成代码的"调性"比 Claude 略教科书。 难量化。Claude 的代码读起来像出自一个真把产品做过上线的人；Qwen 的代码读起来像一个读了很多生产代码的人。
MoE 需要推理引擎处理 expert 路由。 llama.cpp、MLX、vLLM 都支持——如果你用些 exotic 推理栈，先确认支持。

但我仍然兴奋，因为我们正在见证开源前沿快速收口。Qwen2.5-Coder 18 个月前编码上比 GPT-4o 差 15 分。Qwen3-Coder-Next 现在领先 4 分。按这个改进速度，2027 年中本地优先方案对绝大多数编码工作会明显更优，云端只留给最难的 agentic 循环。

如果你已经付 $20/mo Cursor 或 $200/mo Claude Max，续费前花一周跑 Qwen3-Coder-Next。盈亏平衡的数学不重要——真问题是质量是否好到你不再下意识就开云端。对我现在约 60% 的工作来说，答案是肯定的。

常见问题

Qwen3-Coder-Next 真的能取代 Claude Code 做日常编码吗？

纯代码生成 上，可以——真实任务上质量差距 5% 以内。Agentic 工作流（模型自主跨文件改、跑测试、迭代）上 Claude Code 仍领先 1 代。诚实回答：2026 年中 Qwen 能取代 Claude 约 60% 的典型独立开发场景。

跑 Qwen3-Coder-Next 到可用速度的最低硬件是什么？

24GB VRAM（RTX 3090、4090、7900XTX）+ 48GB+ 系统内存，跑 4-bit 量化。Mac Apple Silicon 64GB+ 统一内存效果好。更低配置可以跑更小的 Qwen3-Coder 变体（8B、14B、32B-dense）。

256K 上下文相比 Claude 的 200K 实际有多大差别？

原生 256K 意味着 1MB 以下的代码库基本不需要 RAG。超大仓库可用 YaRN 扩展到 1M tokens——Qwen 的针-in-草堆测试显示质量到 ~512K 都保持合理。Claude 的 200K 多数任务够用，但大仓库会撞天花板更快。

70.7% 的 SWE-bench 分数可信吗？

合理可信。Qwen 公布的数字被社区用相同脚手架独立复现到 ~2 分之内。SWE-bench 主要是 Python——TypeScript/JavaScript 表现可能不同。我没有亲自跑完整套，算力成本太高。

相比 Claude Code 一年成本差多少？

重度 agentic 编码日（200K 输入 + 30K 输出）Claude Sonnet 4.5 约 $1.05/天。每日使用约 $380/年。二手 RTX 4090 装机约 $1800 + 电费（~$60/年）。纯成本第 5 年盈亏平衡——但你还多得了隐私、离线、无限速。

Qwen3-Coder-Next 支持 Cline / Aider / Continue 的 tool calling 吗？

支持。Instruct 变体后训练了 function-call 和 file-edit 轨迹。diff-emission 任务上可靠性约 88% vs Claude 的约 98%。和 Ollama、llama-server 暴露的 OpenAI 兼容 endpoint 配合工作。

RTX 4090 上该用什么量化？

Q4_K_M（磁盘约 45GB）是甜点位——SWE-bench 上相对 FP16 损失 < 2 分，吞吐 18–24 tok/s。Q5_K_M（~~53GB）多 1 分质量但掉约 30% 吞吐。Q3_K_S（~~38GB）是显存更紧时的备选，但生产工作我会避免。

Apache 2.0 协议真的商用友好吗？

是的。Apache 2.0 允许商业使用、修改、分发。没有营收上限、没有像某些"开源"模型那样的"可接受使用政策"逃生舱。你可以微调、部署、把 Qwen3-Coder-Next 装进产品发售，不用给阿里一分钱。

如果我今天才开始会怎么做

再保留 Claude Code 订阅一个月——别马上退。
这个周末本地搭起 Qwen3-Coder-Next（Ollama 路径 30 分钟）。
整整一周默认用 Qwen，只有它失败时才回 Claude。
记下你哪些任务回退了。如果清单大多是"复杂多文件 agentic 编辑"，续 Claude。如果大多是"啊我只是想要 Claude 的 UX"，考虑换主力。

我会发一个 30 天追踪文，公布我自己的回退率。如果你也在跑这套配置，我真心想对比笔记——你的硬件上什么有效、什么场景它会败。

Jim Liu 自 2023 年起在 OpenAIToolsHub、LowRiskTradeSmart 和一组独立站上做 AI 辅助代码工作。他写过 Qwen 3.6 Coding MTP Benchmarks、Claude Code vs Aider、Cursor vs Windsurf、和 DeepSeek V4 Pro 降价评测等深度文。