本地部署 AI 大模型实测 2026: Ollama / LM Studio / Jan 决策树（我的 6 周真实跑分记录）

TL;DR / 速查

6 周、3 款框架、8 个模型、约 2400 次推理请求。结论先说：Ollama 适合命令行 + 自动化脚本；LM Studio 适合偶尔测模型的新手；Jan 在多会话管理上有点东西，但目前 bug 太多我已卸载。本地跑有价值，但别高估——如果你的主力工作场景是 context 超 32K 的代码重构，还是打 API 省心。

为什么我开始折腾本地模型

四月初，我在 Sydney 一个咖啡馆写代码，WiFi 断了 20 分钟，Claude Code 直接卡住。

没什么戏剧性，就是这件小事让我开始认真考虑本地 LLM。不是因为隐私——我没什么特别需要保密的代码——主要是对网络依赖的厌倦感。加上那段时间 Anthropic 的 API 偶尔有延迟，我在 Hacker News 上看了几篇 Ollama 的帖子，决定试试。

所以这次测试的出发点是：一个普通 indie dev，有一张 RTX 3080（10GB VRAM），想在 Windows 上跑本地模型，用于日常代码辅助和写作，不是为了搞研究也不是为了节省大量成本。

结论对大型企业部署或 Mac Apple Silicon 的场景参考价值有限，先说清楚。

我的测试配置

GPU：RTX 3080 10GB（不是 Ti）
系统：Windows 11，64GB DDR5
测试模型：Qwen2.5-Coder 7B Q4、Llama 3.1 8B Q4、Mistral 7B Q4、Phi-3.5 mini、Deepseek-R1 1.5B（蒸馏版）、Gemma 3 9B Q4、Qwen3 8B Q4_K_M、以及 Qwen2.5 14B Q5（勉强能塞进去，偶尔 OOM）
测试时间：2026 年 3 月底—5 月初，约 6 周
评估维度：冷启动、tokens/s（生成速度）、VRAM 峰值、稳定性、和外部工具的集成难度

跑分数据我用了自己写的一个小脚本，100 token prompt（固定模板，关于 Python 函数补全），测 10 次取中位数。不是 benchmark，就是日常感受的量化。

三款框架快速定性

先说我的直觉，后面再展开数据。

Ollama：装上就能跑，CLI 体验很顺，ollama run qwen2.5-coder:7b 三十秒热身完。API 兼容 OpenAI 格式，接进 Claude Code、Open WebUI、或者自己写的脚本都很简单。缺点是 GUI 一塌糊涂——它默认没有 GUI，需要搭配 Open WebUI 或者直接在终端用。

LM Studio：有漂亮的桌面界面，模型下载、切换都有图形操作，适合刚入门的人。但它的内存管理我有几次遇到问题，有时候卸载模型没释放 VRAM，得重启才行。速度比 Ollama 慢一点，可能和它的调度层有关。

Jan：主打多会话、对话历史管理，界面设计比较现代。但我用的这段时间崩了好几次——模型加载到一半卡住，有一次把我写到一半的 prompt 丢了。版本 0.5.x 整体感觉还不够稳，我在 5 月中旬卸了。

核心数据：tokens/s 和 VRAM 占用

以下数据均在 RTX 3080 10GB，相同 prompt 模板下测得，Q4_K_M 量化版本，除非另有标注。

模型	框架	tokens/s（中位数）	VRAM 峰值	备注
Qwen2.5-Coder 7B	Ollama	约 52	5.2 GB	最稳定的组合
Llama 3.1 8B	Ollama	约 47	5.8 GB	通用场景不错
Qwen3 8B Q4_K_M	Ollama	约 44	5.6 GB	代码质量比 Llama 好一截
Phi-3.5 mini	Ollama	约 68	2.4 GB	速度最快，但幻觉多
Qwen2.5-Coder 7B	LM Studio	约 38	5.5 GB	比 Ollama 慢，不知为何
Gemma 3 9B Q4	Ollama	约 35	6.8 GB	快塞满了，慎用
Qwen2.5 14B Q5	Ollama	约 18	约 9.7 GB	偶尔 OOM，不推荐 10GB 卡用
Deepseek-R1 1.5B	Ollama	约 130	1.1 GB	推理实验用，太小了

Phi-3.5 mini 速度跑得飞快，但它经常给出自信满满的错答案。代码补全任务我最终定在 Qwen2.5-Coder 7B + Ollama 这个组合，体验最稳定。

按使用场景选工具：决策树

你要做的工作决定了该用哪个。

如果你主要写代码（Python/JS/Go），需要 CLI 集成或 API 接口 → Ollama + Qwen2.5-Coder 7B 或 Qwen3 8B → 配合 Continue.dev VSCode 插件可以直接当本地 Copilot 用

如果你偶尔想试不同模型，不想碰命令行 → LM Studio，桌面体验友好 → 别用 14B+ 模型，容易 OOM

如果你想用本地模型做写作辅助（中文长文） → Qwen 系列，中文质量显著好于 Llama/Mistral → 7B-8B 足够，14B 速度拖得厉害

如果你的 VRAM 只有 6GB 以下 → 老实说，体验会很差。Phi-3.5 mini 是唯一选项，但质量不理想 → 考虑用 API，Claude Haiku 一百万 token 才几块钱

如果你的核心任务是超过 32K context 的长代码库理解 → 本地 7B 模型基本撑不住，context 一长就退化 → 打 API（Claude 3.5 Sonnet 或 GPT-4o-mini）明显更好

踩的坑，不藏着

坑一：量化选错会很痛

一开始我图省事全用 Q4_0，后来发现 Q4_K_M 在相近 VRAM 消耗下输出质量好不少，尤其中文。现在默认只用 Q4_K_M 或 Q5_K_M。Q8 塞不进 10GB 卡，Q2 质量太差。

坑二：Windows 上 Ollama 的路径问题

Ollama 在 Windows 上默认把模型存在 C 盘用户目录里，我的系统盘快满了才发现。需要手动设 OLLAMA_MODELS 环境变量指向其他盘，文档里有说但不显眼。

坑三：LM Studio 的 VRAM 不完全释放

切换模型的时候偶尔旧模型没有正确卸载，导致第二个模型加载失败或者速度异常慢。nvidia-smi 看 VRAM 还被占着。重启 LM Studio 解决，但烦。

坑四：Jan 的模型加载在我机器上会概率性卡死

可能是 Windows 驱动兼容问题，也可能是 Jan 本身的问题。我在 GitHub issue 里看到不少类似报告，感觉是已知问题。期待后续版本修。

坑五：上下文窗口限制被低估

Ollama 默认上下文是 2048 token，对话稍长就截断。要改成 8K 需要修改 Modelfile 或者在 API 调用时传 num_ctx: 8192。这个坑坑了我好几次，以为模型变笨了，其实是 context 截掉了。

本地 vs. API：我现在的实际分工

折腾了六周，我现在的工作流是这样的：

本地 Ollama 跑：离线或者网络不好时的代码补全、快速草稿生成、对隐私有要求的内容（偶尔帮客户写的合同条款之类）

Claude API（Sonnet）：大型代码库 review、多步骤 agent 任务、任何需要超过 32K context 的分析

Claude Code：日常主力，本地 Ollama 只是补充

算下来本地模型每月给我省了大概 $15-20 的 API 费用。不多，但对某些场景（长文写作、离线草稿）有不可替代的便利。

常见问题

Q：国内用户访问 Ollama 官网/下载有问题吗？ A：Ollama 本身 GitHub 上，模型在 Hugging Face。国内访问两个都可能需要代理。也可以用国内镜像站，ModelScope 上很多 GGUF 模型，可以直接手动下载丢到 Ollama 的模型目录。

Q：RTX 4060 8GB 能用吗？ A：能，7B Q4 模型没问题，但比 10GB 更容易 OOM。建议 Phi-3.5 mini 或者 Qwen2.5 3B 这类小模型。

Q：Mac 上哪个框架更好？ A：我没有 Mac 测试环境，但 Ollama 在 M 系列芯片上口碑很好，Metal 后端支持完整，社区帖子一堆。LM Studio 也有 Mac 版，界面相同。

Q：本地模型的中文质量怎么样？ A：Qwen 系列明显好于其他英文基模。Llama/Mistral 中文经常出现奇怪语法。如果你主要用中文，Qwen2.5 几乎是唯一选择。

Q：Deepseek 本地跑怎么样？ A：Deepseek-R1 的蒸馏版（1.5B、7B）在 Ollama 上跑得不错，推理能力对模型大小来说很惊人。但 7B 蒸馏版在我的代码任务上质量一般，感觉训练数据偏理科推理不偏软件工程。

Q：Open WebUI 是必须的吗？ A：Ollama 本身是 CLI，不需要 GUI 也能用。但如果你想要对话界面，Open WebUI 是目前最成熟的搭配，Docker 一行命令就起来了。

整体来说本地 LLM 的体验比两年前好太多了，普通开发者的机器确实可以流畅跑 7B 级别的模型。但它替代不了主力 API 调用——速度差、context 短、质量还有明显差距。当作补充工具、离线备用、或者隐私场景来用，完全值得。

如果你 VRAM 在 10GB 以上，Ollama + Qwen2.5-Coder 7B Q4_K_M 是最省心的起点。

更新：如果 Qwen3 14B 的 4-bit 量化版能稳定装进 10GB 卡，我会来更新一次跑分。