Skip to main content

本地部署 AI 大模型实测 2026: Ollama / LM Studio / Jan 决策树(我的 6 周真实跑分记录)

作者: Jim Liu7 分钟阅读

悉尼独立开发者 Jim Liu 历时 6 周,在一台 RTX 3080 的 Windows 工作站上实测 Ollama、LM Studio、Jan 三款本地 LLM 运行框架,含冷启动耗时、tokens/s 跑分、内存峰值、量化层选择、以及什么情况下本地跑不如直接打 API。

TL;DR / 速查

6 周、3 款框架、8 个模型、约 2400 次推理请求。结论先说:Ollama 适合命令行 + 自动化脚本;LM Studio 适合偶尔测模型的新手;Jan 在多会话管理上有点东西,但目前 bug 太多我已卸载。本地跑有价值,但别高估——如果你的主力工作场景是 context 超 32K 的代码重构,还是打 API 省心。


为什么我开始折腾本地模型

四月初,我在 Sydney 一个咖啡馆写代码,WiFi 断了 20 分钟,Claude Code 直接卡住。

没什么戏剧性,就是这件小事让我开始认真考虑本地 LLM。不是因为隐私——我没什么特别需要保密的代码——主要是对网络依赖的厌倦感。加上那段时间 Anthropic 的 API 偶尔有延迟,我在 Hacker News 上看了几篇 Ollama 的帖子,决定试试。

所以这次测试的出发点是:一个普通 indie dev,有一张 RTX 3080(10GB VRAM),想在 Windows 上跑本地模型,用于日常代码辅助和写作,不是为了搞研究也不是为了节省大量成本。

结论对大型企业部署或 Mac Apple Silicon 的场景参考价值有限,先说清楚。


我的测试配置

  • GPU:RTX 3080 10GB(不是 Ti)
  • 系统:Windows 11,64GB DDR5
  • 测试模型:Qwen2.5-Coder 7B Q4、Llama 3.1 8B Q4、Mistral 7B Q4、Phi-3.5 mini、Deepseek-R1 1.5B(蒸馏版)、Gemma 3 9B Q4、Qwen3 8B Q4_K_M、以及 Qwen2.5 14B Q5(勉强能塞进去,偶尔 OOM)
  • 测试时间:2026 年 3 月底—5 月初,约 6 周
  • 评估维度:冷启动、tokens/s(生成速度)、VRAM 峰值、稳定性、和外部工具的集成难度

跑分数据我用了自己写的一个小脚本,100 token prompt(固定模板,关于 Python 函数补全),测 10 次取中位数。不是 benchmark,就是日常感受的量化。


三款框架快速定性

先说我的直觉,后面再展开数据。

Ollama:装上就能跑,CLI 体验很顺,ollama run qwen2.5-coder:7b 三十秒热身完。API 兼容 OpenAI 格式,接进 Claude Code、Open WebUI、或者自己写的脚本都很简单。缺点是 GUI 一塌糊涂——它默认没有 GUI,需要搭配 Open WebUI 或者直接在终端用。

LM Studio:有漂亮的桌面界面,模型下载、切换都有图形操作,适合刚入门的人。但它的内存管理我有几次遇到问题,有时候卸载模型没释放 VRAM,得重启才行。速度比 Ollama 慢一点,可能和它的调度层有关。

Jan:主打多会话、对话历史管理,界面设计比较现代。但我用的这段时间崩了好几次——模型加载到一半卡住,有一次把我写到一半的 prompt 丢了。版本 0.5.x 整体感觉还不够稳,我在 5 月中旬卸了。


核心数据:tokens/s 和 VRAM 占用

以下数据均在 RTX 3080 10GB,相同 prompt 模板下测得,Q4_K_M 量化版本,除非另有标注。

模型 框架 tokens/s(中位数) VRAM 峰值 备注
Qwen2.5-Coder 7B Ollama 约 52 5.2 GB 最稳定的组合
Llama 3.1 8B Ollama 约 47 5.8 GB 通用场景不错
Qwen3 8B Q4_K_M Ollama 约 44 5.6 GB 代码质量比 Llama 好一截
Phi-3.5 mini Ollama 约 68 2.4 GB 速度最快,但幻觉多
Qwen2.5-Coder 7B LM Studio 约 38 5.5 GB 比 Ollama 慢,不知为何
Gemma 3 9B Q4 Ollama 约 35 6.8 GB 快塞满了,慎用
Qwen2.5 14B Q5 Ollama 约 18 约 9.7 GB 偶尔 OOM,不推荐 10GB 卡用
Deepseek-R1 1.5B Ollama 约 130 1.1 GB 推理实验用,太小了

Phi-3.5 mini 速度跑得飞快,但它经常给出自信满满的错答案。代码补全任务我最终定在 Qwen2.5-Coder 7B + Ollama 这个组合,体验最稳定。


按使用场景选工具:决策树

你要做的工作决定了该用哪个。

如果你主要写代码(Python/JS/Go),需要 CLI 集成或 API 接口 → Ollama + Qwen2.5-Coder 7B 或 Qwen3 8B → 配合 Continue.dev VSCode 插件可以直接当本地 Copilot 用

如果你偶尔想试不同模型,不想碰命令行 → LM Studio,桌面体验友好 → 别用 14B+ 模型,容易 OOM

如果你想用本地模型做写作辅助(中文长文) → Qwen 系列,中文质量显著好于 Llama/Mistral → 7B-8B 足够,14B 速度拖得厉害

如果你的 VRAM 只有 6GB 以下 → 老实说,体验会很差。Phi-3.5 mini 是唯一选项,但质量不理想 → 考虑用 API,Claude Haiku 一百万 token 才几块钱

如果你的核心任务是超过 32K context 的长代码库理解 → 本地 7B 模型基本撑不住,context 一长就退化 → 打 API(Claude 3.5 Sonnet 或 GPT-4o-mini)明显更好


踩的坑,不藏着

坑一:量化选错会很痛

一开始我图省事全用 Q4_0,后来发现 Q4_K_M 在相近 VRAM 消耗下输出质量好不少,尤其中文。现在默认只用 Q4_K_M 或 Q5_K_M。Q8 塞不进 10GB 卡,Q2 质量太差。

坑二:Windows 上 Ollama 的路径问题

Ollama 在 Windows 上默认把模型存在 C 盘用户目录里,我的系统盘快满了才发现。需要手动设 OLLAMA_MODELS 环境变量指向其他盘,文档里有说但不显眼。

坑三:LM Studio 的 VRAM 不完全释放

切换模型的时候偶尔旧模型没有正确卸载,导致第二个模型加载失败或者速度异常慢。nvidia-smi 看 VRAM 还被占着。重启 LM Studio 解决,但烦。

坑四:Jan 的模型加载在我机器上会概率性卡死

可能是 Windows 驱动兼容问题,也可能是 Jan 本身的问题。我在 GitHub issue 里看到不少类似报告,感觉是已知问题。期待后续版本修。

坑五:上下文窗口限制被低估

Ollama 默认上下文是 2048 token,对话稍长就截断。要改成 8K 需要修改 Modelfile 或者在 API 调用时传 num_ctx: 8192。这个坑坑了我好几次,以为模型变笨了,其实是 context 截掉了。


本地 vs. API:我现在的实际分工

折腾了六周,我现在的工作流是这样的:

本地 Ollama 跑:离线或者网络不好时的代码补全、快速草稿生成、对隐私有要求的内容(偶尔帮客户写的合同条款之类)

Claude API(Sonnet):大型代码库 review、多步骤 agent 任务、任何需要超过 32K context 的分析

Claude Code:日常主力,本地 Ollama 只是补充

算下来本地模型每月给我省了大概 $15-20 的 API 费用。不多,但对某些场景(长文写作、离线草稿)有不可替代的便利。


常见问题

Q:国内用户访问 Ollama 官网/下载有问题吗? A:Ollama 本身 GitHub 上,模型在 Hugging Face。国内访问两个都可能需要代理。也可以用国内镜像站,ModelScope 上很多 GGUF 模型,可以直接手动下载丢到 Ollama 的模型目录。

Q:RTX 4060 8GB 能用吗? A:能,7B Q4 模型没问题,但比 10GB 更容易 OOM。建议 Phi-3.5 mini 或者 Qwen2.5 3B 这类小模型。

Q:Mac 上哪个框架更好? A:我没有 Mac 测试环境,但 Ollama 在 M 系列芯片上口碑很好,Metal 后端支持完整,社区帖子一堆。LM Studio 也有 Mac 版,界面相同。

Q:本地模型的中文质量怎么样? A:Qwen 系列明显好于其他英文基模。Llama/Mistral 中文经常出现奇怪语法。如果你主要用中文,Qwen2.5 几乎是唯一选择。

Q:Deepseek 本地跑怎么样? A:Deepseek-R1 的蒸馏版(1.5B、7B)在 Ollama 上跑得不错,推理能力对模型大小来说很惊人。但 7B 蒸馏版在我的代码任务上质量一般,感觉训练数据偏理科推理不偏软件工程。

Q:Open WebUI 是必须的吗? A:Ollama 本身是 CLI,不需要 GUI 也能用。但如果你想要对话界面,Open WebUI 是目前最成熟的搭配,Docker 一行命令就起来了。


整体来说本地 LLM 的体验比两年前好太多了,普通开发者的机器确实可以流畅跑 7B 级别的模型。但它替代不了主力 API 调用——速度差、context 短、质量还有明显差距。当作补充工具、离线备用、或者隐私场景来用,完全值得。

如果你 VRAM 在 10GB 以上,Ollama + Qwen2.5-Coder 7B Q4_K_M 是最省心的起点。


更新:如果 Qwen3 14B 的 4-bit 量化版能稳定装进 10GB 卡,我会来更新一次跑分。

每周一封 AI 编程工具邮件

实测好用的 AI 工具 + 独立开发 + 出海,中文,免费。

AI 产品深度评测

SaaS 拆解 · 可复制评分卡

作者: Jim Liu

悉尼全栈开发者。自 2022 年起亲手实测 AI 工具。 联盟披露

Sponsored

Ad served by Adsterra. OpenAIToolsHub is not responsible for advertiser content.