本地大模型完整部署教程,2026 用 Ollama 在自己电脑跑 Llama 和 Qwen

🌐 Read in English
📅 2026-05-21 11:18:23 👤 抖文编辑部 💬 10 条评论 👁 4

本地大模型在 2026 年的可玩性比两年前高了一个量级。开源模型如 Llama 系列、Qwen 系列、DeepSeek 蒸馏版等参数量从几十亿到几百亿,普通台式机和高配笔记本都能跑起一两个性价比不错的模型。本地部署的核心好处是数据隐私和零额度焦虑,代价是显存、内存和初始配置门槛。本文用 Ollama 这个开源工具做主线,从下载、安装、跑模型到接前端,一次讲透 2026 年个人电脑跑大模型的标准方法。

Ollama 是什么,它解决了什么问题

配图

Ollama 是一个开源的本地大模型运行框架,2024 年起在开发者社区里快速走红。它把大模型从下载、量化、推理、API 暴露的整个链路打包成一条命令,新手不需要懂模型结构就能用。

它解决的痛点很直接。过去要跑本地大模型,你得装 PyTorch 或 llama.cpp、下原始权重、自己写转换脚本、调推理参数,一套折腾下来半天起步。Ollama 把这些都隐藏在背后,跑一个模型只要 ollama run 一行命令。

Ollama 跨平台支持 macOS、Linux、Windows,各自有原生安装包。对 Apple Silicon 用户特别友好,M 系列芯片的统一内存架构让 Ollama 跑大模型的体验比 Intel 平台明显流畅。

第一步,检查硬件是否够格

配图

跑本地大模型,显存或者统一内存是第一硬性指标。粗略对应关系:跑 7B 量级模型需要 8GB 左右内存,13B 需要 16GB,30B 需要 32GB,70B 需要 64GB 起步。这是 4-bit 量化版本的最低要求,精度更高的版本要再翻倍。

具体配置参考几个常见场景。M1/M2/M3 MacBook Air 8GB 跑 3B 量级勉强,推荐 4B 以下小模型。M2/M3 MacBook Pro 16GB 是个甜点位,跑 7-13B 模型流畅。M3 Max 36GB 或 M4 Pro 24GB 起步可以跑 30B 模型,生成速度可用。游戏 PC 配 RTX 4070/4080/4090 12-24GB 显存,跑 13-30B 模型很顺畅。

普通办公笔记本 8GB 内存基本只能玩玩 1-3B 小模型,推理速度堪堪可用。如果想认真用本地大模型做工作,投入一台 16GB 以上内存的设备是基础门槛。

第二步,下载安装 Ollama

配图

去 ollama.com 下载对应系统的安装包,Mac 是 .dmg,Windows 是 .exe,Linux 是 curl 安装脚本。安装过程很简单,Mac 直接拖到 Applications 即可,Windows 双击安装就完成。

安装完成后,Ollama 会以后台服务的形式运行。打开终端输入 ollama --version,如果显示版本号说明安装成功。

Mac 用户额外注意一点:Ollama 默认监听 127.0.0.1:11434 端口,如果你想从局域网其它设备访问,要在系统环境变量里设 OLLAMA_HOST=0.0.0.0,然后重启 Ollama 服务。

Linux 用户可以用 systemctl status ollama 检查服务状态。如果 GPU 没被识别,可能需要装 NVIDIA Container Toolkit 或 ROCm 驱动,具体看自己显卡型号。

第三步,拉取第一个模型

Ollama 的模型库覆盖了主流开源模型。常用入门选择:

Llama 系列是 Meta 出的,通用能力强,英文表现优于中文。命令 ollama pull llama3.1:8b 拉一个 80 亿参数版本,默认 4-bit 量化大约 4-5GB。

Qwen 系列是阿里出的,中文能力强,代码能力也不错。ollama pull qwen2.5:7b 拉 70 亿参数版本。新一代 Qwen3 在 Ollama 库里也已经上线,可以试试。

DeepSeek 系列对代码任务优化好。ollama pull deepseek-r1:7b 拉一个推理优化版,看起来体积小但有不错的逻辑推理能力。

Phi 系列是微软出的小模型,3-4B 参数,4GB 内存的小设备也跑得起来。ollama pull phi3:mini。

Gemma 是 Google 的开源模型,2-9B 各种规格。ollama pull gemma2:9b 是一个比较好用的中等模型。

第一次拉取要下载几个 GB,耐心等待。下载完成后用 ollama list 查看本地已有的模型。

第四步,运行模型对话

最直接的体验:终端输入 ollama run qwen2.5:7b,模型加载完后就能直接对话。

第一次运行模型加载需要几十秒,之后再启动会快很多。M2 MacBook Pro 16GB 跑 7B 模型,生成速度大致是每秒几十个 token,体感和 ChatGPT 网页版接近,流畅。

退出对话用 /bye 或者 Ctrl+D。Ollama 会保留模型在内存里几分钟,期间再次启动就秒开。如果想立即释放内存,运行 ollama stop qwen2.5:7b。

进阶用法是用参数控制生成质量。ollama run qwen2.5:7b 进入对话后,输入 /set parameter temperature 0.3 把温度调低,模型回答更稳定;0.8 以上更有创意。

第五步,接 Open WebUI 让界面像 ChatGPT

终端体验对普通用户不够友好。Open WebUI 是开源社区最流行的 Ollama 前端,界面接近 ChatGPT,支持多会话、Markdown、代码高亮、RAG 等功能。

安装最快的方式是 Docker,一行命令:

docker run -d -p 3000:8080 -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main

跑起来后浏览器访问 localhost:3000,注册第一个账号(本地账号,不会上云端)。在设置里 Ollama Endpoint 默认指向 host.docker.internal:11434 就能自动识别你拉过的模型。

之后的体验和 ChatGPT 几乎一样。可以新建多个对话,切换不同模型对比效果,上传文件做 RAG 问答,所有数据都在你本地。

如果不想装 Docker,Open WebUI 也支持 pip 安装,Python 环境跑也可以,但 Docker 隔离干净更推荐。

模型选择,中文场景实测建议

跑本地大模型最常见的疑问是"选哪个模型"。按场景给几个实测建议。

中文写作和日常对话,Qwen 2.5 7B 或 Qwen 3 系列是首选,中文表达自然流畅,知识截止时间相对新。

代码任务,DeepSeek Coder 系列和 Qwen 2.5 Coder 系列都是顶尖水平,7B 版本就能完成大部分日常代码任务,30B 版本接近一线闭源模型水平。

英文写作和创意,Llama 3.1/3.2 系列、Mistral 系列表现优于中文模型,但中文支持稍弱。

如果硬件吃力只能跑 3B 以下,Phi3 mini 是 3-4B 里综合最好的之一,Gemma 2B 也可以应急。

70B 量级的模型(如 Llama 3.3 70B、Qwen 2.5 72B)综合能力接近 GPT-4 早期水平,但要 64GB 以上内存才跑得动,普通配置不要尝试。

性能优化几个常见技巧

跑得卡顿是新手最常遇到的问题。几个常见优化方向。

第一,选合适尺寸。硬件不够就选小模型,不要硬上大模型期待奇迹。13B 跑得流畅的体验远好于 30B 卡顿出字。

第二,优先用 GGUF 量化版。Ollama 默认提供的就是量化版,通常是 Q4_K_M 或 Q5_K_M。如果质量要求高且显存够,可以拉 Q8 版本(命令带 :8b-q8_0 后缀),回答质量明显提升,代价是显存翻倍。

第三,关掉不必要的后台程序。本地大模型推理时显存和内存占用很高,浏览器开几十个标签页、IDE、Docker 容器同时跑会显著拖慢推理。

第四,控制上下文长度。Ollama 默认 context 是 2048 tokens,长上下文消耗显存更多。如果你只做短问答,这个默认值刚好;做长文档总结,要设大 context,代价是变慢。

本地大模型的真实使用场景

很多人装完本地大模型后用了几天就闲置,原因是没找到合适场景。三个真正能用上的方向。

第一是隐私敏感的对话和文档处理。涉及商业合同、内部文档、个人隐私数据,本地跑能完全避免上云端的合规风险。

第二是稳定的辅助工作流。比如批量翻译、批量摘要、批量生成结构化数据,本地模型不限速、不限额度、不联网也能跑,适合做无人值守任务。

第三是探索学习。学 RAG、Function Call、Agent 这些概念,用本地模型免费实验,失败成本为 0,比纯看文档理解快得多。

如果你只是日常聊天、偶尔写写文档,云端 ChatGPT 或国产大模型够用。本地大模型的真正价值在批量、隐私、可控这三个维度。

常见问题 FAQ

Mac 跑本地大模型用什么模型最合适

M1/M2 16GB 推荐 Qwen 2.5 7B 或 Llama 3.1 8B,跑起来流畅,中英文都能用。M2 Pro/Max 36GB 以上可以试 Qwen 2.5 32B 或 DeepSeek 32B,体验明显高一个档次。如果做中文优先选 Qwen,做代码任务选 Qwen Coder 或 DeepSeek Coder,做英文创意选 Llama。Mac Pro 或 Mac Studio 64GB 以上可以挑战 70B 模型。

本地大模型能联网搜索吗

Ollama 默认不联网,只跑本地推理。如果想让模型联网,要在前端层加搜索能力。Open WebUI 有官方的 Web Search 功能,接入 SearXNG 或 Tavily API 等搜索后端,模型可以先调搜索再生成回答。也可以用 LangChain、LlamaIndex 等框架自己拼搜索 + RAG 流程。这套组合下来效果接近 ChatGPT 带浏览的体验,但配置门槛高于纯对话。

Ollama 接 API 怎么用

Ollama 默认暴露 OpenAI 兼容的 REST API,端口 11434,大部分支持 OpenAI 协议的工具都能直接接。比如把 Continue.dev、Cline、Cursor 的 API 端点改成 http://localhost:11434/v1,模型名填本地拉过的模型,就能在编辑器里用本地模型跑 AI 编程。注意本地模型代码能力弱于云端 Claude/GPT,适合简单任务或不想花钱的场景。

本地大模型耗电吗

跑推理时显卡或 CPU 长时间高负载,功耗确实显著高于待机。M2 MacBook Pro 跑 7B 模型,持续生成时整机功耗大致几十瓦量级。NVIDIA 4090 桌面显卡,推理时单卡功耗几百瓦。如果做长时间批量任务建议关注散热和电费。Mac 笔记本跑久了底壳会明显发热,但软硬件层都有保护不会损伤设备。

我的本地模型为什么答非所问

几个常见原因。一是模型太小,3B 以下模型本身能力有限,答错很正常,换 7B 或更大模型立刻改善。二是 prompt 不清楚,本地模型不像 ChatGPT 能"猜"你的意图,要更明确地把背景和要求写完整。三是上下文不够,Ollama 默认 context 2048,长对话会被截断遗忘前文,要在配置里设 OLLAMA_NUM_CTX 或在 Open WebUI 里调大 max tokens。四是模型量化太狠,Q2 这种 2-bit 量化会显著降低质量,有条件用 Q4 以上。

📝 本文来自抖文 www.douwen.me ,转载请保留出处。

💬 评论 (10)

格局打开 2026-05-20 23:30 回复

观点很到位

且听风吟 2026-05-20 11:19 回复

学到了

且听风吟 2026-05-20 17:01 回复

对照看了几篇,这篇最透彻

以史为镜 2026-05-21 08:13 回复

作者花了很多心思

刨根问底 2026-05-21 02:31 回复

深度好文,干货太多了

读史明志 2026-05-21 02:30 回复

解决了我一直没搞清楚的问题

细节党 2026-05-21 11:09 回复

结构清晰看着不累

史海钩沉 2026-05-20 15:51 回复

数据扎实不是水文

躺平选手 2026-05-20 21:01 回复

收藏了反复看

诗与远方 2026-05-21 10:16 回复

案例很贴近实际