很多场景下,我们需要在没有网络的环境下运行大模型。Ollama 让这件事变得简单。这篇文章记录我在 Windows 上部署 Ollama + Qwen2.5 的完整过程。
什么是 Ollama?
Ollama 是一个本地运行大模型的工具。它封装了模型下载、加载、推理的全流程,对外提供 OpenAI 兼容的 API。
安装 Ollama
Windows 用户直接去 ollama.com 下载安装包,双击安装即可。安装完成后,在终端验证:
ollama --version
拉取模型
我用的模型是 Qwen2.5:7b,7B 参数,4-bit 量化后约 4GB:
ollama pull qwen2.5:7b
启动服务
Ollama 默认在后台运行,API 地址是 http://localhost:11434。
Python 调用示例:
import requests
response = requests.post(
"http://localhost:11434/api/generate",
json={
"model": "qwen2.5:7b",
"prompt": "你好",
"stream": False
}
)
print(response.json()["response"])
Docker 集成
我的 RAG 项目用 Docker 部署,需要在 Dockerfile 中检测 Ollama 是否可用:
import urllib.request
try:
req = urllib.request.Request(
"http://localhost:11434/api/tags",
method="GET"
)
urllib.request.urlopen(req, timeout=3)
use_ollama = True
except:
use_ollama = False
内存优化
Qwen2.5:7b 加载后占约 4GB 内存,加上 Reranker 模型 2.1GB,总内存需求约 6-7GB。
我的小主机只有 8GB 内存,解决方案:Ollama 模式运行时自动跳过 Reranker,内存占用降到 ~3GB。
双模式切换
server.py 启动时自动检测 Ollama 可用性:
- Ollama 可用 → 本地运行(零成本,离线可用)
- Ollama 不可用 → 自动切换到 DeepSeek 云端(质量更高)
总结
Ollama 让本地运行大模型变得极其简单。对于需要离线使用的场景(比赛演示、内部部署),是不可或缺的工具。