Docker + Ollama 本地部署实战

很多场景下，我们需要在没有网络的环境下运行大模型。Ollama 让这件事变得简单。这篇文章记录我在 Windows 上部署 Ollama + Qwen2.5 的完整过程。

什么是 Ollama？

Ollama 是一个本地运行大模型的工具。它封装了模型下载、加载、推理的全流程，对外提供 OpenAI 兼容的 API。

安装 Ollama

Windows 用户直接去 ollama.com 下载安装包，双击安装即可。安装完成后，在终端验证：

ollama --version

拉取模型

我用的模型是 Qwen2.5:7b，7B 参数，4-bit 量化后约 4GB：

ollama pull qwen2.5:7b

启动服务

Ollama 默认在后台运行，API 地址是 http://localhost:11434。

Python 调用示例：

import requests

response = requests.post(
    "http://localhost:11434/api/generate",
    json={
        "model": "qwen2.5:7b",
        "prompt": "你好",
        "stream": False
    }
)
print(response.json()["response"])

Docker 集成

我的 RAG 项目用 Docker 部署，需要在 Dockerfile 中检测 Ollama 是否可用：

import urllib.request

try:
    req = urllib.request.Request(
        "http://localhost:11434/api/tags",
        method="GET"
    )
    urllib.request.urlopen(req, timeout=3)
    use_ollama = True
except:
    use_ollama = False

内存优化

Qwen2.5:7b 加载后占约 4GB 内存，加上 Reranker 模型 2.1GB，总内存需求约 6-7GB。

我的小主机只有 8GB 内存，解决方案：Ollama 模式运行时自动跳过 Reranker，内存占用降到 ~3GB。

双模式切换

server.py 启动时自动检测 Ollama 可用性：

Ollama 可用 → 本地运行（零成本，离线可用）
Ollama 不可用 → 自动切换到 DeepSeek 云端（质量更高）

总结

Ollama 让本地运行大模型变得极其简单。对于需要离线使用的场景（比赛演示、内部部署），是不可或缺的工具。