在香港VPS上部署Ollama本地大模型：LLaMA/Qwen私有化部署教程

为什么要私有化部署大模型？

调用 OpenAI / Claude API 有三个常见痛点：数据隐私（敏感业务数据发到第三方）、成本（高频调用费用高）、网络限制（部分地区访问不稳定）。Ollama 是目前最易用的本地大模型运行框架，支持一行命令下载并运行 LLaMA、Qwen、Gemma 等主流开源模型，并提供与 OpenAI API 完全兼容的接口。

一、服务器配置要求

模型规格	最低内存	推荐配置	推理速度参考
7B 参数模型（LLaMA3 8B、Qwen2.5 7B）	8G RAM	16G RAM + SSD	CPU 推理约 5–15 token/s
13B 参数模型	16G RAM	32G RAM	CPU 推理约 2–8 token/s
70B 参数模型	64G RAM	GPU 服务器	需要 GPU 才实用

香港独立服务器（E3 + 16G + SSD）可以流畅运行 7B–8B 级别的模型，适合个人项目、小团队内部工具和 API 服务。

二、安装 Ollama

# 一键安装脚本（官方提供）
curl -fsSL https://ollama.com/install.sh | sh

# 验证安装
ollama --version

# 查看服务状态
sudo systemctl status ollama

三、下载并运行模型

# 下载并运行 LLaMA 3.1 8B（约 4.7GB）
ollama run llama3.1

# 下载 Qwen 2.5 7B 中文优化模型（中文效果更好）
ollama run qwen2.5

# 下载量化版本（减少内存占用，推理速度更快）
ollama run qwen2.5:7b-instruct-q4_K_M

# 只下载不启动交互
ollama pull qwen2.5

# 查看已下载的模型
ollama list

第一次运行会下载模型文件，根据网络速度需要几分钟到十几分钟。下载完成后进入交互对话界面，输入 /bye 退出。

四、配置 API 对外提供服务

Ollama 默认只监听本地（127.0.0.1:11434），配置 Nginx 反向代理可以通过域名对外提供 API 服务：

sudo nano /etc/nginx/sites-available/ollama

server {
    listen 80;
    server_name ai.your-domain.com;

    location / {
        proxy_pass http://127.0.0.1:11434;
        proxy_http_version 1.1;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;

        # 流式输出支持（大模型逐字输出需要）
        proxy_buffering off;
        proxy_cache off;
        chunked_transfer_encoding on;
    }
}

sudo ln -s /etc/nginx/sites-available/ollama /etc/nginx/sites-enabled/
sudo nginx -t && sudo systemctl reload nginx
sudo certbot --nginx -d ai.your-domain.com

五、调用 API（兼容 OpenAI 格式）

# 命令行测试
curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5",
  "prompt": "用一句话介绍香港服务器的优势",
  "stream": false
}'

# 兼容 OpenAI 格式的接口（可直接替换 OpenAI SDK 的 base_url）
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen2.5",
    "messages": [{"role": "user", "content": "你好"}]
  }'

# Python 调用（使用 OpenAI SDK，只需修改 base_url）
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # Ollama 不需要真实 API Key
)

response = client.chat.completions.create(
    model="qwen2.5",
    messages=[{"role": "user", "content": "用中文介绍一下你自己"}],
)
print(response.choices[0].message.content)

六、设置开机自启和资源限制

# Ollama 安装时已自动创建 systemd 服务
sudo systemctl enable ollama

# 限制 Ollama 可使用的 CPU 核心数（防止占满 CPU 影响其他服务）
sudo systemctl edit ollama

[Service]
CPUQuota=200%          # 最多使用 2 个 CPU 核心
MemoryMax=12G          # 最多使用 12G 内存

总结

在香港 VPS 部署 Ollama 的完整流程：安装 Ollama → 下载 7B 级别模型 → 配置 Nginx 反向代理对外提供 API → 用 OpenAI 兼容接口在应用中调用。部署完成后，你拥有一个完全私有、数据不出服务器、无调用次数限制的本地 AI API 服务。

运行 7B 大模型需要 16G 内存，IDC.Net 香港独立服务器提供 16G–32G 内存配置，CN2 GIA 直连大陆，月付 299 元起，支持支付宝 / USDT 付款，免 KYC 实名。

在香港VPS上部署Ollama本地大模型：LLaMA/Qwen私有化部署教程