在香港VPS上部署Ollama本地大模型:LLaMA/Qwen私有化部署教程
为什么要私有化部署大模型?
调用 OpenAI / Claude API 有三个常见痛点:数据隐私(敏感业务数据发到第三方)、成本(高频调用费用高)、网络限制(部分地区访问不稳定)。Ollama 是目前最易用的本地大模型运行框架,支持一行命令下载并运行 LLaMA、Qwen、Gemma 等主流开源模型,并提供与 OpenAI API 完全兼容的接口。
一、服务器配置要求
| 模型规格 | 最低内存 | 推荐配置 | 推理速度参考 |
|---|---|---|---|
| 7B 参数模型(LLaMA3 8B、Qwen2.5 7B) | 8G RAM | 16G RAM + SSD | CPU 推理约 5–15 token/s |
| 13B 参数模型 | 16G RAM | 32G RAM | CPU 推理约 2–8 token/s |
| 70B 参数模型 | 64G RAM | GPU 服务器 | 需要 GPU 才实用 |
香港独立服务器(E3 + 16G + SSD)可以流畅运行 7B–8B 级别的模型,适合个人项目、小团队内部工具和 API 服务。
二、安装 Ollama
# 一键安装脚本(官方提供)
curl -fsSL https://ollama.com/install.sh | sh
# 验证安装
ollama --version
# 查看服务状态
sudo systemctl status ollama三、下载并运行模型
# 下载并运行 LLaMA 3.1 8B(约 4.7GB)
ollama run llama3.1
# 下载 Qwen 2.5 7B 中文优化模型(中文效果更好)
ollama run qwen2.5
# 下载量化版本(减少内存占用,推理速度更快)
ollama run qwen2.5:7b-instruct-q4_K_M
# 只下载不启动交互
ollama pull qwen2.5
# 查看已下载的模型
ollama list第一次运行会下载模型文件,根据网络速度需要几分钟到十几分钟。下载完成后进入交互对话界面,输入 /bye 退出。
四、配置 API 对外提供服务
Ollama 默认只监听本地(127.0.0.1:11434),配置 Nginx 反向代理可以通过域名对外提供 API 服务:
sudo nano /etc/nginx/sites-available/ollamaserver {
listen 80;
server_name ai.your-domain.com;
location / {
proxy_pass http://127.0.0.1:11434;
proxy_http_version 1.1;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
# 流式输出支持(大模型逐字输出需要)
proxy_buffering off;
proxy_cache off;
chunked_transfer_encoding on;
}
}sudo ln -s /etc/nginx/sites-available/ollama /etc/nginx/sites-enabled/
sudo nginx -t && sudo systemctl reload nginx
sudo certbot --nginx -d ai.your-domain.com五、调用 API(兼容 OpenAI 格式)
# 命令行测试
curl http://localhost:11434/api/generate -d '{
"model": "qwen2.5",
"prompt": "用一句话介绍香港服务器的优势",
"stream": false
}'
# 兼容 OpenAI 格式的接口(可直接替换 OpenAI SDK 的 base_url)
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen2.5",
"messages": [{"role": "user", "content": "你好"}]
}'# Python 调用(使用 OpenAI SDK,只需修改 base_url)
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama", # Ollama 不需要真实 API Key
)
response = client.chat.completions.create(
model="qwen2.5",
messages=[{"role": "user", "content": "用中文介绍一下你自己"}],
)
print(response.choices[0].message.content)六、设置开机自启和资源限制
# Ollama 安装时已自动创建 systemd 服务
sudo systemctl enable ollama
# 限制 Ollama 可使用的 CPU 核心数(防止占满 CPU 影响其他服务)
sudo systemctl edit ollama[Service]
CPUQuota=200% # 最多使用 2 个 CPU 核心
MemoryMax=12G # 最多使用 12G 内存总结
在香港 VPS 部署 Ollama 的完整流程:安装 Ollama → 下载 7B 级别模型 → 配置 Nginx 反向代理对外提供 API → 用 OpenAI 兼容接口在应用中调用。部署完成后,你拥有一个完全私有、数据不出服务器、无调用次数限制的本地 AI API 服务。
运行 7B 大模型需要 16G 内存,IDC.Net 香港独立服务器提供 16G–32G 内存配置,CN2 GIA 直连大陆,月付 299 元起,支持支付宝 / USDT 付款,免 KYC 实名。