在香港VPS上部署DeepSeek / Ollama本地大模型：GPU实例配置与推理加速教程

2026-6-9

随着DeepSeek、Llama3、Qwen等开源大模型相继发布，越来越多的开发者和企业选择在自己的服务器上私有化部署AI模型，避免数据外泄并降低API调用成本。香港VPS因其免备案、低延迟的特性，成为部署本地大模型的热门选择。本文带你完整走一遍部署流程。

一、为什么选香港服务器部署大模型？

数据隐私：企业敏感数据不经过第三方API，完全在自己的服务器上推理
低延迟访问：大陆用户访问香港节点延迟10~30ms，交互体验接近本地
成本可控：按月固定费用，相比按Token计费的商业API，高频调用场景成本大幅降低
免备案快速上线：无需ICP备案，付款后分钟级开通

二、硬件配置选型

CPU推理方案（入门，无需GPU）

对于7B以下的小模型（如DeepSeek-R1-7B、Llama3-8B），高配CPU实例可以运行，但推理速度较慢（约5~15 tokens/s）。

模型规模	最低配置	推荐配置	推理速度参考
3B以下	4核8G	8核16G	15~30 t/s
7B	8核16G	16核32G	5~15 t/s
13B	16核32G	32核64G	2~8 t/s

GPU推理方案（推荐，速度提升10倍以上）

GPU实例可将7B模型推理速度提升到50~100 tokens/s，用户体验显著改善。

GPU型号	显存	适合模型规模	月费参考
NVIDIA T4	16G	7B~13B（4bit量化）	约800~1500元
NVIDIA A10	24G	13B~34B	约2000~3500元
NVIDIA A100	40G/80G	70B全精度	约8000元起

三、安装Ollama

Ollama是目前最简单的本地大模型运行框架，支持MacOS、Linux和Windows，提供统一的模型管理和API接口。

Linux一键安装

curl -fsSL https://ollama.com/install.sh | sh

# 验证安装
ollama --version

# 启动Ollama服务
systemctl start ollama
systemctl enable ollama

四、下载并运行DeepSeek模型

# 下载并运行DeepSeek-R1 7B（约4.7GB）
ollama run deepseek-r1:7b

# 下载DeepSeek-R1 14B（约9GB，需16G以上内存）
ollama run deepseek-r1:14b

# 查看已下载的模型列表
ollama list

# 后台运行模型服务
ollama serve &

首次运行会自动下载模型文件，香港服务器下载速度通常在50~200MB/s，7B模型约需1~5分钟。

五、开放API接口供外部调用

Ollama默认只监听本地127.0.0.1，需要配置才能从外部访问。

配置环境变量

# 编辑systemd服务配置
systemctl edit ollama

# 在[Service]段添加：
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

systemctl daemon-reload
systemctl restart ollama

用Nginx反向代理并加密

server {
    listen 443 ssl;
    server_name ai.你的域名.com;

    ssl_certificate /etc/letsencrypt/live/ai.你的域名.com/fullchain.pem;
    ssl_certificate_key /etc/letsencrypt/live/ai.你的域名.com/privkey.pem;

    # 简单API Key鉴权
    if ($http_authorization != "Bearer 你的密钥") {
        return 403;
    }

    location / {
        proxy_pass http://127.0.0.1:11434;
        proxy_set_header Host $host;
        proxy_read_timeout 300s;
    }
}

六、API调用示例

# 使用curl测试
curl https://ai.你的域名.com/api/generate \
  -H "Authorization: Bearer 你的密钥" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-r1:7b",
    "prompt": "用Python写一个快速排序函数",
    "stream": false
  }'

也可以通过OpenAI兼容接口调用，直接替换原有OpenAI SDK的base_url：

from openai import OpenAI

client = OpenAI(
    base_url="https://ai.你的域名.com/v1",
    api_key="你的密钥"
)

response = client.chat.completions.create(
    model="deepseek-r1:7b",
    messages=[{"role": "user", "content": "你好"}]
)
print(response.choices[0].message.content)

七、推理性能优化

使用量化模型：Q4_K_M量化版本在精度损失很小的情况下，显存占用减少50%，推理速度提升30%
设置并发限制：OLLAMA_NUM_PARALLEL=2 控制并发推理数量，避免OOM
调整上下文长度：OLLAMA_MAX_LOADED_MODELS=1 避免多模型同时加载占用显存
使用SSD存储模型：NVMe SSD比HDD模型加载速度快5~10倍

八、其他可部署的热门开源模型

模型	特长	Ollama命令
Llama3.1:8b	通用对话，英文最强	ollama run llama3.1:8b
Qwen2.5:7b	中文理解优秀	ollama run qwen2.5:7b
CodeLlama:13b	代码生成	ollama run codellama:13b
Mistral:7b	速度快，欧洲数据合规	ollama run mistral:7b

九、总结

在香港VPS上用Ollama部署本地大模型，整个过程约30分钟即可完成。对于个人开发者和中小企业，7B量化模型在CPU实例上即可流畅运行，成本每月百元级。如需更高推理速度，IDC.Net提供香港GPU实例，T4显卡配置可将推理速度提升10倍以上。

作者：后浪云

链接：https://idc.net/help/442697/

文章版权归作者所有，未经允许请勿转载。

THE END

香港云服务器
1核2G内存30G硬盘

年付5.5折 200元

为什么选择后浪云？

在香港VPS上部署DeepSeek / Ollama本地大模型：GPU实例配置与推理加速教程

一、为什么选香港服务器部署大模型？

二、硬件配置选型

CPU推理方案（入门，无需GPU）

GPU推理方案（推荐，速度提升10倍以上）

三、安装Ollama

Linux一键安装

四、下载并运行DeepSeek模型

五、开放API接口供外部调用

配置环境变量

用Nginx反向代理并加密

六、API调用示例

七、推理性能优化

八、其他可部署的热门开源模型

九、总结

香港云服务器 1核2G内存30G硬盘

年付5.5折 200元

为什么选择后浪云？

在香港VPS上部署DeepSeek / Ollama本地大模型：GPU实例配置与推理加速教程

一、为什么选香港服务器部署大模型？

二、硬件配置选型

CPU推理方案（入门，无需GPU）

GPU推理方案（推荐，速度提升10倍以上）

三、安装Ollama

Linux一键安装

四、下载并运行DeepSeek模型

五、开放API接口供外部调用

配置环境变量

用Nginx反向代理并加密

六、API调用示例

七、推理性能优化

八、其他可部署的热门开源模型

九、总结

香港云服务器
1核2G内存30G硬盘