如何运行 Ollama 并加载 DeepSeek-R1 蒸馏模型
随着本地模型推理逐渐普及,Ollama 凭借其简洁的模型管理和运行方式,成为不少开发者优先选择的工具之一。本篇文章将介绍如何在国内网络环境中手动安装 Ollama,并在一台单卡 Nvidia V100 服务器上运行 DeepSeek-R1 模型(蒸馏版),并通过 nvtop 实时查看显卡资源变化。
一、准备工作
1. 手动下载 Ollama 安装包(需科学上网)
由于国内网络环境限制,直接访问 Ollama GitHub 仓库 可能存在困难或速度很慢。推荐使用科学上网工具,手动从以下链接下载对应系统的安装包:
- 访问链接:https://github.com/ollama/ollama/releases
- 找到适合你系统的
.tar.gz
或.deb
文件(以 Linux x86_64 为例) 或按照 Linux 安装指南 手动下载安装包
下载完成后,务必使用 sha256sum
校验完整性:
sha256sum ollama-linux-amd64.tgz
对比 GitHub 上提供的 SHA 值,确保一致。
2. 准备服务器:单卡 V100 GPU
本文使用具备 Nvidia V100 显卡的服务器,由于 V100 有 32G 显存,可以覆盖到 DeepSeek R1 量化版 32b 蒸馏模型:
- 系统:Ubuntu 20.04+
- GPU:Nvidia V100 32GB
- 驱动要求:CUDA 11.x 或以上
- 依赖:Nvidia Container Toolkit
创建服务器后,建议更新系统并安装基本工具:
sudo apt update && sudo apt upgrade -y
二、安装 Ollama
3. 将安装包拷贝到服务器
使用 scp
工具从本地将安装包上传到 V100 服务器:
scp ollama-linux-amd64.tgz user@server-ip:/home/user/
或使用服务器自带的 JupyterLab(大多数 GPU 云厂商都预置此工具)文件上传功能。
上传完成后,在服务器端再次校验完整性:
sha256sum ollama-linux-amd64.tgz
4. 解压并检查 GPU 支持
解压并查看 /usr/lib/ollama
下是否正确安装了 GPU 所需库:
sudo tar -C /usr -xzf ollama-linux-amd64.tgz
ls /usr/lib/ollama
确认存在如 libggml-cuda.so
等文件。
5. 启动 Ollama Server
ollama serve