昇腾 910B 多机环境 DeepSeek-V3/R1 671B 满血版部署指南
本文档将详细阐述基于物理机服务的 Deepseek-R1-671b 多机部署方案,基于 4 台 8 卡昇腾 910B GPU 物理机和 2 台 8 卡昇腾 910B GPU 物理机进行最佳实践,内容涵盖环境准备、服务启动与故障处理三个方面。
注意:4 台昇腾 910B 物理机服务器可以部署 DeepSeek-R1/V3 671B 版本,2 台昇腾 910B 物理机服务器可以部署 DeepSeek-R1/V3 671B W8A8 量化版本。
1. 准备工作
1.1 软硬件需求概览
- BF16版本部署:4台配备昇腾910B GPU的服务器
- W8A8量化版本部署:2台配备昇腾910B GPU的服务器
- 每台服务器推荐配置:
- CPU: 64核以上(实际测试环境:192核)
- 内存: 512GB以上(实际测试环境:2048GB)
- 存储: 2TB以上SSD存储(实际测试环境:4x3.2TB)
- 网络: 100Gbps RDMA网络互联(实际测试环境:25G网络)
软件要求:
| 组件 | 版本要求 | 备注 |
|---|---|---|
| MindIE | ≥2.0.T3 | 官网下载 |
| Python 环境 | 3.11 | 镜像预置 |
| MindStudio | Msit: br_noncom_MindStudio_8.0.0_POC_20251231分支 | |
| HDK | 24.1.0 | |
| CANN | ≥8.0.T63 | |
| 昇腾驱动 | ≥24.1.rc2 | 所有节点确认驱动版本一致 |
| 昇腾固件 | ≥7.5.0.1.129 | 所有节点确认固件版本一致 |
1.2 系统环境准备
1.2.1 开通物理机资源
在我们的实践中,我们申请了 Spader-AI 的 4 台裸金属云资源,具体配置为:
| 主机名 | 主机IP | CPU | NPU | 网络 | 内存 | 存储 |
|---|---|---|---|---|---|---|
| 主机2 | 192.168.0.2 | 192核 | 8片 | 8×200G RoCE v2 | 2048GB | 4×3.2T NVMe |
| 主机3 | 192.168.0.3 | 192核 | 8片 | 8×200G RoCE v2 | 2048GB | 4×3.2T NVMe |
| 主机4 | 192.168.0.4 | 192核 | 8片 | 8×200G RoCE v2 | 2048GB | 4×3.2T NVMe |
| 主机5 | 192.168.0.5 | 192核 | 8片 | 8×200G RoCE v2 | 2048GB | 4×3.2T NVMe |
| 组件 | 版本/说明 |
|---|---|
| 操作系统 | Ubuntu 22.04 64位 for ARM |
| 内核版本 | 5.15.0-118-generic (2024-07-05) |
1.2.2 初始化系统
连接到服务器后,执行以下命 令完成系统初始化:
# 更新系统
sudo apt update && sudo apt upgrade -y
# 设置系统参数
sudo bash -c 'cat >> /etc/sysctl.conf << EOF
net.core.rmem_max=26214400
net.core.wmem_max=26214400
net.ipv4.tcp_rmem=4096 87380 26214400
net.ipv4.tcp_wmem=4096 65536 26214400
EOF'
sudo sysctl -p
# 设置用户限制
sudo bash -c 'cat >> /etc/security/limits.conf << EOF
* soft nofile 1048576
* hard nofile 1048576
* soft memlock unlimited
* hard memlock unlimited
EOF'
1.2.3 安装依赖
# 安装基本工具
sudo apt update && sudo apt install -y ca-certificates curl gnupg \
lsb-release build-essential cmake git wget vim htop iotop
# 安装Python环境
sudo apt install -y python3-dev python3-pip
pip3 install -U pip
# 安装必要的Python包
pip3 install numpy scipy pandas scikit-learn matplotlib torch \
torchvision
1.2.4 安装Docker
使用阿里云镜像安装Docker可以加速下载过程:
# 安装Docker依赖
sudo apt install -y apt-transport-https ca-certificates curl \
software-properties-common gnupg
# 添加阿里云Docker镜像仓库证书
curl -fsSL https://mirrors.aliyun.com/docker-ce/linux/ubuntu/gpg |\
sudo gpg --dearmor -o /etc/apt/keyrings/aliyun-docker.gpg
# 添加Docker仓库
echo \
"deb [arch=$(dpkg --print-architecture) \
signed-by=/etc/apt/keyrings/aliyun-docker.gpg] \
https://mirrors.aliyun.com/docker-ce/linux/ubuntu \
$(lsb_release -cs) stable" | sudo \
tee /etc/apt/sources.list.d/docker.list > /dev/null
# 安装Docker
sudo apt update
sudo apt install -y docker-ce docker-ce-cli containerd.io
# 启动Docker服务
sudo systemctl enable docker
sudo systemctl start docker