跳到主要内容

1 篇博文 含有标签「xpu」

查看所有标签

昆仑芯 P800 环境 Qwen3 部署与全参 DPO 训练实践指南

太长不看(阅读时间:约 15 分钟):

  • 测试环境:8 卡昆仑芯 P800(驱动 5.0.21.21)+ Ubuntu 22.04 + Docker 镜像 xpu_dev_20251202_172933-with-lf
  • 性能实测:Qwen3-32B(TP=8)吞吐 1184 tok/s / TTFT 1.8s,Qwen3-VL(TP=4)吞吐 1942 tok/s,Qwen3-8B(TP=1)吞吐 1667 tok/s
  • 技术方案:vLLM-Kunlun 提供 OpenAI 兼容推理服务 + LLaMA-Factory 全参数 DPO 训练(81.9B 参数,8 分钟/轮)
  • 实用价值:提供可直接运行的启动脚本、张量并行配置、显存优化参数、完整 Benchmark 命令与训练配置

本文档将详细介绍在 昆仑芯 P800 XPU 物理机环境下部署 Qwen3-8B / Qwen3-32B / Qwen3-VL-8B-Instruct 模型,并基于 LLaMA-Factory 完成全参数 DPO 训练的完整流程。内容覆盖环境检查、容器准备、模型推理、性能测试和训练输出解析,适合作为在国产算力平台上落地 Qwen3 的实战手册。

整体架构:物理机安装昆仑芯驱动与运行时,通过官方 vLLM-Kunlun 适配的推理镜像启动 Docker 容器,在容器内使用 vLLM 提供 OpenAI 兼容 HTTP 服务,辅以 LLaMA-Factory 完成 Qwen3-8B 的全参数 DPO 训练。

适用读者:已经具备基础 Linux 与 Docker 使用经验,希望在昆仑芯 P800 上快速跑通 Qwen3 推理与训练的研发 / 运维工程师。