昆仑芯 P800 部署 Qwen3 大模型完整指南

昆仑芯 P800 环境 Qwen3 部署与全参 DPO 训练实践指南

2026年1月6日

太长不看（阅读时间：约 15 分钟）：

测试环境：8 卡昆仑芯 P800（驱动 5.0.21.21）+ Ubuntu 22.04 + Docker 镜像 xpu_dev_20251202_172933-with-lf
性能实测：Qwen3-32B（TP=8）吞吐 1184 tok/s / TTFT 1.8s，Qwen3-VL（TP=4）吞吐 1942 tok/s，Qwen3-8B（TP=1）吞吐 1667 tok/s
技术方案：vLLM-Kunlun 提供 OpenAI 兼容推理服务 + LLaMA-Factory 全参数 DPO 训练（81.9B 参数，8 分钟/轮）
实用价值：提供可直接运行的启动脚本、张量并行配置、显存优化参数、完整 Benchmark 命令与训练配置

本文档将详细介绍在 昆仑芯 P800 XPU 物理机环境下部署 Qwen3-8B / Qwen3-32B / Qwen3-VL-8B-Instruct 模型，并基于 LLaMA-Factory 完成全参数 DPO 训练的完整流程。内容覆盖环境检查、容器准备、模型推理、性能测试和训练输出解析，适合作为在国产算力平台上落地 Qwen3 的实战手册。

整体架构：物理机安装昆仑芯驱动与运行时，通过官方 vLLM-Kunlun 适配的推理镜像启动 Docker 容器，在容器内使用 vLLM 提供 OpenAI 兼容 HTTP 服务，辅以 LLaMA-Factory 完成 Qwen3-8B 的全参数 DPO 训练。

适用读者：已经具备基础 Linux 与 Docker 使用经验，希望在昆仑芯 P800 上快速跑通 Qwen3 推理与训练的研发 / 运维工程师。