跳到主要内容

2 篇博文 含有标签「inference」

查看所有标签

昆仑芯 P800 环境 Qwen3 部署与全参 DPO 训练实践指南

太长不看(阅读时间:约 15 分钟):

  • 测试环境:8 卡昆仑芯 P800(驱动 5.0.21.21)+ Ubuntu 22.04 + Docker 镜像 xpu_dev_20251202_172933-with-lf
  • 性能实测:Qwen3-32B(TP=8)吞吐 1184 tok/s / TTFT 1.8s,Qwen3-VL(TP=4)吞吐 1942 tok/s,Qwen3-8B(TP=1)吞吐 1667 tok/s
  • 技术方案:vLLM-Kunlun 提供 OpenAI 兼容推理服务 + LLaMA-Factory 全参数 DPO 训练(81.9B 参数,8 分钟/轮)
  • 实用价值:提供可直接运行的启动脚本、张量并行配置、显存优化参数、完整 Benchmark 命令与训练配置

本文档将详细介绍在 昆仑芯 P800 XPU 物理机环境下部署 Qwen3-8B / Qwen3-32B / Qwen3-VL-8B-Instruct 模型,并基于 LLaMA-Factory 完成全参数 DPO 训练的完整流程。内容覆盖环境检查、容器准备、模型推理、性能测试和训练输出解析,适合作为在国产算力平台上落地 Qwen3 的实战手册。

整体架构:物理机安装昆仑芯驱动与运行时,通过官方 vLLM-Kunlun 适配的推理镜像启动 Docker 容器,在容器内使用 vLLM 提供 OpenAI 兼容 HTTP 服务,辅以 LLaMA-Factory 完成 Qwen3-8B 的全参数 DPO 训练。

适用读者:已经具备基础 Linux 与 Docker 使用经验,希望在昆仑芯 P800 上快速跑通 Qwen3 推理与训练的研发 / 运维工程师。

昇腾 910B 多机环境 DeepSeek-V3/R1 671B 满血版部署指南

本文档将详细阐述基于物理机服务的 Deepseek-R1-671b 多机部署方案,基于 4 台 8 卡昇腾 910B GPU 物理机和 2 台 8 卡昇腾 910B GPU 物理机进行最佳实践,内容涵盖环境准备、服务启动与故障处理三个方面。

注意:4 台昇腾 910B 物理机服务器可以部署 DeepSeek-R1/V3 671B 版本,2 台昇腾 910B 物理机服务器可以部署 DeepSeek-R1/V3 671B W8A8 量化版本。