跳到主要内容

入门指南:如何微调视觉语言模型(VLM)实现特定任务

视觉语言模型(Vision-Language Models, VLMs)是近年来多模态人工智能领域的热门研究方向。这类模型能够同时处理视觉(如图像或视频)与语言信息,广泛应用于图像问答、图文生成、图文检索等任务。随着开源模型的发展,普通开发者也能通过微调技术将预训练模型快速适配特定领域需求。

本教程以电商图文数据为例,通过微调 Qwen2.5-VL-3B-Instruct 模型,让模型从通用视觉理解转变为专注于商品识别和描述的能力,实现对商品图片的多级分类与产品描述生成。Qwen2.5-VL-3B-Instruct 是一款体积小、推理效率高、资源消耗低的小型视觉语言模型,特别适合在中小规模场景中快速部署和落地应用,可显著降低计算与成本开销。

微调前的视觉语言模型虽然可以对图像进行一定的泛化理解,但往往只能输出较为模糊、通用的描述。通过本次微调,我们的目标是让模型能够准确识别电商图片中的商品类别,并生成更符合平台风格的精细化产品描述,从而为电商系统自动补全结构化商品信息。

强化学习动手实践:初探 DeepSeek R1 顿悟现象

在人工智能训练过程中,模型能力的跃迁往往并非线性提升,而是伴随着潜移默化的积累与突现的顿悟。本文以小模型为例,尝试通过强化学习探索 DeepSeek R1 中“顿悟现象”的再现与分析,揭示智能系统从量变到质变的过程。

一、实践目的

我们实践的目标包括:

  • 探索语言模型在强化学习中表现出来的“顿悟”(Aha Moment)现象,即模型能力出现显著提升的瞬间。
  • 理解模型训练过程中每个代码模块的作用,并实际动手完成一次训练。

如何运行 Ollama 并加载 DeepSeek-R1 蒸馏模型

随着本地模型推理逐渐普及,Ollama 凭借其简洁的模型管理和运行方式,成为不少开发者优先选择的工具之一。本篇文章将介绍如何在国内网络环境中手动安装 Ollama,并在一台单卡 Nvidia V100 服务器上运行 DeepSeek-R1 模型(蒸馏版),并通过 nvtop 实时查看显卡资源变化。

利用云端 GPU 动手实践:从零开始蒸馏小模型

随着大语言模型(LLM)的不断发展,如何高效地将大模型的能力“压缩”进小模型成为一个热门课题。知识蒸馏(Knowledge Distillation) 正是实现这一目标的重要手段。它允许我们在有限资源(如单卡 GPU)下,让小模型学习大模型的知识,从而达到在推理速度和部署成本上的双赢。

DeepSeek 团队基于 800k 高质量样本对 Qwen/Llama 等小模型进行蒸馏(论文链接),验证了几个关键结论:

  1. 蒸馏有效迁移推理能力至小模型,蒸馏模型在多项推理任务中表现出色。
  2. 蒸馏比强化学习更高效。在相同资源下,蒸馏方法比直接对小模型进行强化学习训练更能提高性能,其训练成本更低。

本篇博客将带你从零开始,基于开源工具和公有云 GPU 的算力资源,动手实践一个完整的知识蒸馏流程。我们以 DeepSeek-R1 模型生成的回答作为教师知识,训练微软开源的小模型 phi-3-mini-4k-instruct 来模仿它的行为。

昇腾 910B 多机环境 DeepSeek-V3/R1 671B 满血版部署指南

本文档将详细阐述基于物理机服务的 Deepseek-R1-671b 多机部署方案,基于 4 台 8 卡昇腾 910B GPU 物理机和 2 台 8 卡昇腾 910B GPU 物理机进行最佳实践,内容涵盖环境准备、服务启动与故障处理三个方面。

注意:4 台昇腾 910B 物理机服务器可以部署 DeepSeek-R1/V3 671B 版本,2 台昇腾 910B 物理机服务器可以部署 DeepSeek-R1/V3 671B W8A8 量化版本。