论文赏析|Preprint|MCL与MOE结合改进CLIP
论文题目:《CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling》
作者:Jihai Zhang,Xiaoye Qu,Tong Zhu,Yu Cheng
作者单位:香港中文大学,上海AI Lab,苏州大学
论文地址:
http://arxiv.org/abs/2409.19291
亮点(摘要)
CLIP 作为多模态智能领域的基石模型,在编码过程中存在显著信息损失,难以处理视觉细节丰富的图像。本文提出模型无关的多样化多重升级(DMU)策略,创新性地将多阶段对比学习(MCL)与混合专家(MoE)架构结合。基于预训练 CLIP 密集模型,通过 MCL 分阶段微调仅更新前馈网络(FFN)参数,得到捕获多样化互补信息的多个子模型。然后将这些子模型的 FFN 层作为专家,构建 CLIP-MoE,在提升模型容量的同时,通过稀疏激活控制计算开销。因此该方法无需从头训练,可将任意密集 CLIP 模型 “即插即用” 转换为 MoE 版本,在零样本检索、图像分类及作为多模态大语言模型(MLLM)视觉编码器任务中均实现显著性能提升,且训练成本仅为从头训练 CLIP 的 2% 以下。
CLIP模型存在的问题定义(当前论文所解决的问题的详细定义)
CLIP 通过对比学习实现跨模态对齐,但存在固有局限性。首先其信息损失严重,编码过程仅保留粗粒度视觉概念,忽略细粒度细节(如物体纹理、姿态、空间关系),导致盲对问题,即语义不同但视觉组件相似的图像被编码为相同表征,无法为下游任务提供足够信息。此外,其存在下游任务干扰,即当 CLIP 作为 MLLM 的视觉编码器时,信息损失会混淆基础语言模型,降低多模态理解能力。而现有的解决方法存在一些问题,一方面信息损失严重,编码过程仅保留粗粒度视觉概念,忽略细粒度细节(如物体纹理、姿态、空间关系),导致盲对问题,即语义不同但视觉组件相似的图像被编码为相同表征,无法为下游任务提供足够信息。另一方面容易受到下游任务干扰,当 CLIP 作为 MLLM 的视觉编码器时,信息损失会混淆基础语言模型,降低多模态理解能力。
论文核心算法多样化多重升级(DMU)细节如图1所示
图1 算法细节图
所提出的DMU方法通过结合MCL和MOE方法提升CLIP性能。如图2所示,该方法包含三个阶段:基于 MCL 的专家提取、CLIP-MoE 初始化和CLIP-MoE 持续微调。
1. 在专家提取阶段,基于预训练的密集CLIP模型,通过多阶段对比学习(MCL)进行分阶段微调以获取多样化的前馈网络(FFN)专家,该过程可参考图1中DMU流程的第一步。具体而言,微调时会冻结CLIP图像编码器(包含若干Transformer块)与文本编码器(包含若干Transformer块)的所有参数,仅对每个Transformer块中的FFN层进行更新;MCL的核心在于分阶段的聚类与对比学习,每个阶段先对当前模型输出的图像与文本表征分别进行聚类,下一阶段的负样本仅从前期累积的聚类中抽取,迫使模型学习新的信息——例如第一阶段FFN可能聚焦颜色特征,后续阶段则逐步学习纹理、形状等互补特征,最终得到每个MCL阶段对应每个Transformer块的FFN层,每类FFN均捕获不同维度的输入信息。
2. 在CLIP-MoE初始化阶段,将MCL各阶段得到的FFN层作为专家,替换原CLIP模型中每个Transformer块的标准FFN层,构建混合专家(MoE)架构,对应图1中DMU流程的第二步。对于每个Transformer块,除引入上述FFN专家外,还会配备一个随机初始化的路由网络参数;当输入特征进入该块时,先通过路由网络生成各专家的权重分数,再筛选出激活数量最高的两个专家(论文默认激活数量为2),通过归一化函数对这些专家的权重进行调整,得到路由权重向量;最终该块的输出特征由路由权重与对应专家输出的加权和计算得出,即通过路由权重将不同专家捕获的互补信息融合,实现模型容量的提升同时保持稀疏激活特性。
3. 在CLIP-MoE持续微调阶段,为优化路由策略并保证专家负载均衡,需对模型进行进一步微调,此为图1中DMU流程的第三步。微调过程中会冻结所有FFN专家的参数,避免其在MCL阶段学到的多样化信息被覆盖,仅针对各Transformer块的路由网络进行参数更新;损失函数采用两部分加权求和的形式,一部分是原CLIP的对比学习损失,用于维持模型的跨模态对齐能力,另一部分是负载均衡损失,通过约束分配给每个专家的特征比例与路由网络分配给该专家的概率均值趋于均匀,避免路由过度依赖部分专家;总损失由这两部分通过权重系数结合而成,该系数默认设置为0.1以平衡两项损失的影响,最终通过该微调过程让路由网络能高效利用所有专家,使CLIP-MoE在捕获细粒度信息的同时保持计算效率。
实验
基准数据集的性能
使用 COCO 和 Flickr30k 数据集在图像到文本 (I2T) 和文本到图像 (T2I) 检索任务上的性能比较。这些模型分别在RecapDataComp-1M(Recap-DC)和ShareGPT4V(ShareGPT)数据集上进行了训练和评估。
在LLaVA1.5中OpenAI CLIP和CLIP-MoE作为视觉编码器的性能比较。
在LLaVA1.5中OpenAI CLIP和CLIP-MoE作为视觉编码器的性能比较。零样本图像分类的性能比较。这些模型分别在 Recap-DataComp-1M (Recap-DC) 和 ShareGPT4V (ShareGPT) 数据集上进行了训练和评估。
图2 实验结果图
消融实验
本文针对每一个损失函数以及不同的训练阶段进行了消融试验,具体结果如图6所示。可以看到,每个部件都为整体结果发挥着积极的作用。
图3 消融试验
模型检测速度对比
本文将在 Recap-DataComp-1B 的 1M 随机采样子集上训练的 CLIP-MoE 的性能提升与 CLIP-ViT-L-16-HTxt-Recap(Li 等人,2024b)进行了比较,后者是在整个 Recap-DataComp-1B 数据集上从头开始训练的。本文的 CLIP-MoE 激活参数大小,有 4 位专家和前 2 位路由,为 0.69B,与 CLIP-ViT-L-16-HTxt-Recap 的 0.64B 参数大小相当。由于 MoE-Packing 和利用 OpenAI CLIP 密集检查点,本文的总训练计算成本不到 CLIP-ViT-L-16-HTxt-Recap 的 2%。
图4 效果对比
总结
1. 本文提出了当前CLIP模型在多模态任务中存在的核心问题——编码过程信息损失显著,仅能捕获粗粒度视觉概念,且现有优化方案(从头训练或异构集成)存在计算成本高、参数爆炸的缺陷。为此,本文提出一种新颖的模型无关策略“多样化多重升级(DMU)”,通过整合多阶段对比学习(MCL)与混合专家(MoE)架构,将预训练CLIP密集模型转换为CLIP-MoE,既实现专家间多样化互补信息的捕获,又通过稀疏激活控制计算开销,最终达成“提升模型容量且无需从头训练”的“1+1>2”效果,可无缝“即插即用”替换下游框架中的CLIP。
2. 提出了一套精细化的CLIP-MoE构建流程与优化策略。在专家提取环节,通过MCL分阶段微调预训练CLIP,仅更新各Transformer块的前馈网络(FFN)层,利用不同阶段差异化的负样本聚类,迫使FFN学习颜色、纹理、形状等互补信息;在模型初始化与微调环节,将这些FFN作为MoE专家,搭配随机初始化的路由网络,并设计“对比学习损失+负载均衡损失”的组合损失函数,冻结专家参数仅优化路由网络,确保所有专家被均匀利用,避免路由过度依赖部分专家,进一步提升模型对细粒度信息的编码能力。
3. 针对不同下游任务与模型组件设计适配性方案,实现性能与效率的双重优势。在任务适配方面,CLIP-MoE可直接作为视觉编码器应用于多模态大语言模型(MLLM),同时在零样本图像-文本检索、零样本图像分类任务中表现优异,尤其能平衡细粒度信息捕获与粗粒度分类能力,避免现有微调方法“检索提升而分类下降”的矛盾;在效率适配方面,仅需使用100万级别的高质量图像-文本子集(如Recap-DataComp-1M)训练,总计算成本不足从头训练CLIP的2%,且推理时激活参数规模仅为原CLIP的1.7倍,兼顾数据效率与计算效率。
感谢阅读!如果觉得本文有帮助,请为我们点个☆吧~
论文地址:
http://arxiv.org/abs/2409.19291