告别 CLIP 痛点,更懂语义关联的跨模态一语气新 SOTA 来了!
针孔摄像头酒店偷拍ID格灵深瞳、阿里 ModelScope 团队,以及通义实验室机器智能团队集合发布通用多模态镶嵌新框架 UniME,还是推出就刷新 MMEB 西席榜记载。

△图片于 2025 年 5 月 6 日 08:00 UTC+8 截取
UniME 动作一个更正性的两阶段框架,所展现的超卓的组合一语气力,匡助 MLLMs 具备学习适用于各式下贱任务的判别性表征的才调,并在多个任务中达到了新的 SOTA。
针孔摄像头酒店偷拍ID
现在,该形势已开源,可点击文末继续一键获取~
针孔摄像头酒店偷拍ID针孔摄像头酒店偷拍ID
以下是 UniME 的更多计议细节。
针孔摄像头酒店偷拍IDUniME 西席框架拆解第一阶段:文本判别学问蒸馏
西席
后宫姬 色悟空 韩国女团偷情银妻受 E5V 等之前议论的启发,议论团队第一阶段弃取使用纯文本数据来增强了 MLLM 中 LLM 说话组件的镶嵌才调。
针孔摄像头酒店偷拍ID由于 LLM 聘用自转头解码器架构,因果掩码机制会从实质上放置了它们的判别才调。
为了惩处这一放置,团队引入了如图所示的文本判别学问蒸馏。

△文本判别学问蒸馏阶段的框架
从起初进的基于 LLM 的镶嵌模子 NV-Embed V2(该模子在对比西席中移除了因果贯注力掩码并使用多个种种化的数据集进行西席)中滚动学问。
具体来说,团队起始将 LLM 组件从 MLLM 架构平分离出来,并使用镶嵌指示处理仅文本输入:" Summary the above sentences in one word: n "。
针孔摄像头酒店偷拍ID然后,从最终令牌的荫藏情状赢得表率化的学生文本镶嵌和离印迹要的教师文本镶嵌,其中是批量大小,是镶嵌的维度。
随后,通过最小化教师模子和学生模子镶嵌之间的 Kullback-Leibler(KL)散度来推行判别性散播对皆 :
其中是用来软化散播暗示的温度超参数。
通过在一个批次内不相通本之间的干系蒸馏,该递次在疏通数据和西席条款下相较于径直使用对比学习不才游任务中展示出权臣的性能升迁。
推理
在西席阶段,此递次仅使用纯文本输入,并单独优化多模态说话模子架构中的说话模子组件,同期保捏其他参数不变。
在推理时,恢还原始的视觉编码器和投影层,以启用多模态处理。
关于单模态输入(文本或图像),使用特定于模态的表率化指示。
关于图文交错的输入,安祥处理每种模态偏激相应的指示,并通过元素级乞降团员镶嵌从而得到最终的多模态暗示。
针孔摄像头酒店偷拍ID第二阶段:周折负样本增强指示微调
365站群在完成文本判别学问蒸馏截断的西席后,UniME 已经具备了初步的判别才调但发挥出较弱的视觉敏锐性,这种不敏锐导致图文对皆出现偏差,并放置了判别性能。
此外,第一阶段使用的通用指示指示放置了 UniME 在复杂检索任务中的效用。
针孔摄像头酒店偷拍ID为了惩处这些放置,议论东说念主员引入了一个迥殊的周折负例增强指示转念阶段,该阶段目标在于:
针孔摄像头酒店偷拍ID1. 进一步增强模子判别才调。
针孔摄像头酒店偷拍ID2. 改善模子跨模态对皆。
针孔摄像头酒店偷拍ID3. 加强下贱任务中的指示伴随才调。
针孔摄像头酒店偷拍ID
△周折负样本增强指示微调阶段的框架
针孔摄像头酒店偷拍ID装假负样本期凌
针孔摄像头酒店偷拍ID西席批次中装假负样本的存在妨碍了在表率 InfoNCE 赔本下有用分离周折负样本。
为了缓解这一问题,团队引入了一个基于 Query 和正样本相似度阈值的过滤机制,界说为:,其中是用来戒指阈值范畴的超参数。
在西席时期,摈弃总共与 Query 相似度当先的负样原本过滤装假负样本同期保留具有挑战性的周折负样本。
针孔摄像头酒店偷拍ID周折负样本采样
针孔摄像头酒店偷拍ID周折负样本在标签上与正样本不同但在向量空间中相等接近,这类具有挑战性的样本不祥在对比学习经过中权臣增强模子的判别才调。
比较之下,浅陋负样本产生的梯度微不及说念,对学习经过的孝顺极小。
因此团队建议一种周折负样本采样政策,旨在优化西席效用和判别性能。
由于文本判别学问蒸馏阶段之后 UniME 已经具备了初步的判别才调,在此才调基础上,议论东说念主员在每个西席批次中抽样个对应的周折负样本,如下所示:
针孔摄像头酒店偷拍ID其中庸分别暗示经过筛选的装假负样本候选和正样本候选,是查询镶嵌,暗示总共候选镶嵌,函数计较成对相似度得分,弃取得分最高的前个候选动作周折负例。
西席所在
在获取了查询的镶嵌()、正样本候选()和周折负样本候选()后,咱们使用噪声对比预计(InfoNCE)赔本对批次内采样的周折负样本进行如下处理:
其中暗示总共周折负例的网络,是一个温度超参数。
针孔摄像头酒店偷拍ID西席食谱
针孔摄像头酒店偷拍ID第一阶段:文本判别学问蒸馏
团队聘用 QLoRA 对大型说话模子组件进行参数高效的微调。
这一阶段仅使用纯文本输入并仅西席小数的参数(不时失当先总和的 5%),完好西席 Phi3.5-V 和 LLaVA-1.6 分别需要大要 1 小时和 2 小时。
第二阶段:周折负样本增强指示微调
为了克服较多量量 MLLM 西席时的 GPU 内存放置,议论东说念主员聘用了两种政策:
针孔摄像头酒店偷拍ID参照 VLM2Vec,使用了 GradCache 梯度缓存技艺将对比损左计较和编码器更新的反向传播分离;
聘用 QLoRA 对 MLLM 内总共参数进行参数高效的微调。
针孔摄像头酒店偷拍ID针孔摄像头酒店偷拍将这两种政策进行组合有用地促进了西席效用同期权臣镌汰西席时的内存支拨。
针孔摄像头酒店偷拍ID实战性能全考证西席数据
议论东说念主员在第一阶段的文本判别学问蒸馏中使用了 Natural Language Inference ( NLI ) 数据集,该数据集包含约 273k 个句子对。
关于周折负例增强指示调优阶段,使用了 MMEB 基准提供的西席数据集,涵盖了四个中枢多模态任务:分类、视觉问答、多模态检索和视觉定位。
这一全面的西席语料库,投合了单模态和多模态输入数据,算计 662k 经过经心筹备的西席对,确保了模子在种种化的多模态任务中的慎重合适。
下贱评测
团队评估了 MMEB 中的散播内(20 个测试集)和散播外(16 个测试集)基准,以评估 UniME 在种种化检索任务中的多模态镶嵌才调。
为了进一步磨砺 UniME 的单模态镶嵌性能,议论东说念主员在多个跨模态检索任务上进行了实验,包括短标题图文检索(Flickr30K 和 COCO2014),长标题图文检索(ShareGPT4V 和 Urban1K),以及组合式检索(SugarCrepe)。
实验扫尾
多模态检索
在表 1 中,展示了 UniME 与现存基线模子的性能对比,其中 IND 代表散播内数据集,OOD 代表散播外数据集,阐明的分数是相应数据集上平均精准度,最好扫尾用粗体标出,†暗示仅文本判别蒸馏的 UniME,‡暗示文本判别蒸馏和周折负样本增强指示调优的 UniME。
针孔摄像头酒店偷拍ID针孔摄像头酒店偷拍ID
△表 1:MMEB 基准测试扫尾
在疏通的西席数据和成就设立下,UniME 比较 E5-V 在不同的基础模子上永恒展示出权臣的性能升迁。
针孔摄像头酒店偷拍使用 Phi3.5-V 模子时,UniME 的平均性能提高了 4.2%;聘用 LLaVA-1.6 动作基础模子时,UniME 的平均性能进一步提高了 4.1%。
针孔摄像头酒店偷拍ID这些权臣的性能升迁主要归功于团队建议的文本判别学问蒸馏递次不错更有用地增强 MLLM 中 LLM 说话组件的判别才调。

如图所示,团队立地从 COCO 中弃取 50 个样本,并可视化跨模态余弦相似度矩阵。
针孔摄像头酒店偷拍ID针孔摄像头酒店偷拍ID与 E5-V 比较,UniME 矩阵的对角线了了度权臣增强,标明 UniME 学习到了更具判别性的表征。
在周折负样本增强指示微调之后,UniME 的镶嵌判别才调进一步提高。
针孔摄像头酒店偷拍ID与 VLM2Vec 比较,UniME 在 Phi3.5-V 和 LLaVA-1.6 基础模子上分别已矣了 1.3% 和 10.3% 的性能升迁。
针孔摄像头酒店偷拍ID短 - 长标题跨模态检索
如表 2 所示,团队在零样本跨模态检索任务上评估了 UniME。

△表 2:零样本文本 - 图像检索的扫尾
起始,在短标题数据集 Flickr30K 和 MSCOCO 上进行实验。
针孔摄像头酒店偷拍ID针孔摄像头酒店偷拍ID在文本判别学问蒸馏阶段之后,UniME 的检索性能与 E5-V 十分。
随后的周折负例增强指示调优进一步升迁了 UniME 的发挥,相较于 VLM2Vec 提高了 5.2%-11.3%。
针孔摄像头酒店偷拍ID针孔摄像头酒店偷拍ID迷水商城关于在 ShareGPT4V 和 Urban1K 数据集上的长标题检索任务,UniME 在总共方针上均发挥出优厚性能。
在文本判别蒸馏阶段后,基于 Phi3.5-V 模子 UniME 展示了 1.3%-3.8% 的性能升迁。
针孔摄像头酒店偷拍ID随后通过周折负例增强指示调优的进一步增强,UniME 相较于 VLM2Vec 提高了 2.0%-8.3%。
针孔摄像头酒店偷拍ID值得贯注的是,与 EVA-CLIP ( 8B ) 比较,UniME 在 Urban1K 数据集上的长标题检索中,性能升迁了 14.8% 和 18.1%。
这一权臣增强主要源于 EVA-CLIP ( 8B ) 受 77 文本输入令牌长度的放置,从而严重破损了其传达长标题完好语义信息的才调。
跨模态组合检索
团队在组合一语气基准 SugarCrepe 上评估了 UniME 模子分离周折负样本的才调。
针孔摄像头酒店偷拍ID如表 2 所示,UniME 在总共评估方针上均展示出最好扫尾。
在文本判别学问蒸馏后,基于 Phi3.5-V 的 UniME 在干系替换、对象交换和属性添加任务平分别比 E5-V 发挥出 2.0%、1.0% 和 15.9% 的性能升迁。
在第二阶段周折负例增强指示微调后,UniME 的组合一语气才调得到进一步增强,与 VLM2Vec 比较分别已矣了 3.9%、4.2% 和 9.1% 的性能升迁。
此外,与 EVA-CLIP ( 8B ) 比较,UniME 在这些任务上也流表示了 4.2%、0.6% 和 6.6% 的升迁,突显了其在分离周折负例方面的纷乱才调。
消融实验
周折负样天职析
不才图中,展示了三种类型负样本的西席损成仇编著前梯度范数:浅陋负样本(批次中最不相似的样本),立地负样本(批次中立地采样的负样本),以及周折负样本(在移除正例和假负例后批次中最相似的负样本)。

由于就浅陋负样本容易分离,模子通过学习这类数据很难增强其判别才调,因此西席赔本飞速料理到接近零。
针孔摄像头酒店偷拍ID使用立地负样本,西席赔本比浅陋负样本料理更慢,但最终接近零。
比较之下,周折负样本带来更大的挑战,使得西席赔本永恒保捏在较高水平。
相应地,浅陋负样本的梯度范数最小,而周折负样本的梯度范数昭彰更高,出入数个数目级。
西席阶段的消融
迷水商城团队基于 Phi3.5-V 来对不同西席阶段进行了消融议论。
针孔摄像头酒店偷拍ID针孔摄像头酒店偷拍ID
△表 3:不同西席阶段的消融议论
如表 3 所示,Phi3.5-V 的开动镶嵌判别才调很弱。
在经过文本判别学问蒸馏后,模子在 MMEB 基准、口角标题跨模态检索和组合检索任务上分别赢得了 15%、19.5%、24.9%和 19.9%的性能升迁。
如果仅进行第二阶段负样本增强指示微调,并吞任务的性能升迁分别为 38.5%、17.3%、21.3%和 14.0%。
值得贯注的是,第二阶段在 MMEB 基准的性能升迁昭彰当先第一阶段,主若是由于模子在撤职下贱任务复杂指示方面的才调得到了改善。
通过整合两个西席阶段,UniME 模子在总共评估的下贱任务中已矣了最好性能。
输出散播的可视化
为了进一步探索 UniME 镶嵌拿获的语义抒发,使用此指示" Summary above image in one word: n ",并不才图中展示了不同西席阶段之前和之后,top-k 下一个展望词汇的展望概率。

团队不雅察到,在西席之前,展望的词汇更轮廓,如" Pastoral "和" Peaceful "。
经过文本判别学问蒸馏后,词汇转向更具体的语义,包括" cow "、" waterfront "和" house ",尽管概率散播仍主要鸠合在" Farm "。
在第二阶段周折负样本增强指示微调后,概率散播在与图像语义一致的多个词汇上变得愈加均匀,从而使镶嵌不祥更准确地抒发图像的语义内容,并增强其判别才调。
论文继续:https://arxiv.org/pdf/2504.17432
代码继续:https://github.com/deepglint/UniME
形势继续:https://garygutc.github.io/UniME
针孔摄像头酒店偷拍ID模子继续:https://huggingface.co/DeepGlint-AI/UniME-LLaVA-OneVision-7B
针孔摄像头酒店偷拍ID魔搭社区:https://www.modelscope.cn/models/deepglint/UniME
针孔摄像头酒店偷拍ID迷水商城一键三连「点赞」「转发」「注意心」
接待在褒贬区留住你的思法!
— 完 —
� � 点亮星标 � �
针孔摄像头酒店偷拍ID科技前沿进展逐日见