
九州酷游(中国)官方网站实|本溪棋牌|时热点必发官网_社会新闻_大众网
2025.05.16
九州ku酷游电子科技
工业计算机ku酷游平台官方入口ღ★ღ。九洲KU游备用ღ★ღ!格灵深瞳ღ★ღ、阿里ModelScope团队ღ★ღ,以及通义实验室机器智能团队联合发布通用多模态嵌入新框架UniMEღ★ღ,一经推出就刷新MMEB训练榜纪录ღ★ღ。
UniME作为一个创新性的两阶段框架ღ★ღ,所展现的卓越的组合理解力ღ★ღ,帮助MLLMs具备学习适用于各种下游任务的判别性表征的能力ღ★ღ,并在多个任务中达到了新的SOTAღ★ღ。
受E5V等之前研究的启发ღ★ღ,研究团队第一阶段选择使用纯文本数据来增强了MLLM中LLM语言组件的嵌入能力ღ★ღ。
从最先进的基于LLM的嵌入模型NV-Embed V2(该模型在对比训练中移除了因果注意力掩码并使用多个多样化的数据集进行训练)中转移知识ღ★ღ。
通过在一个批次内不同样本之间的关系蒸馏ღ★ღ,该方法在相同数据和训练条件下相较于直接使用对比学习在下游任务中展示出显著的性能提升ღ★ღ。
在训练阶段ღ★ღ,此方法仅使用纯文本输入ღ★ღ,并单独优化多模态语言模型架构中的语言模型组件ღ★ღ,同时保持其他参数不变ღ★ღ。
对于图文交错的输入ღ★ღ,独立处理每种模态及其相应的提示ღ★ღ,并通过元素级求和聚合嵌入从而得到最终的多模态表示ღ★ღ。
在完成文本判别知识蒸馏截断的训练后ღ★ღ,UniME已经具备了初步的判别能力但表现出较弱的视觉敏感性本溪棋牌ღ★ღ,这种不敏感导致图文对齐出现偏差ღ★ღ,并限制了判别性能九州酷游(中国)官方网站ღ★ღ。
1. 进一步增强模型判别能力ღ★ღ。2. 改善模型跨模态对齐ღ★ღ。3. 加强下游任务中的指令跟随能力ღ★ღ。
困难负样本在标签上与正样本不同但在向量空间中非常接近ღ★ღ,这类具有挑战性的样本能够在对比学习过程中显著增强模型的判别能力ღ★ღ。
这一阶段仅使用纯文本输入并仅训练极少的参数(通常不超过总数的5%)ღ★ღ,完整训练Phi3.5-V和LLaVA-1.6分别需要大约1小时和2小时ღ★ღ。
参照VLM2Vecღ★ღ,使用了GradCache梯度缓存技术将对比损失计算和编码器更新的反向传播分离ღ★ღ;采用QLoRA对MLLM内所有参数进行参数高效的微调ღ★ღ。
研究人员在第一阶段的文本判别知识蒸馏中使用了Natural Language Inference(NLI)数据集ღ★ღ,该数据集包含约273k个句子对本溪棋牌ღ★ღ。
对于困难负例增强指令调优阶段ღ★ღ,使用了MMEB基准提供的训练数据集ღ★ღ,涵盖了四个核心多模态任务ღ★ღ:分类ღ★ღ、视觉问答ღ★ღ、多模态检索和视觉定位ღ★ღ。
这一全面的训练语料库ღ★ღ,结合了单模态和多模态输入数据ღ★ღ,共计662k经过精心策划的训练对ღ★ღ,确保了模型在多样化的多模态任务中的稳健适应ღ★ღ。
团队评估了MMEB中的分布内(20个测试集)和分布外(16个测试集)基准ღ★ღ,以评估UniME在多样化检索任务中的多模态嵌入能力ღ★ღ。
为了进一步检验UniME的单模态嵌入性能ღ★ღ,研究人员在多个跨模态检索任务上进行了实验ღ★ღ,包括短标题图文检索(Flickr30K和COCO2014)ღ★ღ,长标题图文检索(ShareGPT4V和Urban1K)ღ★ღ,以及组合式检索(SugarCrepe)ღ★ღ。
在表1中ღ★ღ,展示了UniME与现有基线模型的性能对比ღ★ღ,其中IND代表分布内数据集ღ★ღ,OOD代表分布外数据集ღ★ღ,报告的分数是相应数据集上平均精确度ღ★ღ,最佳结果用粗体标出ღ★ღ,†表示仅文本判别蒸馏的UniMEღ★ღ,‡表示文本判别蒸馏和困难负样本增强指令调优的UniMEღ★ღ。
在相同的训练数据和配置设置下ღ★ღ,UniME相比E5-V在不同的基础模型上始终展示出显著的性能提升ღ★ღ。
使用Phi3.5-V模型时ღ★ღ,UniME的平均性能提高了4.2%ღ★ღ;采用LLaVA-1.6作为基础模型时ღ★ღ,UniME的平均性能进一步提高了4.1%ღ★ღ。
这些显著的性能提升主要归功于团队提出的文本判别知识蒸馏方法可以更有效地增强MLLM中LLM语言组件的判别能力ღ★ღ。
与E5-V相比ღ★ღ,UniME矩阵的对角线清晰度显著增强ღ★ღ,表明UniME学习到了更具判别性的表征ღ★ღ。
随后的困难负例增强指令调优进一步提升了UniME的表现ღ★ღ,相较于VLM2Vec提高了5.2%-11.3%ღ★ღ。
对于在ShareGPT4V和Urban1K数据集上的长标题检索任务ღ★ღ,UniME在所有指标上均表现出优越性能ღ★ღ。
在文本判别蒸馏阶段后ღ★ღ,基于Phi3.5-V模型UniME展示了1.3%-3.8%的性能提升ღ★ღ。
随后通过困难负例增强指令调优的进一步增强ღ★ღ,UniME相较于VLM2Vec提高了2.0%-8.3%ღ★ღ。
这一显著增强主要源于EVA-CLIP(8B)受77文本输入令牌长度的限制ღ★ღ,从而严重阻碍了其传达长标题完整语义信息的能力ღ★ღ。
在文本判别知识蒸馏后ღ★ღ,基于Phi3.5-V的UniME在关系替换ღ★ღ、对象交换和属性添加任务中分别比E5-V表现出2.0%ღ★ღ、1.0%和15.9%的性能提升ღ★ღ。
在第二阶段困难负例增强指令微调后ღ★ღ,UniME的组合理解能力得到进一步增强ღ★ღ,与VLM2Vec相比分别实现了3.9%ღ★ღ、4.2%和9.1%的性能提升ღ★ღ。
此外ღ★ღ,与EVA-CLIP(8B)相比ღ★ღ,UniME在这些任务上也显示出了4.2%九州酷游(中国)官方网站ღ★ღ、0.6%和6.6%的提升ღ★ღ,凸显了其在区分困难负例方面的强大能力ღ★ღ。
在下图中ღ★ღ,展示了三种类型负样本的训练损失和裁剪前梯度范数ღ★ღ:简单负样本(批次中最不相似的样本)ღ★ღ,随机负样本(批次中随机采样的负样本)ღ★ღ,以及困难负样本(在移除正例和假负例后批次中最相似的负样本)ღ★ღ。
由于就简单负样本容易区分ღ★ღ,模型通过学习这类数据很难增强其判别能力本溪棋牌ღ★ღ,因此训练损失迅速收敛到接近零ღ★ღ。
在经过文本判别知识蒸馏后九州酷游(中国)官方网站ღ★ღ,模型在MMEB基准ღ★ღ、短长标题跨模态检索和组合检索任务上分别获得了15%ღ★ღ、19.5%ღ★ღ、24.9%和19.9%的性能提升ღ★ღ。
如果仅进行第二阶段负样本增强指令微调ღ★ღ,同一任务的性能提升分别为38.5%ღ★ღ、17.3%九州酷游(中国)官方网站ღ★ღ、21.3%和14.0%ღ★ღ。
值得注意的是ღ★ღ,第二阶段在MMEB基准的性能提升明显超过第一阶段九州酷游(中国)官方网站ღ★ღ,主要是由于模型在遵循下游任务复杂指令方面的能力得到了改善ღ★ღ。
为了进一步探索UniME嵌入捕获的语义表达ღ★ღ,使用此提示“ Summary above image in one word: \n”ღ★ღ,并在下图中展示了不同训练阶段之前和之后ღ★ღ,top-k下一个预测词汇的预测概率ღ★ღ。
经过文本判别知识蒸馏后ღ★ღ,词汇转向更具体的语义ღ★ღ,包括“cow”ღ★ღ、“waterfront”和“house”ღ★ღ,尽管概率分布仍主要集中在“Farm”ღ★ღ。
在第二阶段困难负样本增强指令微调后ღ★ღ,概率分布在与图像语义一致的多个词汇上变得更加均匀ღ★ღ,从而使嵌入能够更准确地表达图像的语义内容本溪棋牌ღ★ღ,并增强其判别能力ღ★ღ。
大家早上好!我是高一1班的ღ★ღ。今天我演讲的题目是《新学期ღ★ღ,新起点ღ★ღ,新希望——立志做一个快乐的人》ღ★ღ。
时事2ღ★ღ:云鼎在线日,如何预防亚硝酸盐中毒?|科普时间美民调ღ★ღ:超6成美国人称物价上涨让家庭面临经济困难,月是中秋明九州酷游(中国)官方网站ღ★ღ,情是中秋浓ღ★ღ,在这象征收获ღ★ღ、团圆和喜庆的日子里本溪棋牌ღ★ღ,让我们共同祝愿我们集团公司越来越强大ღ★ღ,祝愿我们酒店越来越美好ღ★ღ,祝愿我们的家人生活越来越幸福ღ★ღ,祝愿我们的明天更加辉煌灿烂!预祝今天的中秋晚会圆满成功!谢谢大家!,双赢棋牌网站,巴黎澳门人,捕鱼下载ღ★ღ。
一轮紫色的太阳横空ღ★ღ,离地三尺高ღ★ღ,自小孤山镇前冲过ღ★ღ,没入原始山林中ღ★ღ,正是朝着石村方向而去ღ★ღ。虽然一闪而逝ღ★ღ,但瞬间的恐怖气息扑过ღ★ღ,依旧让每一个人都战栗ღ★ღ!
05月04日,风雪无阻 乌鲁木齐国际陆港区人流物流畅行,毛球吱吱尖叫ღ★ღ,跳到了小不点的肩头ღ★ღ,冲着数十里外张牙舞爪ღ★ღ,焦躁不安ღ★ღ。,十大娱乐老平台,OD网页登陆,华体会最新版APPღ★ღ。
小不点迅速躲避ღ★ღ,落在一块上万斤的巨石后ღ★ღ,但是才伏下身子本溪棋牌ღ★ღ,这块巨石就“噗”的一声被击碎了ღ★ღ,乱石飞溅ღ★ღ。
05月04日,中粮集团原总工程师ღ★ღ、安全总监佟毅接受审查调查,过去的一年里ღ★ღ,全体会员怀着团结ღ★ღ、友谊ღ★ღ、和谐ღ★ღ、互进的信念ღ★ღ,为了共同的理想ღ★ღ,为了真挚的友谊ღ★ღ,为了热爱的事业本溪棋牌ღ★ღ,各抒己见ღ★ღ,建言献策ღ★ღ,出资出力ღ★ღ,为协会发展集聚了智慧和力量ღ★ღ,这些变化是全体成员共同努力的结果ღ★ღ。,英亚体育黑不黑,金沙js377首页登录,亚博注册ღ★ღ。
新闻信息服务许可证音像制品出版许可证广播电视节目制作经营许可证网络视听许可证网络文化经营许可证山东省互联网传媒集团主办联系电话 违法不良信息举报电话