您的位置:首页 >精选知识 >正文

跨模式检索的充分对齐和交互

摘要 随着社交网络的普及,图像、文本、音频等不同形态的数据在互联网上迅速增长。随后,跨模态检索成为各种应用中的一项基本任务,并近年来受到...

随着社交网络的普及,图像、文本、音频等不同形态的数据在互联网上迅速增长。随后,跨模态检索成为各种应用中的一项基本任务,并近年来受到了极大的关注。跨模态检索的核心思想是学习不同模态(例如,视觉和文本数据)之间的准确且可概括的对齐,以便可以使用来自另一种模态的查询在一种模态中正确检索语义相似的对象。

本文提出了一种跨模态检索的新颖框架,旨在对不同模态的聚合特征进行充分的对齐和交互,以有效地弥合模态差距。所提出的框架包含两个关键组件:精心设计的对齐模块和新颖的多模态融合编码器。具体来说,我们利用图像/文本编码器从输入图像/文本中提取一组特征,并维护与图像/文本编码器对应的动量编码器,为模型训练提供丰富的负样本。受到最近特征聚合工作的启发,我们采用了广义池化算子(GPO)的设计来提高全局表示的质量。为了确保模型学习充分对齐的关系,我们引入了一个具有三个目标的对齐模块:图像文本对比学习(ITC)、模态内可分离性(IMS)和局部互信息最大化(LMIM)。ITC鼓励模型分离不匹配的图像-文本对并合并匹配的图像-文本对的嵌入。 IMS使模型能够学习能够使用相同模态区分不同对象的表示,这可以在一定程度上缓解表示退化的问题。 LMIM 鼓励模型最大化全局表示(聚合特征)和局部区域特征(例如图像块或文本标记)之间的互信息,旨在捕获所有区域之间的共享信息,而不是受到某些噪声区域的影响。为了赋予模型探索不同模态之间交互信息的能力,我们在模型末尾加入了多模态融合编码器,以在跨模态对齐后执行不同模态之间的交互。

版权声明:本文由用户上传,如有侵权请联系删除!