面向属性识别和组合检索的区域感知时尚对比学习

TP391.4; 服装属性识别已成为一项关键技术,使用户能够自动识别服装的特征,并搜索具有相似属性的服装图片.然而,现有方法无法识别新添加的属性,并且可能无法捕获区域级别视觉特征.为解决上述问题,该研究提出一种区域感知时尚对比语言图像预训练(region-aware fashion contrastive language-image pre-training,RaF-CLIP)模型.该模型将裁剪和分割的图像与类别和多个细粒度属性文本进行对齐,通过对比学习实现时尚区域与相应文本的匹配.服装检索基于用户指定的服装类别和属性来找到合适的服装,为进一步提高检索的准确性,该研究在RaF-CLIP模型上...

Full description

Saved in:

Bibliographic Details
Published in	东华大学学报（英文版） Vol. 41; no. 4; pp. 405 - 415
Main Authors	王康平, 赵鸣博
Format	Journal Article
Language	Chinese
Published	东华大学信息科学与技术学院,上海 201620 2024
Subjects	图像检索 contrastive language-image pre-training(CLIP) attribute recognition transformer image retrieval 属性识别对比语言图像预训练(CLIP) 图像文本匹配 image text matching
Online Access	Get full text

Cover

Loading…

More Information
Summary:	TP391.4; 服装属性识别已成为一项关键技术,使用户能够自动识别服装的特征,并搜索具有相似属性的服装图片.然而,现有方法无法识别新添加的属性,并且可能无法捕获区域级别视觉特征.为解决上述问题,该研究提出一种区域感知时尚对比语言图像预训练(region-aware fashion contrastive language-image pre-training,RaF-CLIP)模型.该模型将裁剪和分割的图像与类别和多个细粒度属性文本进行对齐,通过对比学习实现时尚区域与相应文本的匹配.服装检索基于用户指定的服装类别和属性来找到合适的服装,为进一步提高检索的准确性,该研究在RaF-CLIP模型上引入属性引导的组合网络(attribute-guided composed network,AGCN),并将其作为附加组件,专用于组合图像检索任务.该任务旨在根据文本表达修改参考图像以检索预期的目标.通过采用基于transformer的双向注意力和门控机制,该网络实现了图像特征和属性文本特征的融合与选择.试验结果表明,所提出的模型在属性识别任务中平均精度达到0.663 3,在组合图像检索任务中recall@10(recall@k表示正确样本出现在前k个检索结果中的百分比)指标达到39.18,满足用户通过图像和文本自由搜索服装的需求.
ISSN:	1672-5220
DOI:	10.19884/j.1672-5220.202405006