面向属性识别和组合检索的区域感知时尚对比学习
TP391.4; 服装属性识别已成为一项关键技术,使用户能够自动识别服装的特征,并搜索具有相似属性的服装图片.然而,现有方法无法识别新添加的属性,并且可能无法捕获区域级别视觉特征.为解决上述问题,该研究提出一种区域感知时尚对比语言图像预训练(region-aware fashion contrastive language-image pre-training,RaF-CLIP)模型.该模型将裁剪和分割的图像与类别和多个细粒度属性文本进行对齐,通过对比学习实现时尚区域与相应文本的匹配.服装检索基于用户指定的服装类别和属性来找到合适的服装,为进一步提高检索的准确性,该研究在RaF-CLIP模型上...
Saved in:
Published in | 东华大学学报(英文版) Vol. 41; no. 4; pp. 405 - 415 |
---|---|
Main Authors | , |
Format | Journal Article |
Language | Chinese |
Published |
东华大学信息科学与技术学院,上海 201620
2024
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | TP391.4; 服装属性识别已成为一项关键技术,使用户能够自动识别服装的特征,并搜索具有相似属性的服装图片.然而,现有方法无法识别新添加的属性,并且可能无法捕获区域级别视觉特征.为解决上述问题,该研究提出一种区域感知时尚对比语言图像预训练(region-aware fashion contrastive language-image pre-training,RaF-CLIP)模型.该模型将裁剪和分割的图像与类别和多个细粒度属性文本进行对齐,通过对比学习实现时尚区域与相应文本的匹配.服装检索基于用户指定的服装类别和属性来找到合适的服装,为进一步提高检索的准确性,该研究在RaF-CLIP模型上引入属性引导的组合网络(attribute-guided composed network,AGCN),并将其作为附加组件,专用于组合图像检索任务.该任务旨在根据文本表达修改参考图像以检索预期的目标.通过采用基于transformer的双向注意力和门控机制,该网络实现了图像特征和属性文本特征的融合与选择.试验结果表明,所提出的模型在属性识别任务中平均精度达到0.663 3,在组合图像检索任务中recall@10(recall@k表示正确样本出现在前k个检索结果中的百分比)指标达到39.18,满足用户通过图像和文本自由搜索服装的需求. |
---|---|
ISSN: | 1672-5220 |
DOI: | 10.19884/j.1672-5220.202405006 |