基于增强视觉Transformer的哈希食品图像检索
S126; 作为食品计算的一个主要任务,食品图像检索近年来受到了广泛的关注.然而,食品图像检索面临着两个主要的挑战.首先,食品图像具有细粒度的特点,这意味着不同食品类别之间的视觉差异可能很小,这些差异只能在图像的局部区域中观察到.其次,食品图像包含丰富的语义信息,如食材、烹饪方式等,这些信息的提取和利用对于提高检索性能至关重要.为解决这些问题,本实验基于预训练的视觉Transformer(Vision Transformer,ViT)模型提出了一种增强ViT的哈希网络(enhanced ViT hash network,EVHNet).针对食品图像的细粒度特点,EVHNet中设计了一个基于卷积...
Saved in:
Published in | 食品科学 Vol. 45; no. 10; pp. 1 - 8 |
---|---|
Main Authors | , , , , , , |
Format | Magazine Article |
Language | Chinese |
Published |
鲁东大学信息与电气工程学院,山东烟台 264025%中国科学院计算技术研究所,北京 100190%中国人民大学农业与农村发展学院,北京 100872
25.05.2024
|
Subjects | |
Online Access | Get full text |
ISSN | 1002-6630 |
DOI | 10.7506/spkx1002-6630-20231231-270 |
Cover
Summary: | S126; 作为食品计算的一个主要任务,食品图像检索近年来受到了广泛的关注.然而,食品图像检索面临着两个主要的挑战.首先,食品图像具有细粒度的特点,这意味着不同食品类别之间的视觉差异可能很小,这些差异只能在图像的局部区域中观察到.其次,食品图像包含丰富的语义信息,如食材、烹饪方式等,这些信息的提取和利用对于提高检索性能至关重要.为解决这些问题,本实验基于预训练的视觉Transformer(Vision Transformer,ViT)模型提出了一种增强ViT的哈希网络(enhanced ViT hash network,EVHNet).针对食品图像的细粒度特点,EVHNet中设计了一个基于卷积结构的局部特征增强模块,使网络能够学习到更具有代表性的特征.为更好地利用食品图像的语义信息,EVHNet中还设计了一个聚合语义特征模块,根据类令牌特征来聚合食品图像中的语义信息.本实验提出的EVHNet模型在贪婪哈希、中心相似量化和深度极化网络3种流行的哈希图像检索框架下进行评估,并与AlexNet,ResNet50、ViT-B_32和ViT-B_16 4 种主流网络模型进行比较,在Food-101、Vireo Food-172、UEC Food-256 3个食品数据集上的实验结果表明,EVHNet模型在检索精度上的综合性能优于其他模型. |
---|---|
ISSN: | 1002-6630 |
DOI: | 10.7506/spkx1002-6630-20231231-270 |