基于改进区域候选网络的场景文本检测

TP391; 自然场景中的文本图像具有十分复杂多变的特征,使用区域候选网络(Region Proposal Network,RPN)提取文本矩形位置候选框是不可或缺的一个步骤,能够极大地提升文本检测的精度.然而最近的研究表明,通过最小化平滑的L1损失函数来回归矩形候选框中心点、宽和高的方式容易产生边界信息缺失、回归不准确等问题.针对这一问题,提出了一种基于改进区域候选网络的场景文本检测模型.首先,使用残差网络和特征金字塔网络组成的骨干网络生成共享特征图.然后,使用改进的回归取点方式和基于顶点的VIOU损失函数(Vertex-IOU)在共享特征图上生成系列文本矩形候选框.接着,使用ROI Ali...

Full description

Saved in:

Bibliographic Details
Published in	计算机科学 Vol. 50; no. 2; pp. 201 - 208
Main Authors	李俊林, 欧阳智, 杜逆索
Format	Journal Article
Language	Chinese
Published	贵州大学贵州省大数据产业发展应用研究院贵阳550025 2023 贵州大学计算机科学与技术学院贵阳550025%贵州大学贵州省大数据产业发展应用研究院贵阳550025%贵州大学计算机科学与技术学院贵阳550025
Subjects	损失函数场景文本检测回归方式深度学习区域候选网络
Online Access	Get full text

Cover

Loading…

More Information
Summary:	TP391; 自然场景中的文本图像具有十分复杂多变的特征,使用区域候选网络(Region Proposal Network,RPN)提取文本矩形位置候选框是不可或缺的一个步骤,能够极大地提升文本检测的精度.然而最近的研究表明,通过最小化平滑的L1损失函数来回归矩形候选框中心点、宽和高的方式容易产生边界信息缺失、回归不准确等问题.针对这一问题,提出了一种基于改进区域候选网络的场景文本检测模型.首先,使用残差网络和特征金字塔网络组成的骨干网络生成共享特征图.然后,使用改进的回归取点方式和基于顶点的VIOU损失函数(Vertex-IOU)在共享特征图上生成系列文本矩形候选框.接着,使用ROI Align将这些候选框转化为固定大小的特征图在全连接层进行边界框预测.最后,在ICDAR2015数据集上进行对比实验,结果表明,与其他模型相比,所提模型可以提升检测精度,证明了所提模型的有效性.
ISSN:	1002-137X
DOI:	10.11896/jsjkx.211000191