Exploring Sparse Spatial Relation in Graph Inference for Text-Based VQA

Text-based visual question answering (TextVQA) faces the significant challenge of avoiding redundant relational inference. To be specific, a large number of detected objects and optical character recognition (OCR) tokens result in rich visual relationships. Existing works take all visual relationshi...

Full description

Saved in:

Bibliographic Details
Published in	IEEE transactions on image processing Vol. 32; pp. 5060 - 5074
Main Authors	Zhou, Sheng, Guo, Dan, Li, Jia, Yang, Xun, Wang, Meng
Format	Journal Article
Language	English
Published	New York IEEE 2023 The Institute of Electrical and Electronics Engineers, Inc. (IEEE)
Subjects	Cognition Computational modeling graph inference Inference Learning Optical character recognition Predictions Pruning Question answering (information retrieval) Reasoning relation learning spatial relation Task analysis text-based visual question answering Transformers Visual observation Visual question answering Visualization
Online Access	Get full text

Cover

Loading…

Be the first to leave a comment!