Figure Metadata Extraction from Digital Documents

Academic papers contain multiple figures (information graphics) representing important findings and experimental results. Automatic data extraction from such figures and classification of information graphics is not straightforward and a well studied problem in document analysis cite{4275059}. Also,...

Full description

Saved in:

Bibliographic Details
Published in	2013 12th International Conference on Document Analysis and Recognition pp. 135 - 139
Main Authors	Choudhury, Sagnik Ray, Mitra, Prasenjit, Kirk, Andi, Szep, Silvia, Pellegrino, Donald, Jones, Sue, Giles, C. Lee
Format	Conference Proceeding
Language	English
Published	IEEE 01.08.2013
Subjects	Accuracy Data mining Feature extraction information extraction Layout Libraries metadata based figure search Portable document format Search engines
Online Access	Get full text

Cover

Loading…

More Information
Summary:	Academic papers contain multiple figures (information graphics) representing important findings and experimental results. Automatic data extraction from such figures and classification of information graphics is not straightforward and a well studied problem in document analysis cite{4275059}. Also, very few digital library search engines index figures and/or associated metadata (figure caption) from PDF documents. We describe the very first step in indexing, classification and data extraction from figures in PDF documents - accurate automatic extraction of figures and associated metadata, a nontrivial task. Document layout, font information, lexical and linguistic features for figure caption extraction from PDF documents is considered for both rule based and machine learning based approaches. We also describe a digital library search engine that indexes figure captions and mentions from 150K documents, extracted by our custom built extractor.
ISSN:	1520-5363 2379-2140
DOI:	10.1109/ICDAR.2013.34