SEGMENTATION OF A WORD BITMAP INTO INDIVIDUAL CHARACTERS OR GLYPHS DURING AN OCR PROCESS
An image processing apparatus is provided that includes a character chopper component that segments words into individual characters in a bitmap of a textual image undergoing an OCR process. The Character chopper component is configured to produce a set of (possibly curved) chop-lines which divide a...
Saved in:
Main Author | |
---|---|
Format | Patent |
Language | English French |
Published |
17.11.2011
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | An image processing apparatus is provided that includes a character chopper component that segments words into individual characters in a bitmap of a textual image undergoing an OCR process. The Character chopper component is configured to produce a set of (possibly curved) chop-lines which divide a bitmap of any given word into its individual character or glyph candidates. Cases where an input bitmap contains two separate words are handled by marking a place where those words should be split. The character segmentation algorithm computes the set of vertically oriented, curved chop-lines by considering glyph and background colors in a given word bitmap. The set is filtered afterwards using various heuristics, in order to preserve those lines that indeed do separate a word's glyphs and minimize the number of those that do not.
L'invention concerne un appareil de traitement d'images comprenant un composant de découpage de caractères qui segmente des mots en des caractères individuels dans une représentation binaire d'une image textuelle soumise à un traitement de reconnaissance optique de caractères (OCR pour Optical Character Recognition). Le composant découpeur de caractères est configuré pour produire un ensemble de lignes de découpage (éventuellement incurvées) qui divise une représentation binaire d'un mot donné quelconque en ses caractères ou glyphes candidats individuels. Les cas dans lesquels une représentation binaire d'entrée contient deux mots séparés sont traités en marquant l'endroit où ces mots doivent être séparés. L'algorithme de segmentation des caractères calcule l'ensemble de lignes de découpage incurvées et orientées verticalement en tenant compte des couleurs des glyphes et de l'arrière-plan dans une représentation binaire donnée d'un mot. L'ensemble est ensuite filtré à l'aide de diverses heuristiques afin de conserver les lignes qui séparent effectivement les glyphes d'un mot et qui minimisent le nombre de celles qui ne le permettent pas. |
---|---|
Bibliography: | Application Number: WO2011US34242 |