Verbesserung der OCR in digitalen Sammlungen von Bibliotheken

Konstantin Baierer, Philipp Zumstein

Abstract

Möglichkeiten zur Verbesserung der automatischen Texterkennung (OCR) in digitalen Sammlungen insbesondere durch computerlinguistische Methoden werden beschrieben und bisherige PostOCR-Verfahren analysiert. Im Gegensatz zu diesen Möglichkeiten aus der Forschung oder aus einzelnen Projekten unterscheidet sich die momentane Anwendung von OCR in der Bibliothekspraxis wesentlich und nutzt das Potential nur teilweise aus.

Possibilities for improving the optical character recognition (OCR) in digital collections in particular by using computationally linguistical methods are described and previous PostOCR-techniques are analyzed. On contrast to these methods from the research and single projects, the current use of OCR in library practice differs essentially and does use its potential only partially.

Volltext:

PDF HTML