Navigationsmenü anzeigen Navigationsmenü verbergen
Da-TeX-Logo und Illustration mit Buch und Maus
Da-TeX / Leistungen / Texterfassung/OCR

Texterfassung und OCR

Das Thema Texterfassung taucht regelmäßig dann auf, wenn ältere Dokumente wieder veröffentlicht werden sollen.

Folgende Szenarien sind denkbar:

  • es gibt nur noch ein Buch oder einen Ausdruck
  • die Daten der Vorauflage existieren zwar noch, sind aber für die Weiterverarbeitung nicht brauchbar. Zum Beispiel könnten ausschließlich Postscript Daten vorhanden sein.
  • ein Autor liefert ein handschriftliches Manuskript
  • posthume Veröffentlichungen von Vorlesungen

Um Ihnen die Umsetzung solcher Projekte zu ermöglichen, haben wir verschiedene Varianten erarbeitet.

Diese reichen von

  • einfachem Abschreiben
  • über Doppelerfassung und anschließendem Vergleich
  • bis zum Scannen und zur Erfassung mit OCR

Welche Variante für Sie die beste ist, lässt sich pauschal nicht sagen. Hier ist immer ein Test notwendig.

Diese Tests führen wir sehr kurzfristig durch, damit Sie schnell entscheiden können, ob dieses Projekt realisiert werden kann.

Was ist OCR?

OCR steht für Optical Character Recognition, zu deutsch optische Zeichenerkennung. Hierbei wird in der Regel ein Text gescannt und dieser dann durch ein spezielles Programm verarbeitet. Als Ergebnis wird meist eine MS-Word-Datei gewünscht, es sind aber auch andere Datei-Formate möglich. Sprechen Sie uns diesbezüglich an.

Problematische Texte

Als problematisch für die OCR-Erfassung können folgende Aspekte gesehen werden:

  • mathematische und chemische Formeln
  • Frakturschrift
  • sehr holzhaltiges Papier
  • ...

Beispiel für eine Erfassung mit OCR

Original als Grafik

Orignal als Bild

umgewandelt in Text

umgewandelter in Text