Was leisten FineReader, Omnipage, ReadIris, um alte Texte zu digitalisieren?
Wer hat noch alte Schreibmaschinentexte? Wer kennt noch Ormig? Wie holt man diese Texte am besten in Microsoft Word? Schreibmaschinenschrift scheint einfach zu digitalisieren zu sein, aber der Teufel steckt im Detail bzw. mehr in den fehlenden Details. Wer Ormig digitalisieren will, hat es noch etwas schwerer.
Besonderheiten von Schreibmaschinentexten & Ormig-Kopien
Auf den ersten Blick sollte es für heutige Systeme ein Leichtes sein, Texte von Schreibmaschine oder Ormig zu digitalisieren, sind doch die Buchstaben und Zeilenabstände weit größer als bei manchem Kleingedruckten. Doch weit gefehlt. Hier lauern andere Schwierigkeiten.
Ormig ist ein analoges Kopierverfahren und laut Wikipedia das „DDR-Synonym für Hektographie, auch im Westen vorkommend, nach der (West-)Berliner Ormig Organisationsmittel GmbH“. Die Ormig-Kopien liefern blassblauen bis violetten Text, der oft auch ungleichmäßig wiedergegeben wurde und mit der Zeit weiter verblasst ist, während alte Papierseiten vergilben und sich so die Helligkeiten von Text und Untergrund annähern. Zudem stehen die Buchstaben von Schreibmaschinentexten nicht immer stabil auf der Grundlinie und sind teilweise verschmiert.
Schreibmaschinentext / Ormig digitalisieren – Geräte
Flachbettscanner: ein ordentlicher Flachbettscanner ist oft schon vorhanden oder für weniger als 200 Euro erhältlich, zum Beispiel der von mir verwendete Canon CanoScan 9000F MarkII. Grundsätzlich sollten sich die meisten Flachbettscanner dafür eignen. Ein kalibriertes Farbprofil ist nicht nötig.
Dokumentenscanner: Dokumentenscanner kosten schnell mal 500 Euro und eignen sich für Büros. Deren Vorteil ist die automatische Verarbeitung mehrerer Dokumente, was bei einer großen Seitenanzahl hilfreich ist. Allerdings sind die Ergebnisse nicht anders als beim Flachbettscanner. Zur zuverlässigen Texterkennung ist im Anschluss dort ebenfalls eine professionelle OCR-Software nötig. Verschiedene Testergebnisse von http://www.dokumentenscannertest.net/ der der Zeitschrift com! zeigen das.
Geht das auch mit Digitalkamera oder Smartphone? Naja, denkbar ist es. Der Ablauf ist aber umständlicher und fehleranfälliger, da zuerst eine Bilddatei erzeugt wird. Bereits bei der Aufnahme gibt es zusätzliche Fehler durch Beleuchtung, Reflexionen, Verzerrungen, die eine Texterkennung deutlich erschweren oder vorab zusätzliche Bildbearbeitung erfordern. Möglich ist es aber, etwa mit Finereader auch aus Fotos Texte zu extrahieren. Ein kurzer Test brachte aber auch nach Bildbearbeitung noch deutlich schlechtere Ergebnisse als der Flachbettscanner.
Schreibmaschinentext / Ormig digitalisieren – Ablauf
Einem direkten Scannen mit dem OCR-Programm ist immer der Vorzug zu gewähren. In diesem Fall lassen sich Ergebnisse gleich testen und ggf. Scan-Einstellungen anpassen. Bei gespeicherten Grafik-Dateien ist das später nicht mehr möglich. Zudem gehen bei einem komprimierten Verfahren wie JPG bereits wieder ein paar Informationen verloren. Im Beispiel mit Abbyy FineReader wählt man nach Programmstart oder dem Aufruf Neuer Task die Methode In Microsoft Word scannen aus.
Im nächsten Schritt sind die richtigen Scanner-Einstellungen vorzunehmen. Als Auflösung empfiehlt sich im Zweifelsfall 600dpi. Die Dauer von Scan und Texterkennung ist hier zwar etwas länger, aber die Fehleranfälligkeit auch geringer. Im getesteten Beispiel waren die Unterschiede aber sehr gering, so dass auch mit 300dpi ähnliche Ergebnisse zu erwarten sind. Man sollte ggf. selber testen und den passenderen Wert ermitteln. Als Scanmodus sollte man Graustufen (optimal für OCR) wählen. Diese Empfehlung ist richtig. Im Farbmodus erreicht der FineReader zwar ähnliche Ergebnisse, aber keine Verbesserung. Bei Schwarzweiß hingegen zerfallen die Buchstaben, so dass eine Texterkennung unmöglich ist.
Gegebenenfalls kann man noch die Helligkeit manuell nachregeln, was aber im Testversuch kaum Auswirkung hatte. Man sollte lediglich über die Vorschau kontrollieren, dass Text und Hintergrund eher in mittleren Graustufen verbleiben. Per Klick auf Scannen startet die Erfassung und nach Schließen die Texterkennung. Das Ergebnis ist in einer Vorschau sichtbar, wo fragwürdige Stellen markiert sind, und wird zudem sofort in einem neuen Word-Dokument geöffnet.
Grundsätzlich ähnlich funktioniert das auch bei Readiris Pro. Allerdings wird dort das Word-Dokument erst gespeichert. Überraschend bei der Geräteeinstellung ist, dass Readiris, obwohl das Programm auch von Canon stammt, ein beliebtes Scannermodell wie den CanoScan 9000F MarkII nicht in der Auswahlliste hat. Über Twain-Standard funktioniert das aber problemlos. Zur Einrichtung klickt man oben auf die Schaltfläche docx und prüft die Zieleinstellungen. Es sollte beim Layout die Option Originaldokument wiederherstellen aktiv sein. Darunter wählt man noch Spalten statt Rahmen anwenden und Spaltenwechsel einfügen, wenngleich das nicht immer klappt. Nun kann man mit dem Scannen beginnen. Im nächsten Dialog wählt man wieder den Farbmodus als Graustufen und die Ausgabeauflösung sicherheitshalber mit 600dpi. Per Vorschau lässt sich das Textbild kontrollieren und dann über einige Schaltflächen für Helligkeit, Farbton und Kurven noch dem Eindruck nach verbessern, bevor man zum Scannen schreitet. Im Test führte der optische besser Eindruck aber kaum zu einer besseren Texterkennung.
Testergebnisse der OCR-Software
Zum Test standen eine ordentlich aussehende Ormig-Kopie sowie eine Ormig mit deutlicher Blässe und Mängeln. Die erste Aufgabe erledigte FineReader recht ordentlich. Auf der Beispielseite mit 1535 Textzeichen meldete das Programm zwar in der Vorschau 135 fragwürdige Zeichen, letztlich waren aber nur 14 Stellen tatsächlich fehlerhaft und erforderten eine manuelle Korrektur. Eine Quote von rund 1% Fehlern wird wohl auch so mancher Schüler im Diktat nicht besser erreichen. Damit kann man arbeiten. Ob die Scans nun in Graustufen oder farbig erfolgen, mit Helligkeitskorrektur oder mit höherer Auflösung von 600dpi spielt fast keine Rolle für die Ergebnisse. Daher meine Empfehlung, scannen in Graustufen mit 600dpi ohne weitere Helligkeitskorrekturen.
Bei der gleichen Seite brachte es ReadIris allerdings auf 81 echte Fehler, die manuell korrigiert werden müssen. Das ist schon grenzwertig. Hinzu kommen wilde Formatierungswechsel. Etwas besser schlägt sich Omnipage mit 45 Fehlern und ebenfalls reichlich Formatierungen. Aber auch das genügt nicht.
Eine zweite Vorlage mit größeren Defiziten führte auch den FineReader an die Grenzen. Bei 1112 Zeichen waren 182 fragwürdig und am Ende 53 davon tatsächlich falsch. Das ist schon ärgerlich. Hier merkt man aber auch klar die Grenzen der Technik. Wo das menschliche Auge und Gehirn einen defekten Buchstaben problemlos richtig ersetzt, scheitert die OCR. Dieses Ergebnis kann nicht überzeugen, aber notfalls immer noch als Hilfe und Arbeitsgrundlage dienen.
ReadIris hat an der schwierigeren Vorlage total versagt. Ich habe mir nicht mehr die Mühe gemacht, die Fehler auszuzählen, denn gefühlt gab es hier mehr Fehler als richtige Zeichen – also OCR hier leider unbrauchbar. Auch geänderte Einstellungen bei Helligkeit und Kontrastkurven brachten keine deutliche Besserung. Leider etwas ernüchternd für eine Kauf-Software, die bei modernen Computertexten sehr solide Ergebnisse liefert. Ähnliche Ergebnisse fand auch die Redaktion der com! heraus, wo das Programm bei Zeitungsseiten versagte.
Auch Nuance Omnipay ist hier ebenfalls kläglich gescheitert und nur wenig besser als ReadIris. Eine weitere Bearbeitung macht auch da keinen Sinn.
Beschränkungen der Formatierung später gezielt ausnutzen
Was bei Computertexten schnell Fehler verursachen kann, lässt sich auf Ormig und Schreibmaschine problemlos anwenden:
- Es gibt nur eine Schriftart mit fester Zeichenbreite, daher kann man den gesamten Text markieren und etwa auf die Schriftart Courier New einstellen.
Übrigens gibt es diverse Fonts, um sogar den Charakter der Schreibmaschine wiederzugeben, siehe http://www.dafont.com/theme.php?cat=113&fpp=10 oder http://www.peter-wiegel.de/Erika.html. - Es gibt nur eine Schriftgröße und nur feste Abstände, daher kann man den gesamten Text markieren und auf 12pt oder 13pt einstellen. Zudem sollte man noch den Dialog Schriftart öffnen und im Register Erweitert die Abstände, Höher- und Tieferstellen sowie Skalierung (bei Readiris gilt das nicht immer) auf einheitliche Standardwerte setzen.
- Die Zeilenabstände sind einheitlich und bzw. nur 1, 1 ½ und 2 zeilig möglich.
- Grafiken und andere Layout-Besonderheiten gibt es sicher nur selten, so dass Fließtext gegenüber Textfeldern für die Bearbeitung klar besser geeignet ist.
Ehrenrettung der OCR: Test moderne gedruckte Seite mit Bildern und unterschiedlichen Größen (Bankbrief)
FineReader macht fast alles richtig, nur bei ein paar Logos kommt das Programm durcheinander, Vorteil ist auch, dass alle Texte im normalen Dokument arrangiert und bequem zu bearbeiten sind, nur wenige Textfelder, die aber manchmal verrutschen. Verwendet wurde Schriftart Trebuchet, wobei Fettdruck richtig erkannt wurde und kaum Skalierungen an Schrift oder Abstand erfolgten.
Readiris zeigt ebenfalls kaum Schwächen. Lediglich eine Zeile in einem Papierknick weist einige Fehler auf. Das Layout wird hier noch besser reproduziert, allerdings finden sich die meisten Textteile in Textfeldern wieder, was eine weitere Bearbeitung erschwert. Die Titelzeile hat ReadIris als Grafik umgesetzt. Auch wenn man die Option Spalten statt Rahmen anwenden wählt, landen die Texte oft doch in Rahmen, wenn die Spaltenzuordnung schwierig ist. Das macht der FineReader besser. Weiterhin wandelt ReadIris im Beispiel einen Fettdruck bei 8pt in eine auf 90% skalierte Schrift von 9pt um.
Omnipage kann den gedruckten Text ebenfalls fast fehlerfrei erkennen. Probleme bereiten hier allerdings die Abbildungen sowie die schwierige Formatierung mit Tabellen und Tabulatoren. Das macht eine spätere Bearbeitung sehr aufwändig – ich kenne das von Übersetzungsaufträgen, wo die Vorlage aus Omnipage stammt.
FineReader und ReadIris haben Trennstriche am Zeilenende richtig in bedingte Trennstriche umgewandelt.
Fazit
Readiris kann nur im heutigen Büroalltag überzeugen, ist je nach Version preisgünstiger, reproduziert das Layout mitunter besser und arbeitet etwas schneller. Bei schwierigeren Vorlagen scheitert das Programm kläglich. Abbyy Finereader ist allen Situationen gewachsen, meistert den Büroalltag vielleicht etwas langsamer, erkennt aber auch alte Texte mit soliden Ergebnissen. Trotz des etwas höheren Preises meine klare Empfehlung. Omnipage konnte da an mehreren Stellen nicht ganz mithalten.