Sie sind hier:
 

Texterkennung mit i2OCR
i2OCR erkennt Text in Bildern

von Markus Franz Uhr veröffentlicht

Diesen Artikel weiterempfehlen
SHARES

Mit der kostenlosen und einfach zu bedienenden Website i2OCR vom Hersteller Sciweavers lässt sich Text leicht aus Bildern extrahieren. Dies spart viel Zeit, die man sonst für das Abtippen des Dokuments benötigen würde.

OCR steht für Optical Character Recognition und bezeichnet ein Verfahren, das Text in einem Bild erkennen kann. i2OCR ist eines der wenigen kostenlosen Programme, das OCR beherrscht. Um ein Bild zu analysieren, muss es nicht einmal auf dem Computer gespeichert sein - es genügt, dessen Web-Adresse zu kennen. Netzwelt stellt die Anwendung vor.

i2OCR verwandelt Bilder in editierbaren Text - und zwar direkt im Browser. (Quelle: Screenshot)

Die Zeiten, als man Dokumente noch mit der Hand abtippen musste, sind passé. Heute gibt es Anwendungen, mit deren Hilfe der Nutzer den auf Bilddateien dargestellten Text schon nach nur einem Klick verwenden kann. So lassen sich etwa eingescannte historische Bücher oder Dokumente in bearbeitbaren Text umwandeln - und mit dem Programm i2OCR geht das sogar im Browser.

Download im DOC-Format

Die Optische Zeichenerkennung (OCR) ist ein System zur Umwandlung von Text enthaltenden gescannten Bilddateien in ein maschinenlesbares Text-Format. Dabei wird das Dokument analysiert und mit in der Datenbank gespeicherten Schriften auf typische Merkmale verglichen. Nicht jede OCR-Software beherrscht das perfekt und liefert ein hundertprozentig genaues Ergebnis. Doch eine unterstützende Rechtschreibprüfung ergänzt zum Teil bestimmte fehlende Buchstaben oder Zeichen und errät nicht erkannte Wörter.

Um ein bestmögliches Ergebnis zu erzielen, das heißt eine im Idealfall gänzlich korrekte Identifizierung der jeweiligen Zeichen, sollte der Text auf dem Bild klar zu erkennen sein. Zudem ist Bedingung, dass das Bild mindestens eine Bildschärfe von 200 dpi hat. Dies allerdings bedeutet, dass sich Screenshots nicht besonders gut eignen, da diese meist nur eine Auflösung unter 100 dpi besitzen. Eine Bildgröße von zehn Megabyte darf des Weiteren nicht überschritten werden. Der extrahierte Text lässt sich nach der Konvertierung entweder kopieren und anschließend beliebig verwenden oder aber alternativ im DOC-Format herunterladen.

Unterstützung von 33 Sprachen

Die Texterkennung ist für die Grafikformate TIF, JPEG, PNG, BMP, GIF, PBM, PGM, PPM ausgelegt und in beeindruckenden 33 Sprachen erhältlich, einschließlich traditionelles und vereinfachtes Chinesisch. Die ursprüngliche Formatierung geht während des Konvertierungsvorgangs verloren, mehrspaltige Seiten werden aber erkannt. PDF-Dateien werden - im Gegensatz zum ähnlichen Angebot von Google Docs beispielsweise - nicht unterstützt. PDFs können aber leicht mit einem kostenlosen Konverter in JPEGs umgewandelt werden, bevor der eigentliche Extrahierungsprozess vorgenommen wird. Der Hersteller on i2OCR, Sciweavers, bietet für diesem Zweck den Konverter pdf2x an.

Mit der Überprüfungsoption wird das Textergebnis nach der Zeichenerkennung Seite an Seite mit dem Originalbild auf dem Bildschirm verglichen werden kann. Jedoch sind Nachbesserungen am Text direkt auf der Website nicht möglich. Diese lassen sich erst vornehmen, nachdem der Nutzer diesen in einen Editor kopiert oder den Text als .doc heruntergeladen hat. Datenschutz wird nach eigener Aussage bei Sciweavers großgeschrieben. Hochgeladene Dateien und deren konvertierte Ergebnisse werden automatisch gelöscht.

Die Qualität der Texterkennung hängt maßgeblich von der eingestellten Sprache ab. (Quelle: Screenshot)

Keine Registrierung nötig

Die Website von i2OCR ist sehr benutzerfreundlich aufgebaut, sodass sie sehr intuitiv bedient werden kann. Der gesamte Prozess geschieht online, das heißt ein Download ist nicht erforderlich. Aber auch eine Registrierung oder die Angabe einer Mailadresse bleibt dem Nutzer gänzlich erspart. Die Anzahl der möglichen Uploads ist nach oben hin nicht limitiert. Die Anwendung arbeitet akkurat und schnell. Die Qualität des extrahierten Resultats kann sich in den meisten Fällen durchaus sehen lassen.

Fazit

i2OCR eignet sich insbesondere für Akademiker, die für ihre Bachelor-, Master- oder Doktorarbeit in der Bücherei in Schriften wälzen, welche noch nicht im Internet dokumentiert sind. Mit der kostenlosen Anwendung können sie sich die Zeit des Abtippens sparen, die das Zitieren von einzelnen Textpassagen in Anspruch nimmt.

Übrigens: Wenn Sie gleich mit i2OCR loslegen möchten, finden Sie den Link dazu direkt unter diesem Artikel.

Kommentare zu diesem Artikel

Mit der kostenlosen und einfach zu bedienenden Website i2OCR vom Hersteller Sciweavers lässt sich Text leicht aus Bildern extrahieren. Dies spart viel Zeit, die man sonst für das Abtippen des Dokuments benötigen würde.

Jetzt ist Ihre Meinung gefragt. Diskutieren Sie im Forum zu diesem Artikel.

Jetzt Diskutieren!
netzwelt Live

DSL- & LTE-Speedtest

Testen Sie mit unserem Speedtest Ihre tatsächliche DSL- oder LTE-Geschwindigkeit. Test auch mit Smartphone und Tablet möglich.

Jetzt Testen!

Der große Android-Update-Fahrplan

Welche Android-Version ist für mein Smartphone oder Tablet-Computer aktuell? Der große Android-Update-Fahrplan bringt Licht ins Dickicht der Versionen.

Jetzt ansehen!

article
34429
Texterkennung mit i2OCR
Texterkennung mit i2OCR
Die Freeware i2OCR reicht zwar nicht an kommerzielle Programme heran, genügt für die meisten Nutzer aber vollkommen.
http://www.netzwelt.de/news/92061-texterkennung-i2ocr.html
2012-05-03 15:11:38
http://img.netzwelt.de/dw120_dh90_sw0_sh0_sx0_sy0_sr4x3_nu0/article/2012/i2ocr-verwandelt-bilder-editierbaren-text-zwar-direkt-browser-bild-screenshot-14211.jpg
News
Texterkennung mit i2OCR