Behalten Sie mit unserem Technologieradar die wichtigsten KMU relevanten Technologien im Blick!

Einführung

OCR bzw. Optical Character Recognition (deutsch optische Zeichenerkennung) beschreibt eine Technologie, die aus Raster- / Bilddateien wie PDFs, JPGs etc. Textdateien erstellen kann. Durch die Umwandlung ist es möglich die gewonnenen Daten zur Weiterverarbeitung oder zur Automatisierung von Prozessen, wie der Rechnungsverarbeitung, zu nutzen.

Zum aktuellen Stand

OCR stellt eine Basistechnologie für viele Programme dar, die sich mit der Verarbeitung von Dokumenten beschäftigen. Diese Technologie erlaubt es Schriftstücke, die in Papierform vorhanden sind zu digitalisieren und aufzubereiten. Dadurch entfällt die analoge Übertragung durch abtippen von relevanten Dokumenten. Papierstücke die ausschließlich aus Maschinenschrift bestehen, können bereits mit einer sehr hohen Zuverlässigkeit vollständig digitalisiert werden. OCR wird unter anderen, als Grundlage für Dokumentenmanagementsysteme genutzt, um eine Weiterverarbeitung und Automatisierung von Papierschriftstücken, wie zum Beispiel Rechnungen oder Lieferscheine, zu ermöglichen.

Technologieverbreitung

Prototypen und Demonstratoren vorhanden
Branchenübergreifender Einsatz
KMU geeignet?

Wie funktioniert OCR?

Die OCR-Technologie zeichnet sich vor allem durch die Mustererkennung aus. So unterteilt sie die Bilddatei in verschiedene Kategorien. Hier werden Abbildungen, Tabellen und Textblöcke unterschieden. Wenn das Programm einen Textblock identifiziert hat, werden im nächsten Schritt die einzelnen Buchstaben analysiert. Für den Computer sind diese Buchstaben lediglich Gruppierungen von Pixeln, mit denen er noch nicht arbeiten kann. Das Programm erkennt diese Gruppierungen (OCR) und gleicht sie mit einer vorhanden Datenbanken ab und wandelt diese in Zeichen um. Um die Erkennung von handschriftlichen Texten zu verbessern, werden die Gruppierungen im nächsten Schritt auch auf Zeichenebene (ICR) und auf Wortebene (IWR) aus einer weiteren Datenbank abgeglichen.

Intelligent Character Recognition (ICR) beschreibt die Fehlerkorrektur auf Zeichenebene. So wird überprüft, ob das erkannte Zeichen im Kontext des Wortes Sinn ergibt. Beispiele hierfür wären die leicht zu verwechselnen Zeichen O und 0 (Null) oder B und 8. Die Zahl 0 könnte beim Wort Oder erkannt und durch ICR durch den richtigen Buchstaben O ersetzt werden.

Intelligent Word Recognition (IWR) beschreibt die Fehlerkorrektur auf Wörterebene. Vor allem bei handschriftlich verfassten Fließtexten, kann es dazu kommen, dass die einzelnen Zeichen von der OCR-Technologie nicht erkannt werden können. So vergleicht IWR globale Charakteristiken des Wortes mit einer Wörterdatenbank, um die korrekte Erkennungsrate zu erhöhen.

Chancen für KMU

Umwandlung von analogen Medien zu digitalen

Erster Schritt zur Automatisierung von Prozessen

Vereinfachte Dokumentenverwaltung

Vermeidung von Übertragungsfehlern

Schrittweise Einführung der OCR-Technologie

Sie brauchen Unterstützung bei der Einführung einer OCR-Technologie in Ihrem Unternehmen? Kontaktieren Sie uns!

Behalten Sie mit unserem Technologieradar die wichtigsten KMU relevanten Technologien im Blick!