Kurzes Update, meiner Ausbildung

Hallo, nachdem ich den Prüfungsstress hinter mir habe, freue ich mich mal wieder Zeit zum Bloggen zu haben.


Nachdem ich die schriftliche Prüfung geschrieben habe, konnte ich mich meiner Projektarbeit widmen, die es war, ein neuronales Netz so anzupassen, dass es Schriftarten erkennt. Dazu habe ich die Texterkennung von DeepER um ein LSTM erweitert. Das LSTM erkennt in einer Zeile an mehreren Stellen die Schriftart.
Im Nachhinein wird der Output des LSTMs für die einzelnen Wörter überprüft und im Layout die Schriftart gespeichert.

Wofür eine Fonterkennung?

Zum einen lässt sich mit der erkannten Font aus einem Bild eine digital identisches Dokument erstellen, zum anderen kann man künftig die erkannte Font verwenden um anderen Text über den bisherigen zu rendern und somit Dokumente zu pseudonymisieren.


Nächste Woche Mittwoch habe ich meine mündliche Prüfung und je nach Ergebnis endet dann meine Ausbildung. Also lerne ich momentan abends und hoffe, dass ich bestehe. Update folgt.


Teile diesen Post:

CIB deepER – Evaluation für Business Use Case

Im Rahmen der Ausbildungskooperation zwischen der PSD Bank Nürnberg und der CIB Software ergeben sich stets interessante Schnittmengen.
Im konkreten Use Case geht es um die Suche nach einer Lösung, um die papierhaften Formulareingänge (10 identifizierte Prozesse, die eine gewisse Häufigkeit aufweisen) der PSD Bank zu digitalisieren, den Inhalt zu extrahieren und die gewonnenen Daten im Anschluss machine-usable bereitzustellen, sodass diese per RPA weiterverarbeitet werden können.

Bei näherer Betrachtung des Anwendungsfalls ergab sich sogleich ein Match mit CIBs hauseigener OCR-Engine, CIB deepER.
Um einen Überblick über die Engine und die im Hintergrund arbeitenden neuronalen Netze zu erhalten, wurde ich im Rahmen meines 3. Ausbildungseinsatzes dem KI-Team zugeteilt und durfte den Spezialisten über die Schulter schauen.

Die Analyse und Extraktion von Text aus einem Dokument via OCR erfolgt durch verschiedene ineinandergreifende Segmente:
1) Die Segmentierung:
Hierbei werden die auf dem Dokument (PNG-Bild) befindlichen Wörter (für die Segmentierungs-Engine sind “Wörter” lediglich schwarze Pixel) algorithmisch identifiziert und pixelgenau bestimmt. Eine qualitative Segmentierung stellt den Grundstein für eine belastbare Textextratkion dar.
Da es sich beim Use Case der PSDN um statische Formulare handelt ist keine automatische Segmentierung notwendig. Stattdessen wird im Vorfeld für jedes Formular ein Layout erstellt (JSON-File), die Segmentierung also manuell durchgeführt. Das spart Zeit sowie Rechenleistung und ist weniger fehleranfällig.
Für den speziellen Anwendungsfall wurden außerdem Python-Skripte erstellt, welche das Vorhandensein einer Unterschrift auf dem Formular algorithmisch prüfen.

2) Die Extraktion des Textes:
Dies geschieht mittels der OCR-Engine (LSTM) und einem Zusammenspiel aus div. Frameworks (u.a. Tensorflow und Torch). Die

3) Bereitstellung des Ergebnisses:
Die identifizierten Daten stehen nun in einem JSON-File bereit.
Dieses soll unserem RPA-Robot mittels API-Call (POST-Request) bereitgestellt werden – dieser Task wird Gegenstand meiner kommenden zwei Wochen bei CIB sein.
– I’ll keep you updated.

Teile diesen Post: