25.08.2020 von Nicole Gauger

good news! PR-Agentur Berlin: Wie PDFs die Implementierung von RPA-Anwendungen beschleunigen

Berlin. Die Software-Branche fokussiert sich zunehmend auf das Thema Robotic Process Automation (RPA). Immer mehr Anbieter aus unterschiedlichen Segmenten präsentieren entsprechende Applikationen, die auf Basis des menschlichen Verhaltens Arbeitsschritte eigenständig übernehmen. Anwender sollen von deren Einsatz vor allem durch optimierte Prozesse, das Vermeiden von Fehlern sowie den Wegfall monotoner Arbeiten profitieren. Dietrich von Seggern, Geschäftsführer der callas software GmbH, erläutert, weshalb das PDF-Format für RPA-Anwendungen eine solide Grundlage bildet.

Damit RPA-Anwendungen reibungslos funktionieren, müssen einerseits deren Prozesse standardisiert aufgebaut sein und andererseits müssen sie homogene Dateien beinhalten. Nur so lassen sich möglichst viele Dateien mit denselben Automatismen verarbeiten. In vielen Fällen bedeutet das für Dokumente, dass RPA auf selbst erstellte Daten eingeschränkt wird. Aber warum nicht auch hier auf einen Standard setzen? Wo immer diese Prozesse auch mit Fremddaten agieren müssen, sprechen zahlreiche Argumente für das PDF-Format. Denn PDF ist der kleinste gemeinsame Nenner von nahezu allen im Büro verwendeten oder eingehenden Formaten. Office-Dateien, E-Mails oder auch Bilder lassen sich unkompliziert in PDF umwandeln, sodass RPA-Anwendungen eine einheitlich zu verarbeitende Basis zur Verfügung gestellt werden kann. Darüber hinaus ist PDF mit seinen zahlreichen gewachsenen Features das mächtigste Dokumenten-Format überhaupt. Dennoch bietet nicht jedes PDF gleich gute Voraussetzungen für die automatische Verarbeitung, die ja nicht auf einem zuverlässig darstellbaren Dokument, sondern auf den darin enthaltenen Daten aufsetzt.

So werden PDFs RPA-fähig:

Einer der „einfachsten“ und doch mehr oder weniger unüberwindlichen Hemmschuhe für dokumentenbasiertes RPA sind – häufig unbedacht angebrachte – Passwortverschlüsselungen. Aus technischen und rechtlichen Gründen verbietet sich dann die Extraktion von Inhalten, sodass die Datei nur zurückgewiesen werden kann.
Damit sich PDF-Dateien automatisiert verarbeiten lassen, müssen sie einige Anforderungen erfüllen. So ist es in der Regel erforderlich, gescannte Dateien, die als PDF gespeichert sind, über OCR mit Volltext auszustatten und den ausgelesenen Inhalt Unicode-Zeichen zuzuordnen. Nur dann können RPA Prozesse die darin enthaltenen Texte auswerten. Auch digital erstellte PDFs bieten nicht immer vollständige Unicode-Unterstützung. Hier kommt es auf geeignete Werkzeuge zur Prüfung und ggf. Verbesserung an.
Ein ganz konkretes Beispiel sind Druckdateien aus dem ERP-System, in denen Ausgangsrechnungen zusammengefasst sind. Anhand von Schlüssel- oder Trennwörtern spürt eine PDF-Software Textmarkierungen auf, um dann das gesamte PDF in Einzelrechnungen aufzusplitten. Das funktioniert natürlich nur, wenn die Software die Schlüsselwörter auch erkennen kann und das ist – ohne OCR – nur möglich, wenn die Texte bereits nach Unicode „übersetzt“ werden können.
Mit der Integration von Metadaten in PDFs können RPA-Anwendungen wegweisende Informationen erhalten, wie die jeweilige Datei zu verarbeiten ist. Hierbei kann es sinnvoll sein, die Informationen vor der Konvertierung zu extrahieren und im PDF einzufügen. Dazu folgendes Beispiel: Handelsunternehmen erhalten von ihren Lieferanten Produktbeschreibungen als PDF-Dateien. Sie könnten diese mit Eintragungen in den Metadaten versehen und so klassifizieren. Bei Kundenanfragen lassen sich diese Beschreibungen dann zu individuellen Produktkatalogen zusammenfügen und mit einem Inhaltsverzeichnis versehen.
Idealerweise sind die PDF-Dateien „getaggt“. Das heißt, dass nicht nur die Semantik von Textteilen per Unicode definiert ist, sondern auch Überschriften, Absätze, Bildbeschreibungen oder Tabellen als strukturierte Daten, ausgezeichnet („getagt“) sind. Über diese Tags „weiß“ die RPA-Anwendung, wie Textinhalte, vor allem bei mehrspaltigen Layouts, logisch aufgebaut sind, kann Überschriften extrahieren und Bilder dank der Beschreibung zuordnen. Da es sehr aufwendig ist, PDF-Dokumente im Nachhinein mit Tags auszuzeichnen, werden in der Regel KI-Ansätze verwendet, um beispielsweise Formulare bis auf Feldebene korrekt auszulesen. Umso wichtiger ist es, wie unter Punkt eins beschrieben, dass die PDF-Dateien volltextfähig sind.

Fazit:
Unternehmen, die ihre Prozesse so weit wie möglich automatisieren wollen, können und sollten zuvor die Voraussetzungen für reibungslos RPA-basierende Anwendungen schaffen. Hierzu gehört auch ein solides Fundament in Form von möglichst homogenen, normalisierten Daten. Qualitativ hochwertige PDFs als größtes gemeinsames Vielfaches der Office-Formate sind dafür eine gute Basis.

Über callas software:
callas software bietet einfache Möglichkeiten, um komplexe Herausforderungen im PDF-Umfeld zu bewältigen. Als Innovator von Verfahren entwickelt und vermarktet callas software PDF-Technologien für das Publishing, Prepress, den Dokumentenaustausch und die Dokumentenarchivierung. callas software unterstützt Mediendienstleister, Agenturen, Verlage und Druckereien darin, ihre Aufgabenstellungen zu lösen, indem es mit pdfToolbox eine Lösung zum Prüfen, Korrigieren und Wiederverwenden von PDF-Dateien für die Produktion von Druckvorlagen und das elektronische Publizieren bereitstellt. Unternehmen und Behörden aus aller Welt vertrauen pdfaPilot für die zukunftssichere, vollständige PDF/A-konforme Archivierung von PDF- und Office-Dokumenten. Darüber hinaus ist die callas-Technologie auch als Programmierbibliothek (SDK) für Entwickler erhältlich, die PDFs optimieren, validieren und korrigieren müssen. Software-Anbieter wie Adobe®, Foxit®, Kodak®, Quark®, Xerox® und viele andere haben verstanden, welche Qualität und Flexibilität die callas-Werkzeuge bieten, und sie in ihre eigenen Lösungen integriert.

callas software unterstützt aktiv internationale Standards und beteiligt sich aktiv in DIN, ISO, CIP4, der European Color Initiative (ECI), und der Ghent Workgroup. Darüber hinaus ist callas software Gründungsmitglied der PDF Association und engagiert sich von Anfang an im Vorstand des internationalen Verbandes.

Der Firmensitz des Unternehmens befindet sich in Berlin. Weitere Informationen finden Sie im Internet unter www.callassoftware.com.

Ihre Redaktionskontakte:
callas software GmbH
Dietrich von Seggern
Schönhauser Allee 6/7
D-10119 Berlin
Tel.: +49 30 443 90 31-0
Fax: +49 30 441 64 02
d.seggern@callassoftware.com
www.callassoftware.com

PR-Agentur Berlin:
good news! GmbH
Nicole Gauger
Kolberger Str. 36
D-23617 Stockelsdorf
Tel.: +49 451 88199-12
Fax: +49 451 88199-29
nicole@goodnews.de

Zurück