Was ist der IES? Wie man sich nicht in der Nomenklatur verliert.
Lukardi > Blog > Umlauf der Dokumente > Was ist der IES? Wie man sich nicht in der Nomenklatur verliert.
- Umlauf der Dokumente
IES (Information Extraction Service) jest rozwiązaniem OCR firmy OpenText, dedykowanym do współpracy z systemem VIM (Vendor Invoice Management).
Jedynym zadaniem IES jest wydobycie danych z dokumentów
i przekazanie ich z powrotem do SAP, co w praktyce oznacza redukcję pracy związanej z wprowadzaniem danych i zautomatyzowanie procesu.
W odróżnieniu od poprzednich systemów OCR dedykowanych VIM (mowa tu o ICC – Invoice Capture Center oraz BCC – Business Capture Center), IES jest rozwiązaniem opartym przede wszystkim na opatentowanym mechanizmie Machine Learning, samodoskonalącym się w trakcie przetwarzania dokumentów. Mechanizm uczy się podczas walidacji lub po skończonym procesie zatwierdzania w SAP.
Walidacja = Jest to etap pośredni między OCR, a wprowadzeniem dokumentów do VIM. Na tym etapie użytkownik ma możliwość ręcznego skorygowania danych rozpoznanych przez OCR.
Vendor Invoice Management = To rozwiązanie dedykowane SAP służące do obiegu faktur, jak i innych typów dokumentów.
Jakie są różnice między IES, a poprzednimi systemami OCR?
Na ten moment IES dostępny jest w dwóch formatach:
-> Intelligent Capture for SAP (dalej zwany IC4S) oraz
-> Core Capture for SAP (CC4S)
Pierwszy z nich, IC4S jest rozwiązaniem On-Premise, stawianym gdzieś na infrastrukturze własnej klienta, natomiast CC4S jest rozwiązaniem chmurowym, dostępnym w ramach subskrypcji wykupowanej od OpenText lub SAP. Istnieją pewne różnice między tymi dwoma rozwiązaniami, jednak technologicznie i konfiguracyjnie są one bardzo do siebie podobne.
Inaczej sytuacja ma się w porównaniu do poprzednich generacji OCR oferowanych przez OpenText, co można zobaczyć w poniższej tabeli.
Zagadnienie | ICC/BCC | IES | Przewaga IES |
Machine Learning | ART training – możliwość uczenia systemu przez użytkowników po uprzednim zaznaczeniu odpowiedniej opcji i skonfigurowaniu pod to rozwiązania. | Ciągły, samodostosowujący się mechanizm uczenia, nie wymagający żadnej dodatkowej akcji po stronie użytkowników poza typowym użyciem klienta walidacji (choć i to nie jest już wymagane) | Automatyczny proces ciągłego uczenia się dla wszystkich typów dokumentów. |
Konfiguration | Klient Customazing dostępny na serwerze ICC/BCC. Konfiguracja zarówno po stronie klienta Customazing, jak i wewnątrz SAP. Możliwość rozszerzenia funkcjonalności poprzez pisanie skryptów w C#. | Cała konfiguracja przeniesiona do VIM. Możliwość rozszerzenia funkcjonalności poprzez pisanie skryptów w ABAP. | Cała konfiguracja przeniesione do SAP. |
Transfer danych | Regularne pobieranie danych z SAP (dane dostawców, numery zamówień) i przechowywanie ich w bazie danych dostępnej pod rozwiązaniem. | IES nie ma potrzeby pobierania danych, wykorzystuje informacje z tabel SAP. | Mniej danych wymaga synchronizacji i dystrybucji. Bezpieczniejsza architektura. |
Baza danych SQL | Baza wymagana | Baza danych nie jest wymagana, IC4S wykorzystuje bazę danych SAP, CC4S korzysta z własnej bazy zarządzanej przez OpenText | Mniejsze koszty obsługi |
Transport danych uczących | Niemożliwy (teoretycznie jest możliwy w ramach jednej aplikacji i związany jest z eksportowaniem i nadpisywaniem profilu). | Transport między systemami SAP/VIM oraz CC4S i IC4S jest możliwy. Istnieje również możliwość zaciągnięcia danych z ICC/BCC. | Elastyczne narzędzie do transportu danych uczących. |
Scenariusz dla faktur | Prekonfigurowane standardowe pola dla 32 krajów. Dodanie nowych pól możliwe, logika pod nowymi polami wymaga konfiguracji silnika OCR. | Prekonfigurowane pola dla faktur z wbudowaną logiką dotycząca przetwarzania dla krajów z alfabetem Łacińskim. Wbudowana baza wiedza dla wielu krajów, dająca od początku dobry wynik rozpoznania. Dodanie nowych pól możliwe, logika obsługi tych pól dokonuje się samoistnie podczas procesu uczenia. | Mechanizm uczenia się, niewymagający żadnej dodatkowej akcji po stronie użytkownika. |
Wspierane języki (z punktu widzenia wspieranych alfabetów/character sets) | Cała Europa Zachodnia oraz Centralna, Skandynawia, Rosja (w tym cyrylica), Grecja, Chiński Uproszczony oraz Mandaryński, Korea, Tajlandia, Japonia i Wietnam. | Wszystkie jezyki używane przez ICC/BCC plus Hebrajski. Rozszerzenie na nowe kraje dostępne wraz z kolejnymi aktualizacjami systemu. | |
Opcje walidacji | Windowsowy klient walidacji, Single Client Entry dostępny w SAP GUI. | Takie same jak w ICC/BCC plus możliwość walidacji w FIori. | Wsparcie dla Fiori. |
Jak można zauważyć, IES jest rozwiązaniem prostszym, wymagającym mniej konfiguracji oraz mniej angażującym później klienta w utrzymanie usługi. Pod względem efektywności oba rozwiązania dają podobny rezultat, a ostateczny wynik rozpoznania w obu przypadkach uzależniony jest od wielu zmiennych.
Jak dokładnie działa to rozwiązanie?
Rozwiązanie IES zostało zaprojektowane tak, aby uczyło się w sposób ciągły podczas przetwarzania dokumentów.
Komponent VIM Inbound archiwizuje i przetwarza nowe dokumenty, w tym przesyła je do OCR, gdzie dokonuje się ekstrakcja danych. Następnie silnik decyzyjny w VIM sprawdza wynik rozpoznania, jeśli pola obowiązkowe nie są wypełnione lub zasady walidacyjne nie zostaną spełnione, wtedy dokument trafia do ręcznej obsługi w celu poprawienia błędów.
Manualne poprawki są przesyłane jako odpowiedź z VIM do IES, który uczy się w tym momencie, jak te informacje powinny być pozyskane dla danego dokumentu. Następnie informacje zdobyte podczas tego całego procesu są ponownie wykorzystywane w przypadku kolejnego podobnego przypadku.
Kiedy podobny dokument, na przykład od tego samego dostawcy trafi do VIM, wygląd dokumentu zostanie rozpoznany jako coś już znanego, istniejącego w bazie wiedzy. W tym przypadku etap manualnej walidacji może zostać pominięty – system sam poradzi sobie z danymi, które za pierwszym razem nie zostały wypełnione lub zostały wypełnione błędnie.
Dla większości dokumentów uczenie się jest efektywne po wykonaniu do 5 ręcznych walidacji. Jednakże, w wyjątkowych przypadkach, na przykład dla dokumentów o skomplikowanej strukturze tabeli, nawet 20 ręcznych poprawek może być wymaganych.
Baza wiedzy dostępna w IES już od początku użytkowania powinna pozwolić na uzyskanie wyniku rozpoznania pól w granicach 70-80%. Po czasie, gdy mechanizm uczenia się zadziała, wynik rozpoznania dla pól powinien wzrosnąć do ponad 90%. Po pewnym czasie nowe dokumenty mogą zostać przetworzone automatycznie bez potrzeby ich ręcznej walidacji, ponieważ IES nauczył się wystarczającej ilości podobnych układów.
Na ten moment IES do swojego działania wykorzystuje kilka głównych koncepcji:
- Business Entity Determination (BED) – algorytm, który porównuje dane na dokumencie z danymi w SAP (dokładnie w SAP Master Data), jednocześnie będąc podatnym na mechanizm uczenia się. Mechanizm ten jest wykorzystywany do rozpoznania danych dostawcy i odbiorcy.
- Single Click Entry (SCE) – interfejs pozwalający użytkownikowi końcowemu na przechwytywanie informacji z dokumentów przy użyciu myszy. Mechanizm uczenia się wymaga tego, by informacje były wskazywane właśnie w ten sposób (a nie na przykład wpisywane ręcznie z klawiatury). Jest to wygodna i szybka metoda walidacji dokumentów.
- Table Auto Complete (TAC) – funkcja pozwalające na automatyczne wypełnienie tabeli. Działa to w ten sposób, że użytkownik przy użyciu myszy wypełnia najpierw pierwszy wiersz tabeli, a następnie wybiera odpowiednią opcję, po której system uzupełnia całą resztę wierszy.
- Rozpoznanie oparte o kontekst (jaki typ dokumentu rozpoznajemy), układ dokumentu, jego strukturę, słowa kluczowe, relacje pomiędzy elementami tekstowymi na dokumencie.
- Mechanizm głosowania oparty o wskaźnik zaufania (mechanizm służący do wybrania najlepszego wyniku z całej listy alternatyw przesłanych przez IES).
- Transfer wiedzy od innych dostawców, na przykład dane wykorzystane przy rozpoznaniu daty faktury dla dostawcy x mogą być pomocne przy ustaleniu daty faktury dla dostawcy.
- Dostarczona od początku baza wiedzy.
Podsumowanie
Information Extraction Service jest kolejnym generacyjnie rozwiązaniem OCR dostępnym od OpenText. Przeznaczony jest do rozpoznawania różnych typów dokumentów, choć najpopularniejszym zdecydowanie zastosowaniem jest rozpoznawanie danych z faktur. Na ten moment pojawia się w dwóch konfiguracjach z VIM – IC4S i CC4S, jak również w rozwiązaniu chmurowym obecnie dostępnym pod nazwa Core Capture (Jest to coś innego niż CC4S). Rozwiązanie to jest ciągle aktualizowane, dodawane są nowe funkcjonalności, jak choćby nowe języki, tak, by sam wynik rozpoznania był coraz lepszy – w końcu o to chodzi w systemie OCR. Wygląda na to, że najbliższa przyszłość OCR pod SAP w OpenText będzie związana z IES.
Więcej z kategorii
- Umlauf der Dokumente
Tomasz Tyrała
Konsultant OpenText w Lukardi S.A.