OCR – zwiększanie skuteczności rozpoznawania tekstu

przez CoreBlog 18 września, 2013

napisany przez CoreBlog 18 września, 2013

To jak z rozpoznawaniem tekstu poradzi sobie komputer zależy od wielu czynników, m.in. od jakości skanowanego dokumentu (czy też od jakości samego skanu/zdjęcia), czy też od oprogramowania, które rozpoznawaniem tekstu ma się zająć. Jednak my, jako użytkownicy komputera, jesteśmy w stanie nieco pomóc w skuteczności OCR. Oto garść drobnych porad, które pozwolą Ci zwiększyć wspomnianą skuteczność.

ROZDZIELCZOŚĆ
Skanuj w rozdzielczości 300 dpi, w trybie czarno-białym. Jeśli masz do czynienia z drobną czcionką, ustaw rozdzielczość na poziomie 400 dpi. Tę ostatnią należy zastosować także przy odczytywaniu plików oraz przy nietypowej czcionce, np. azjatyckiej, choć podejrzewam, że to ostatnie Ci nie grozi.

KONTRAST I JASNOŚĆ
Wybierz odpowiednie nastawy kontrastu i jasności dla skanowanego dokumentu. Tekst musi się wyróżniać na swoim tle, aby program nie miał problemu z jego wyłapaniem. Z drugiej strony zbyt duży kontrast ustawiony przy dokumentach ze zdjęciami (obrazkami) – jeśli chcemy je wykorzystać – sprawi, że owe obrazki będą nieczytelne lub po prostu brzydkie.

RETUSZ
Dokonaj drobnego retuszu zeskanowanego dokumentu, usuwając z niego szumy, czy inne wady (można tego dokonać w wielu programach, zarówno w Photoshopie, jak i w darmowych pakietach graficznych). Dokument warto także wyprostować, jeśli został krzywo zeskanowany.

JĘZYK
Wydaje się to dość oczywiste, ale czasem w natłoku prac użytkownik zapomina ustawić odpowiedni język, na podstawie którego tekst ma być rozpoznawany. Już nawet nie chodzi o to, czy jest to język europejski, czy azjatycki, ale przecież nawet alfabet polski różni się nieco od angielskiego, czy hiszpańskiego. Warto o tym pamiętać. Jeśli odczytywany tekst jest tekstem specjalistycznym, do którego posiadasz odpowiedni słownik wbudowany w program OCR – zastosuj go (np. słownik prawniczy, medyczny itd.).

Czasem komputer trzeba wspomóc w pracach nad OCR / Photo credit: Juan Lauriente / Foter / CC BY-SA

OBSZARY DOKUMENTU
Przejrzyj wszystkie obszary dokumentu i sprawdź, czy zostały w odpowiedni sposób rozpoznane (tekst, obraz, tabela). Jeśli są gdzieś pomyłki, pomóż programowi i sam wybierz rodzaj obszaru. Uczyń tak dla całego dokumentu, przeglądając go od początku do końca.

TEKST ODRĘCZNY
Jeśli w skanowanym dokumencie znajdują się np. odręczne notatki, czy generalnie pojawia się pismo odręczne, obszar ten oznacz w programie OCR jako „obraz”. Podobnie zresztą uczyń dla wszelkiej maści podpisów i pieczątek.

UCZ PROGRAM
Jeśli program OCR, z którego korzystasz, zawiera funkcję „uczenia się”, wykorzystuj ją. Ucz program, tak aby na przyszłość wiedział, jak ma zachowywać się w określonych sytuacjach, w ten sposób oszczędzi Ci to pracy podczas następnych prac nad skanowanymi dokumentami.

UKŁAD DOKUMENTU
Wybierz jaki ma być układ dokumentu wynikowego – czy to ma być czysty tekst, tekst formatowany, czy może wiernie odwzorowany dokument, z odpowiednim układem elementów, obrazkami itd. To również pozwoli Ci zaoszczędzić nieco czasu.

Pamiętając o tych poradach powinieneś usprawnić swoją pracę nad dokumentami traktowanymi programami do OCR. Jeśli skanujesz dużo dokumentów, z pewnością zaoszczędzisz tyle czasu, że częściej będziesz zasiadać z kawą w ręku i rozmyślać nad tym, co zrobisz w wolnym czasie, niż irytować się na kolejne błędy znajdowane w zeskanowanym i przekonwertowanym na tekst dokumencie.

OCR – zwiększanie skuteczności rozpoznawania tekstu

Podobne posty

Zarabiamy na błędach programistów!

Jak drukować taniej?

Powiązane artykuły

Napisz komentarz Cancel Reply