OCR – programy do rozpoznawania tekstu

Mamy XXI wiek, a często widzę na internecie ogłoszenia typu: „dam do przepisania tekst, artykuł, ktoś chętny?”. Ludzie… XXI wiek!!! To znaczy, że nie trzeba przepisywać (no chyba że jest to nabazgrolone odręcznie), wystarczy odpowiedni program OCR, a komputer całą robotę odwali za nas, w efekcie dając nam edytowalny plik tekstowy z zeskanowanym tekstem.

Jakie programy OCR są dostępne na rynku?

ABBYY FineReader Professional
Jest to jeden z najpopularniejszych programów OCR na świecie, a jednocześnie wart jest on polecenia. Rozpoznaje pismo w niemal 200 językach (w tym i języku polskim), poradzi sobie także z językami programowania (np. C++, czy Pascal), z kodami kreskowymi, hiperłączami czy prostymi formułami chemicznymi. Zawiera wbudowane moduły sprawdzania pisowni z 39 słownikami (język polski również), możemy go także nauczyć rozpoznawania pojedynczych znaków, jak i ligatur (dwie lub trzy połączone ze sobą litery). Bardzo dobrze radzi sobie z tekstem umieszczonym na fotografiach poprzez odpowiednie mechanizmy usuwania szumów, czy korekcję zanieczyszczeń, perspektywy, rozdzielczości ekranu i rys.

Readiris Pro
Radzi sobie z około 130 językami (w tym i językiem polskim) oraz kodami kreskowymi. Ma wbudowaną opcję „uczenia się”, a więc wyświetla użytkownikowi znaki, których nie do końca jest pewien, a użytkownik pomaga mu określić, jak program ma rozumieć takie znaki na przyszłość. Posiada wbudowany zestaw narzędzi do rysowania obszarów dokumentów, czy też ma możliwość skorzystania z szablonów, co ma zdecydowanie uprościć i ułatwić pracę nad efektami końcowymi edytowanego dokumentu.

Kto dziś przepisuje dokumenty? / Photo credit: JD Hancock / Foter / CC BY

OmniPage Professional
Rozpoznaje około 120 języków (język polski także), warto zauważyć, iż wyposażony jest w dodatkowe słowniki obejmujące takie dziedziny, jak chociażby prawo, finanse czy medycyna. Dokładnie odwzorowuje układ odczytywanych dokumentów. Posiada wbudowany edytor tekstu. Warto wspomnieć i o tym, iż OmniPage ma wbudowane liczne automatyczne funkcje, dzięki czemu praca z programem staje się jeszcze przyjemniejsza, jeszcze łatwiejsza i jeszcze bardziej skuteczna.

FreeOCR
Jest to dość prosty program, który odczytuje obraz ze skanera lub pliku PDF i w efekcie daje niesformatowany tekst, który można zapisać w formacie TXT, skopiować do schowka lub wyeksportować do Worda. Program ma liczne wady: nie rozpoznaje struktury strony ani formatowania tekstu, jest mało skuteczny, niezbyt dokładny, a do tego miewa liczne kłopoty z językiem polskim. Dlatego znajduje się tutaj bardziej jako ciekawostka, niż jako prawdziwie profesjonalny konkurent dla wyżej wymienionych, drogich programów.

Ze wspomnianych wszystkich tytułów najlepiej spisuje się ABBY FineReader Professional, choć godzien polecenia jest także OmniPage. Jeśli chodzi o warunki domowe to powinien spokojnie wystarczyć ABBY FineReader w wersji Sprint.

Dodaj komentarz

Proszę pozostawić te dwa pola tak jak są: