Čtveřice písařek

Porovnání čtyř OCR programů pro rozpoznávání textu.
Pokud se na vás v kanceláři nebo doma každodenně valí hromady papíru, určitě vás napadlo, že by bylo vhodné dokumenty převést do počítače. Můžete je opisovat, zabere vám to však hodně času. Můžete je nasnímat skenerem a uložit je jako obrázky, dokumenty však zaberou mnoho místa. Pokud si nepořídíte program pro jejich správu, pak se v těchto dokumentech stejně nevyznáte a budete tam, kde jste byli.

Můžete však využít některý program pro rozpoznávání textu a jeho převod do počítačové podoby – OCR (Optical Character Recognition). Pomocí OCR můžete zpracovat téměř jakékoli tištěné dokumenty. Převedené dokumenty můžete v počítači roztřiďovat a snadno v nich vyhledávat.

Co potřebujete k převodu textu
V první řadě skener, který má hardwarové rozlišení minimálně 600×300 dpi. Skener, který má rozlišení pouze 300×300 dpi, se pro rozpoznávání textu příliš nehodí, pokud nebudou zpracovávány pouze kvalitní předlohy. Výběru skeneru i programu pro OCR je třeba věnovat náležitou pozornost. Pro univerzální užití je vhodné zakoupit stolní skener, který má skleněnou plochu, na kterou se pokládá snímaný dokument.

Skener se připojuje buď přes řadič SCSI, paralelní port nebo rozhraní USB. Skenujete-li pouze občas, nemusíte do skeneru investovat příliš mnoho. Dobrý skener pořídíte již pod tři tisíce korun a mnohdy je k němu přibalena i základní verze programu OCR, která pro občasné zpracování malého počtu stránek docela postačí.

Jak snímat?
Podle typu a kvality tištěného dokumentu zvolíte správné rozlišení, obvykle vyhovuje rozlišení 300×300 dpi pro knihy a podobné tiskoviny, 200×200 dpi pro faxy. Rozlišení 400×400 dpi zvolte tehdy, je-li dokument vytištěn malými písmeny. Pokud jsou písmena neostrá a roztrhaná, snižte úroveň jasu. Naopak, jsou-li písmena slitá nebo dokument obsahuje mnoho různých teček (odborně: špína), úroveň jasu zvyšte.

Skener před snímáním nastavte na správný typ obrazu: pro černobílé dokumenty Line Art, pro dokumenty v odstínech šedi Gray Scale a pro barevné Color. Nasnímané dokumenty můžete buď ihned zpracovat v programu OCR a neukládat je, nebo je můžete ukládat pro dávkové zpracování. V takovém případě je dobré nejprve vyzkoušet, jestli váš program OCR zná formát, ve kterém obrázky ukládáte. Vhodným formátem je např. komprimovaný TIFF.

Jak si vybrat správný OCR program?
Protože budete častěji zpracovávat české texty, musí program OCR zvládat češtinu, a to co nejlépe. Kritériem pro výběr programů OCR pro následující testy byla dostupnost – buď jsou přibalovány k novým skenerům nebo je lze získat z Internetu. Nejznámější jsou patrně původem maďarská Recognita a ReadIris z Beneluxu, méně známý pak program ruské provenience FineReader. Tyto programy se obvykle dodávají v základních a rozšířených verzích.

Pro texty, které nejsou v češtině, ale v některém světovém jazyce, je občas účinnější využít služeb jiných programů OCR. Jsou jich desítky, jmenuji alespoň ty nejkvalitnější: OmniPage 8.0 (Caere) nebo TextBridge Pro 7.0 (od jedné z divizí firmy Xerox). Programy OCR existují i pro azbuku nebo ještě exotičtější písma, např. pro hebrejštinu, arabštinu, japonštinu nebo čínštinu.

Program OCR by rozhodně měl umožňovat export do některého známého editoru se zachováním typu písma a původního rozložení textu na stránce. Ideální je program, který má zabudován export do formátu RTF (textový formát Microsoftu se zachováním typů písma a rozložení textu, který umí každá verze Wordu, WordPerfectu apod.). Obvyklé je i přímé propojení programu OCR s editorem, převedený text se objeví rovnou v editoru a vy se nemusíte starat o to, kam a pod jakým jménem jste ho uložili. V poslední době je také samozřejmostí export do formátu HTML.

Nekupujte zajíce v pytli
Porovnal jsem základní schopnosti čtyř programů OCR na třech českých textech. Klíčová jsou dvě kritéria: čas potřebný k převodu a počet chyb ve výsledném dokumentu.

Testy jednoznačně ukazují, že programy ReadIris 32 a Recognita Standard jsou takřka nepoužitelné, nepotřebujeme-li pouze občas převést několik stran. Tyto verze se však přibalují ke skenerům a jsou tedy prakticky zdarma. Naproti tomu verze programů, za které si musíte připlatit, dosahují výrazně lepších výsledků. Našimi favority se stávají Recognita Plus 4 a FineReader 4 Professional. Stručně řečeno: Recognita je rychlejší a FineReader přesnější!

Naši favorité
Programy FineReader 4.0 Professional a Recognita Plus 4.0 stojí za instalaci zkušební verze. K FineReaderu je navíc nutné doinstalovat český doplněk, který umožní snímat češtinu. Oba programy budou zařazeny na příštím cédéčku Computeru (20/99).

FineReader umožňuje převod textu i z barevných předloh a jeho chybovost je podstatně menší než chybovost Recognity, což jasně mluví pro něj, kromě toho FineReader automaticky rozezná obrázky (logo, razítko apod.) v původním dokumentu a umístí je i do převedeného dokumentu. Na druhou stranu však nemá české ovládání a je podstatně pomalejší než Recognita.

Nasnímáno, převedeno, co teď?
Téměř každý převedený text bude obsahovat chyby, existuje však způsob, jak je poměrně rychle odstranit. Některé programy mají již vestavěnou kontrolu pravopisu, většinou je však výhodnější práci rozdělit do fáze převodu v programu OCR a oprav v textovém editoru. Převedený text tedy ve Wordu nebo jiném editoru podrobíte jazykové kontrole a označená slova opravíte.

Existují samozřejmě profesionální produkty pro snímání velkého množství dokumentů, jejich převod a archivaci s následným setříděním a vyhledáváním (viz přílohu v Computeru 2/98). Ty jsou však určeny pro masové převody a disponují jimi spíše specializované firmy, které snímají na zakázku.

Test č. 1 – předloha: 2 strany A5 kniha (dobrá kvalita, 300×300 dpi)

OCR doba převodu (vteřiny) počet chyb
FineReader 4 Prof 32 13
Recognita Plus 4 19 38
Recognita 3.2 Standard 8 > 61
ReadIris32 5 > 100

Test č. 2 – převod faxu (dobrá kvalita, 200×200 dpi)

OCR doba převodu (vteřiny) počet chyb
FineReader 4 Pro 15 8
Recognita Plus 4 6 29
Recognita 3.2 Standard 4 33
ReadIris32 5 > 50

Test č. 3 – převod faxu s tabulkou (špatná kvalita, 200×200 dpi)

OCR doba převodu (vteřiny) počet chyb
FineReader 4 Pro 52 > 80
Recognita Plus 4 16 > 80
Recognita 3.2 Standard 7 > 100
ReadIris32 9 > 100
Test byl proveden na počítači vybaveném procesorem Intel Celeron 400, základní desce FIC VB-601, 32 MB RAM PC 100 a pevném disku Western Digital 6,4 GB UltraDMA 66 pod Windows 95 SR2. Testy se uskutečnily bez učení, pouze s využitím základní omnifontové metody (viz rámeček). Předlohy testů byly nasnímány skenerem Microtek Phantom 336 CX v paralelním provedení, port nastaven na EPP v. 1.7. Doba snímání byla u všech tří dokumentů 50 sekund.

Zdroj: Computer

Váš názor Další článek: Come in Future – Invex pro ostatní

Témata článku: , , , , , , , , , , , , , , , , , , , , ,