Jen pro velmi málo dokumentů se vyplatí najmout si někoho, kdo je za vás ručně přepíše. Naštěstí již delší dobu existují OCR programy, které z naskenovaných materiálů vytvoří počítačový dokument. V redakci jsme otestovali nejnovější verzi programu FineReader 5.0.
Tento článek vyšel v časopise Computer 6/01 dne 5. dubna 2001Pavel Nygrýn: Z papírových kanceláří se již několik let přechází pomalu, ale jistě ke kancelářím elektronickým. Zdá se však, že nepříjemně mnoho dokumentů se stále vyskytuje na papíře, a přestože byste je možná chtěli mít ve své databázi, nezbývá než sáhnout do šanonu a patřičnou složku najít ručně.
Jen pro velmi málo dokumentů se vyplatí najmout si někoho, kdo je za vás ručně přepíše. Naštěstí již delší dobu existuje technologie OCR (Optical Character Recognition) – tedy programy, které z naskenovaných materiálů vytvoří počítačový dokument. V redakci jsme otestovali nejnovější verzi programu FineReader 5.0. Po bezproblémové instalaci máte k dispozici nejen samotný program, ale pokud používáte Word, najdete v něm i novou ikonu, která umožní získávat dokumenty přímo ze skeneru. Osobně dávám přednost druhé variantě – naskenování do FineReaderu a odeslání do Wordu nebo jiného editoru. I při této operaci si ale vystačíte s jednou ikonou.
Jak vlastně celý proces probíhá? Nejprve dokument naskenujete v rozumném rozlišení (FineReader má nejraději 300 dpi v odstínech šedi). Naskenovaná stránka je automaticky rozpoznána a jsou určeny oblasti, které obsahují text, obrázky, tabulky ad. Tuto fázi můžete nechat zcela na FineReaderu, nebo pomocí myši upravit hranice oblastí – to je vhodné zejména u textů, které jsou uspořádány do tabulek bez ohraničení. Pokud byla mezera mezi sloupci příliš velká, FineReader tabulku neoznačil.
Pak následuje vlastní rozpoznávání jednotlivých znaků a vytváření textu. „Podezřelé“ znaky program barevně vyznačí a vy je můžete ihned opravit. Volitelně lze také použít kontrolu pravopisu pomocí slovníku.
Výsledný dokument (který může být pochopitelně i vícestránkový) potom můžete odeslat do jiných programů nebo uložit na disk.
U programů určených pro kancelář je nutností český jazyk. FineReader má nejen české rozhraní, ale i českou kontrolu pravopisu. Kromě ní zvládá ještě dalších 26 jazyků včetně slovníku a dalších více než 100 dokáže rozpoznávat. Vedle běžných jazyků umí i jazyky umělé (například esperanto) a dokonce formální (programovací jazyk a chemické vzorce). Samozřejmě existuje také verze, která zvládne i různé nelatinské abecedy (ta podporuje dohromady 176 jazyků). Kromě ukládání holého textu můžete vytvořit dokumenty pro Office, HTML pro web nebo přímo PDF. V posledním případě si ovšem budete muset pohrát s nastavením českých fontů.
Plusy a minusy |
+ čeština a další jazyky |
+ přesnost rozpoznávání |
- zatížení systému při práci na pozadí |
Úspěšnost rozpoznávání naskenovaného textu
Typ textu | Úspěšnost |
Jednoduchá stránka – pouze text | 100 % |
Složitější stránka – nadpisy, vysvětlivky, obrázky | 99,8 % |
Stránka s tabulkami – automaticky | 99,6 % |
Stránka s tabulkami – ruční úprava oblastí | 99,7 % |
Jako vstup byly použity ofocené a následně naskenované stránky z knihy. Kromě jednoho případu bylo použito zcela automatické rozpoznání bez kontroly pravopisu. Jako chyba bylo počítáno vše včetně špatného formátu písma – zejména v tabulce se střídalo normální písmo s tučným.
Program FineReader 5.0 Office CZ |
Zdroj: Conquest, Praha |
Telefon: (02) 84 00 01 11 |
Cena: 16 790 Kč vč. DPH (3 licence) |
Doporučená konfigurace: Windows 9x/NT/2000, 32 MB RAM, Pentium 133; skener ~ 300 dpi (stupně šedi) |