Z PDF do Wordu i jinak: ABBYY FineReader vyšel ve verzi 14 a opět více usnadňuje digitalizaci dokumentů

Na digitalizaci dokumentů se hodí tzv. OCR nástroje, které převedou obrázek na editovatelný text. Nejznámějším nástrojem v tomto oboru je ABBYY FineReader, který nedávno vyšel ve verzi 14. Má vylepšenou OCR technologii, novou funkci pro porovnávání dokumentů a je rychlejší.

Program jsem při této příležitosti krátce vyzkoušel. Rozpoznávání textů je na velmi dobré úrovni a kromě samotných znaků pracuje i na základě slovníků. Čeština je k dispozici, ostatně v češtině je dostupné i prostředí programu. Výsledky převodu grafického textu na editovatelný jsou tak perfektní.

Klepněte pro větší obrázekKlepněte pro větší obrázek
ABBYY FineReader 14 a čistý naskenovaný text do formátu PDF. Žádný problém s převodem do editovatelného DOCX.

Jednoduché OCR dnes nabízí i různé webové služby zdarma. Jenže při digitalizaci dokumentů nejde jen o samotné texty, ale také o jejich strukturu, formátování, styly a v neposlední řadě také o doplňky v podobě tabulek, grafů či obrázků. V ideálním případě bude vše převedeno do editovatelného dokumentu s grafickými objekty, nicméně texty a tabulky zůstanou editovatelné.

ABBYY FineReader 14 nabízí obstojné výsledky. Dokumenty jako jsou smlouvy, technické zprávy, zápisy z jednání, tabulky s ceníky apod. převede s minimem chyb. S více strukturovanými dokumenty, jako je například stránka z časopisu, už je to horší. S různorodou typografií a grafickými prvky si občas neporadí korektně. Stěžejní text článku je ale převeden dobře.

Klepněte pro větší obrázekKlepněte pro větší obrázek
Strukturovaná tisková zpráva také dopadla výborně, formátování zůstalo zachováno

Pro rychlé převádění je určený přímý převod (lze i hromadně), ve kterém se ale občas může objevit nějaká chyba. Při požadavku na zcela přesný převod je vhodné převáděný dokument otevřít v tzv. OCR editoru. Tam program vyznačí všechny místa, kde si „není jistý“. Postupně jimi můžete proskákat a dohlédnout na každé sporné písmenko.

Klepněte pro větší obrázekKlepněte pro větší obrázek
Stránka z časopisu už se bez chyby neobešla. Samotný text článku je v pořádku, ale nadpisu s atypickým písmem kus chybělo. To už je pak nutné doladit ručně v editoru

Podobně funguje i nová funkce pro porovnávání dokumentů. Ta se hodí například při porovnávání různých verzí smluv apod. Zdroje mohou být různorodé - fotka, scan, originál... Porovnává se samotný text. Program vyhledá rozdíly nebo sporné prvky, a tyto označí.

Vstupními formáty pro převod textů do editovatelné podoby jsou všechny verze PDF dokumentů a nejrozšířenější formáty obrázků (IFF, JPEG, JBIG2, PNG, BMP, PCX, GIF, DjVu, XPS). Dokumenty se následně ukládají do DOC(X), XLS(X), PPTX, HTML, RTF, TXT, CSV, ODT, EPUB či FB2. Převod je možný i obráceně, tedy z editovatelného textu na obrázek či do PDF.

Dokument na vstupu nemusí být precizní scan či nějak upravená fotografie, stačí obyčejná fotka z mobilu, klidně trochu šikmo. Stačí, když je fotografie ostrá a písmena od podkladu rozpoznatelná. Program si hranice papíru najde a dokument srovná. Samozřejmě platí, čím kvalitnější zdroj, tím menší riziko chyby při převodu.

Klepněte pro větší obrázekKlepněte pro větší obrázek
Porovnávání - vlevo fotka z mobilu, napravo originál. Změnilo se něco?

ABBYY FineReader je šikovný nástroj. Dřív byl celkem rozšířen i v domácnostech, ale tam už si zpravidla vystačíme s jednoduššími OCR funkcemi dodávaným ke skenerům či multifunkčním tiskárnám, případně jednorázové online řešení. A tak FineReader cílí už primárně do firem. Tomu odpovídá i nabídka licencí:

Klepněte pro větší obrázek

Témata článku: Software, Dok, Dokument, Epub, Editovatelný text, Ostré písmo, Nová funkce, Nadpis, Převádění, Verze, CSV

Určitě si přečtěte

Velká podzimní aktualizace Windows 10 je tady: Co přináší Fall Creators Update

Velká podzimní aktualizace Windows 10 je tady: Co přináší Fall Creators Update

** Po půl roce je tu další aktualizace Windows ** A opět přináší hlavně hromadu drobných kosmetických vylepšení ** Podívali jsme se na ty nejzajímavější

17.  10.  2017 | Jakub Čížek | 185

Budoucností Windows 10 je Fluent Design. Takto bude jednou vypadat celý systém

Budoucností Windows 10 je Fluent Design. Takto bude jednou vypadat celý systém

** Fluent Design je vzhled, do kterého postupně Microsoft převleče celý systém ** Staví na průhlednosti a velkých plochách ** Do Windows 10 se z části dostane už zítra při vydání podzimní aktualizace

16.  10.  2017 | Stanislav Janů | 155

Nejlepší optické iluze: Z toho vám půjde hlava kolem

Nejlepší optické iluze: Z toho vám půjde hlava kolem

** Mozek se nechá snadno ošálit, a to mnoha způsoby ** Podívejte se na několik nejlepších optických iluzí ** Iluze dokazují, že vnímání reality může být značně zkreslené

16.  10.  2017 | Vojtěch Malý

Jak funguje největší akumulátor v Česku: podívejte se do elektrárny Dlouhé Stráně

Jak funguje největší akumulátor v Česku: podívejte se do elektrárny Dlouhé Stráně

** Přečerpávací vodní elektrárna Dlouhé stráně je obdivuhodné technické dílo ** Stejná turbína vyrábí elektřinu i tlačí vodu zpět do horního jezera ** Strojovna elektrárny je zabudována v podzemí

19.  10.  2017 | David Polesný | 15


Aktuální číslo časopisu Computer

Nový seriál o programování elektroniky

Otestovali jsme 17 bezdrátových sluchátek

Jak na nákup vánočních dárků ze zahraničí

4 tankové tiskárny v přímém souboji