Z PDF do Wordu i jinak: ABBYY FineReader vyšel ve verzi 14 a opět více usnadňuje digitalizaci dokumentů

Na digitalizaci dokumentů se hodí tzv. OCR nástroje, které převedou obrázek na editovatelný text. Nejznámějším nástrojem v tomto oboru je ABBYY FineReader, který nedávno vyšel ve verzi 14. Má vylepšenou OCR technologii, novou funkci pro porovnávání dokumentů a je rychlejší.

Program jsem při této příležitosti krátce vyzkoušel. Rozpoznávání textů je na velmi dobré úrovni a kromě samotných znaků pracuje i na základě slovníků. Čeština je k dispozici, ostatně v češtině je dostupné i prostředí programu. Výsledky převodu grafického textu na editovatelný jsou tak perfektní.

Klepněte pro větší obrázekKlepněte pro větší obrázek
ABBYY FineReader 14 a čistý naskenovaný text do formátu PDF. Žádný problém s převodem do editovatelného DOCX.

Jednoduché OCR dnes nabízí i různé webové služby zdarma. Jenže při digitalizaci dokumentů nejde jen o samotné texty, ale také o jejich strukturu, formátování, styly a v neposlední řadě také o doplňky v podobě tabulek, grafů či obrázků. V ideálním případě bude vše převedeno do editovatelného dokumentu s grafickými objekty, nicméně texty a tabulky zůstanou editovatelné.

ABBYY FineReader 14 nabízí obstojné výsledky. Dokumenty jako jsou smlouvy, technické zprávy, zápisy z jednání, tabulky s ceníky apod. převede s minimem chyb. S více strukturovanými dokumenty, jako je například stránka z časopisu, už je to horší. S různorodou typografií a grafickými prvky si občas neporadí korektně. Stěžejní text článku je ale převeden dobře.

Klepněte pro větší obrázekKlepněte pro větší obrázek
Strukturovaná tisková zpráva také dopadla výborně, formátování zůstalo zachováno

Pro rychlé převádění je určený přímý převod (lze i hromadně), ve kterém se ale občas může objevit nějaká chyba. Při požadavku na zcela přesný převod je vhodné převáděný dokument otevřít v tzv. OCR editoru. Tam program vyznačí všechny místa, kde si „není jistý“. Postupně jimi můžete proskákat a dohlédnout na každé sporné písmenko.

Klepněte pro větší obrázekKlepněte pro větší obrázek
Stránka z časopisu už se bez chyby neobešla. Samotný text článku je v pořádku, ale nadpisu s atypickým písmem kus chybělo. To už je pak nutné doladit ručně v editoru

Podobně funguje i nová funkce pro porovnávání dokumentů. Ta se hodí například při porovnávání různých verzí smluv apod. Zdroje mohou být různorodé - fotka, scan, originál... Porovnává se samotný text. Program vyhledá rozdíly nebo sporné prvky, a tyto označí.

Vstupními formáty pro převod textů do editovatelné podoby jsou všechny verze PDF dokumentů a nejrozšířenější formáty obrázků (IFF, JPEG, JBIG2, PNG, BMP, PCX, GIF, DjVu, XPS). Dokumenty se následně ukládají do DOC(X), XLS(X), PPTX, HTML, RTF, TXT, CSV, ODT, EPUB či FB2. Převod je možný i obráceně, tedy z editovatelného textu na obrázek či do PDF.

Dokument na vstupu nemusí být precizní scan či nějak upravená fotografie, stačí obyčejná fotka z mobilu, klidně trochu šikmo. Stačí, když je fotografie ostrá a písmena od podkladu rozpoznatelná. Program si hranice papíru najde a dokument srovná. Samozřejmě platí, čím kvalitnější zdroj, tím menší riziko chyby při převodu.

Klepněte pro větší obrázekKlepněte pro větší obrázek
Porovnávání - vlevo fotka z mobilu, napravo originál. Změnilo se něco?

ABBYY FineReader je šikovný nástroj. Dřív byl celkem rozšířen i v domácnostech, ale tam už si zpravidla vystačíme s jednoduššími OCR funkcemi dodávaným ke skenerům či multifunkčním tiskárnám, případně jednorázové online řešení. A tak FineReader cílí už primárně do firem. Tomu odpovídá i nabídka licencí:

Klepněte pro větší obrázek

Témata článku: Software, Epub

4 komentáře

Nejnovější komentáře

  • jakub novotný 15. 3. 2017 14:58:12
    Kdyby to někoho zajímalo, tak česká služba AppOnFly nabízí ABBYY bez...
  • alIien.cz 20. 2. 2017 20:32:31
    V tom posledním obrázku s cenovým přehledem chybí první sloupec - verze...
  • Vojtěch Šimon 20. 2. 2017 15:37:58
    Reklama se tu už neoznačuje či co?
Určitě si přečtěte

Operační systém běžným počítačům nedal Bill Gates, ale Gary Kildall

Operační systém běžným počítačům nedal Bill Gates, ale Gary Kildall

** Gary Kildall pochopil, že levné výpočetní čipy mohou posloužit jako univerzální počítače pro všechny ** Připravil pro ně proto první operační systém ** Později mu systém vyfoukl Microsoft a nazval ho MS DOS

23.  4.  2017 | Pavel Tronner | 56

Umělá inteligence je sice v plenkách, už teď ale přestáváme rozumět, jak vlastně funguje. To je problém

Umělá inteligence je sice v plenkách, už teď ale přestáváme rozumět, jak vlastně funguje. To je problém

** Už je to tady, lidé přestávají chápat počítače ** Systémy neuronových sítí začínají pracovat tak, že ani jejich tvůrci přesně neví, co se uvnitř děje ** Do budoucna to může být závažný problém

24.  4.  2017 | Jakub Čížek | 112

Před 35 lety měl premiéru legendární počítač ZX Spectrum. Připomeňte si „Gumáka“

Před 35 lety měl premiéru legendární počítač ZX Spectrum. Připomeňte si „Gumáka“

** Slavný osmibitový počítač Sinclair ZX Spectrum byl uveden právě před 35 lety ** Připomeňte si tento průkopnický počítač v tematických článcích ** Podívejte se, jak funguje dnes

23.  4.  2017 | Pavel Tronner | 13

Správný počítač má alespoň dva monitory. Anebo je to jinak?

Správný počítač má alespoň dva monitory. Anebo je to jinak?

** David si nedokáže představit práci bez dvou a více monitorů ** Kubovi naopak stačí jeden a ve více displejích se ztrácí ** Jaký přístup je lepší?

23.  4.  2017 | Jakub Čížek | 59

Brněnské soudy daly stop Uberu. Je to dobře, nebo krok zpět?

Brněnské soudy daly stop Uberu. Je to dobře, nebo krok zpět?

** Před několika měsíci začal Uber nabízet své služby i v Brně ** Nyní ale narazil, soudům se to totiž nelíbí ** Má sdílená ekonomika dostat zelenou?

22.  4.  2017 | Jakub Čížek | 28


Aktuální číslo časopisu Computer

Supertéma: moderní cestování

Kdy opravdu přijdou nové baterie?

Velké testy: 6 herních notebooků a 8 volantů

Recenze: AMD Ryzen řady 5