To není vtip: Kopírky Xeroxu pozměňují kopie dokumentů

Zní to neuvěřitelně, jako hoax a nesmysl, ale je to tak – skeny dokumentů vytvořené na kopírkách mohou obsahovat jiná čísla než originály! Může za to pozoruhodná chyba.

Nadaný německý vědec David Kriesel vzbudil svým objevem rozruch po celém světě. Nejedná se však o průlom v oborech navrhování autonomních systémů, distribuovaných sítí či výpočetní geometrie, kterým zasvětil své doktorandské studium, ale v náhodném odhalení chyby ve zkopírovaném dokumentu na obyčejné kopírce. Vložil do kopírky originál s vytištěným plánem půdorysu budovy, naskenoval jej a všiml si, že po vytištění kopie nesouhlasí některá čísla. Problém začal řešit a se svými poznatky se svěřil na blogu.

Xerox WorkCentre 7535.jpg
Hříšnice... kopírka Xerox WorkCentre 7535, na které byla chyba odhalena

Možná hned někomu svitne myšlenka, že využil funkce OCR (převod obrázku na text), dokument nejprve naskenoval, poté vytiskl a že je to jen chyba rozpoznávání. Ne, není. Podivuhodně modifikované kopie produkuje samotný skener v běžné kopírce Xeroxu, chybu opakuje i jiný model a aktuálně se již přidávají ostatní uživatele kopírek Xerox, že jim chybné skenování dělá problém rovněž. K přeměně znaků dojde jen v případě, že jsou napsané velmi malým písmem, ale nejedná se přitom o nějaké „splynutí“. Odlišnost znaků je jednoznačná.

Před a potom.png
Vlevo originál, vpravo kopie. Všimněte si rozdílů na konci prvního a třetího řádku (zdroj: dkriesel.com)

Jistě se hned domyslíte, jak fatální důsledky taková chyba může mít. Chybná kopie stavebního projektu, právního dokumentu, lékařské zprávy, finanční analýzy firmy… to může teoreticky představovat obrovská rizika. Naštěstí spíše jen teoreticky...

Na vině je JBIG2

David Kriesel zpočátku netušil, v čem může záhadná chyba spočívat. Posléze však přišel na jednu teoretickou možnost, která se po konzultaci s lidmi od Xeroxu ukázala jako správná. Kopírka naskenovaný originál dokumentu uchovává z důvodu rychlejšího zpracování a menší paměťové náročnosti v kompresním formátu. Xerox k tomu využívá kompresní standard JBIG2. A právě v něm se skrývá podstata chyby.

JBIG2 vychází z kompresní funkce patentované firmami IBM a Mitsubishi. Princip spočívá v tom, že se analyzuje originální obraz, rozparceluje se na malé plochy a zkoumá se jejich vzájemná podobnost – pokud se stejné objeví v dokumentu vícekrát, uloží se v grafické podobně pouze jednou a k ostatním lokacím už stačí jen informace, jakou část mají zobrazovat. Na fotografie je to značně nevhodné, ale na dokumenty s převažujícím textem velmi účinné řešení. Pro firemní kopírky ideální.

Jenomže teď se odhalilo nebezpečí tohoto postupu. Dílčí srovnávané části snímaného obrazu jsou natolik velké, že mohou obsáhnout i celý znak psaný drobnějším písmem. A určení podobnosti těchto obrazových částí je natolik benevolentní, že dovolí záměnu celých znaků podobného tvaru.

Náhoda odhalila, pokusy potvrdily

Poprvé David Kriesel chybu objevil v nákresu půdorysu. V každé místnosti bylo zakresleno informační pole s názvem místnosti a velikostí. Výtisk byl v malém měřítku, a tak byl text v informačních polích velmi malý, nicméně jednoznačně čitelný. Pohled na kopii tušil chybu, číslo z jednoho informačního pole bylo překopírováno do dalších dvou a neopraveno. Ovšem originál ukazoval, že se na nic nezapomnělo a každá místnost má jiný rozměr. V tomto případě zapříčinil JBIG2 záměnu celého čtyřciferného čísla.

Originál.png
Tady byla chyba odhalena – žlutě zvýrazněné boxy na originálu výkresu mají každý jiné číslo výměry (zdroj: dkriesel.com)

Kopii pořídil stroj Xerox WorkCentre 7535, a to i při opakovaném skenování. K dispozici byla ještě kopírka Xerox WorkCentre 7556, která stejnou chybu neopakovala vždy, nicméně ze tří po sobě jdoucích pokusů byly v kopii tři různé kombinace chyb.

Scany.png
Detaily skenů ukazují odlišné hodnoty v boxech z kopií dokumentů. První testovací kopírka naskenovala dokument vždy zcela špatně, druhá chyby střídala. (zdroj: dkriesel.com)

Poté přišlo na řadu již zcela cílené testování, jak si kopírka poradí se skenem tabulky s čísly, která je zapsaná fontem Arial o velikosti 7. A kopie byla zase jiná! Tentokrát docházelo k záměně na úrovni jednotlivých číslic, přičemž docházelo k záměně číslice 6 za číslici 8.

Testování.png
Vlevo pokusný originál, vpravo kopie s několika označenými rozdíly. Písmo Arial velikosti 7. (zdroj: dkriesel.com)

Na základě dalších ohlasů začal vznikat seznam zařízení, u kterých se chyba vyskytuje:

  • WorkCentre 7530
  • WorkCentre 7328
  • WorkCentre 7346
  • WorkCentre 7545
  • WorkCentre 7535
  • WorkCentre 7556
  • Xerox ColorQube 9203
  • Xerox ColorQube 9201
  • Xerox ColorQube 8700

Zatím nebyl problém hlášen u tiskových zařízení jiných výrobců, nicméně JBIG2 je volně dostupný standard, který zdaleka nevyužívá jen Xerox.

Není důvod k panice

David Kriesel byl přizván ke konferenčnímu hovoru se dvěma odpovědnými lidmi z Xeroxu a vyplynulo několik dalších skutečností. Tou nejpodstatnější bylo zjištění, že chybu lze eliminovat nastavením skeneru kopírky. Skener nabízí tři úrovně nastavení – od normálního pro velmi kvalitní snímání originálů. Komprese JBIG2 je přitom využívána jen v režimu „normální“, při vyšší stupních už se používá jiný kompresní algoritmus. Důležitým zjištěním bylo, že v prodejním stavu kopírek prý není nastavena volba „normální“, nýbrž „vyšší“ kvality.

V kanceláři Davida Kriesela však bylo i tiskáren nastaveno „normální“ snímání. Je to rychlejší a o nějakou nadstandardní kvalitu nebyl zájem. Mnohé ohlasy dávají tušit, že je toto nastavení ve firmách celkem běžné. O možnosti záměny znaků při tomto nastavení se od kopírky nedozvíte. Ba ani v návodu nebo na infolince. Nikdo o ní doposud zjevně nevěděl.

Xerox tak může ze situace vybruslit jen s jednoduchou změnou firmwaru. Ten by buď zcela odstranil využití JBIG2, anebo by přinesl přímo v menu nastavení informaci o tom, že v režimu „normální“ se může kopie od originálu drobně lišit. Firma logicky zvolila první možnost. Jak upozorňuje na svém webu, opravný balíček už se připravuje a bude k dispozici za pár týdnů. Kompresní formát JBIG2 už se nebude využívat. Dále Xerox upozorňuje, že pro eliminaci chyby stačí kopírku zresetovat do továrního nastavení, v rámci kterého není režim „normálního“ skenování aktivní. Případně si mohou majitelé zkontrolovat pouze toto nastavení.

Ačkoli bylo na začátku celkem šokující zjištění, nakonec není důvod pro paniku. K chybě při snímání dochází jen v případě velmi malých znaků, které se v dokumentech běžně nepoužívají, nebo jsou využity maximálně v rámci malých poznámek, které zpravidla nemají žádnou fatální informační váhu. Navíc ve výchozím stavu zařízení skenují správně a pro vyvolání chyby je nutné v nastavení zvolit režim úsporného, „normálního“ režimu. Při běžném kopírování běžných dokumentů není ani teoretická šance, že by se chyba mohla vyskytnout.

Diskuze (66) Další článek: Christie má první 4K DLP projektor s frekvencí 120 Hz na světě

Témata článku: , , , , , , , , , , , , , , , , , , , , , , , ,