Technologie | Strojové učení

V davu už se neschováte. Počítače najdou a rozpoznají většinu obličejů během okamžiku

Strojové rozpoznávání lidských tváří má zatím slabiny na větších snímcích anebo v případě, že je lidí na snímku větší množství. Je to obecný problém rozpoznávání objektů ve snímcích.

Nový výzkum ale ukázal, že se to dá překonat: stroj nejprve musí hledat větší věci, související s příslušnými objekty. Konstatovali to profesor robotiky Deva Ramanan a doktorand v tomto oboru Peiyun Hu z univerzity v Pittsburghu. Jejich studie byla uložena v arxiv-e a referoval o ní i web univerzity.

Nová metoda počítačového rozpoznávání přináší výrazné zlepšení oproti dosavadním. Chybovost rozpoznávání osob v davových snímcích u ní klesla na polovinu. Až 81 procent tváří, které software najde na snímcích, jsou opravdu lidské tváře. U jiných metod je běžná chybovost 29 až 64 procent.

507493655
Systém našel 685 tváří z přibližně 1000 přítomných

„Je to jako když spatříte párátko v ruce určité osoby. Párátko snadněji uvidíte, když máte náznaky, že někdo by mohl používat párátko. Hlavními stopami jsou v tomto ohledu orientace prstů, pohyb a poloha ruky,"vysvětlil Deva Ramanan. Při hledání tváře, která na snímku zabírá jen pár pixelů, se nejprve pátrá po těle nebo po skupině či davu lidí. Počítač zkrátka nejprve odhadne, kde by se tvář mohla nacházet.

K čemu je to dobré?

Škála využití počítačového vidění je obrovská. Bezpečnostní důvody se nabízí přímo automaticky. Ne náhodou tento výzkum podpořila IARPA (Intelligence Advanced Research Project Activity), federální organizace pro sice rizikové, ale potenciálně nesmírně přínosné high-tech projekty, působící v Úřadu ředitele zpravodajských služeb USA.

Nová metoda poslouží i pro „počítání hlav“ při odhadech účasti na akcích, včetně demonstrací či volebních shromáždění.

Podobně jako lidské oko

Využít při hledání objektů jejich kontext není až tak nový nápad. Až donedávna se však velmi těžko uváděl do praxe. Kódování kontextu vyžaduje takzvané vysokodimenzionální deskriptory. Zahrnují množství informací, avšak práce s nimi je výpočetně náročná.

Deva Ramanan a Peiyun Hu naproti tomu využili „jamkové“ deskriptory. Kontext kódují podobně jako lidský zrak. Naše zorné pole je zaostřeno na foveu (jamku) sítnice, kde je nejvyšší ostrost vidění.

921147452
Systém rozpozná i obličeje z větší části zakryté

Jamkový deskriptor analogicky poskytuje ostrý detail malé skvrnky na snímku, okolní plocha je rozmazanější. To nabízí dostatečný kontext pro určení významu zaostřené skvrnky, ale ne příliš velký, takže se počítač nezahltí.

Při hledání malých objektů na snímku nepomáhá zvýšení jejich rozlišení. Objekt pak tvoří mnoho pixelů, ale ty jsou ztraceny v oceánu ostatních. Kontext tak pomáhá při zaměření systému na ty oblasti, které nejpravděpodobněji opravdu obsahují lidskou tvář.

Deva Ramanan a Peiyun Hu vyvinuli v rámci systému nejen základní kontextuální analýzu obrazu, ale i několik detektorů pro pátrání po malých objektech v odlišných rozměrových škálách. To řeší situaci, kdy by jediný detektor, hledající obličej vysoký jen pár pixelů, zmátlo, že zachytí třeba nos několikanásobně větší než je očekávaná tvář.

Diskuze (17) Další článek: Při výběru SSD koukejte především na parametry, nikoliv na cenu

Témata článku: , , , , , , , , , , , , , , , , , , , , , , , ,