Umělá inteligence | Web | Strojové učení | Česko

České Rajče je stále plné dětských nahotin. Student pomocí A.I. analyzoval miliony fotek

  • Rajče.net má odjakživa problémy s choulostivými fotkami dětí
  • Student zlínské univerzity analyzoval jeho katalog
  • Neuronová síť doposud prozkoumala 6 milionů snímků

Česko patří k pilířům současného internetového pornografického průmyslu (více zde) a je na nejlepší cestě k tomu, aby se stalo tahounem i toho ilegálního – pedofilního. Vděčí za to jedné ze svých letitých webových fotogalerií – starému dobrému Rajčeti, které dnes patří pod křídla portálu iDnes.cz.

Pokud jste byli posledních deset let v kómatu, jen připomenu, že je Rajče už roky kritizované za to, že umožňuje veřejné prohlížení soukromých fotografií ze zahrady nebo dovolené, přičemž na snímcích nejsou jen tátové a mámy v rouše Evině, ale občas i jejich ratolesti počínaje batolaty a konče školáky.

Fotky nahých dětí nikdy nepublikujte veřejně

Na tom by samozřejmě nebylo nic zvláštního – je přece naprosto normální, že skrze web ukážeme příbuzným a přátelům fotky od moře a jak nám Kubíček krásně roste, problém ale spočívá v tom, že uživatelé Rajčete podobná choulostivá alba až příliš často nezamykají. Jsou veřejně dostupná komukoliv na internetu.

e34b3327-acd8-4cd9-8b46-589087bce7af
Rajče na rozdíl třeba od Fotek Google postaveno na veřejném sdílení alb. Právě proto byste měli dvakrát přemýšlet, co na něj bez dalšího zabezpečení opravdu nahrajete.

Provozovatel služby s tím už roky bojuje, zdá se ale, že bez valných výsledků. Přitom jeho vlastní podmínky něco takového vysloveně zakazují. Stačí nahlédnout do vcelku přehledných pravidel na bod 13, který začíná slovy:

„Obsah zobrazující nahé osoby, zejména mladší osmnácti let, je na Rajče povoleno umisťovat pouze do soukromých alb chráněných kódem.“

Přesto všechno si webová galerie postupně získala renomé i v zahraničí jako snadný zdroj, kde najít holé dětské zadky, přičemž některá veřejná alba služby se jeví dokonce jako cílené úložiště pedofilních fotografií. Stručně řečeno, autorům Rajčete se do nějaké hlubší analýzy, co na svém webu vlastně mají, asi ani moc nechce. Přitom jsou to pochopitelně i oni, kdo nese případnou právní odpovědnost.

13 milionů fotek, 2,6 milionů alb

No dobrá, možná si řeknete, že jsou dnes na Rajčeti miliony fotografií od stovek tisíc uživatelů, takže není v lidských silách zkontrolovat, co je přinejmenším na těch veřejně publikovaných. A my vám musíme dát za pravdu.

e164681a-f61c-4985-99bb-1f3bd73d6d89
FIlip Šedivý využil současný fenomén strojového učení k hloubkové analýze Rajčete

V lidských silách to opravdu není, v těch strojových ale rozhodně ano. A pokud na to nemá technické kapacity přímo Rajče, mělo by se spojit s Filipem Šedivým, studentem Univerzity Tomáše Bati ve Zlíně, který to udělal za něj.

Filipa stejně jako mnohé další zajímalo, jak je to s těmi pochybnými fotografiemi na Rajčeti ve skutečnosti, a tak se v rámci své studentské práce rozhodl strojově analyzovat každý profil a každé veřejně sdílené album, na které narazí jeho indexovací robot.

e43e4947-58e1-4612-8442-fce15eca5520
V patičce každého profilu zobrazí Rajče několik dalších náhodných profilů, indexovací robot to má tedy relativně snadné

Kupodivu to nebylo tak složité, jak nám totiž Filip napsal, stačilo skrze Google dohledat jen několik uživatelských profilů. Na každém z nich pak Rajče v patičce nabídne dalších osm, takže indexovací robot po určitém čase prošel podstatnou část katalogu a prozkoumal bezmála 200 tisíc účtů, 2,6 milionů alb a 13 milionů snímků.

Těžkou práci odvedou stroje 

Jenže fotografie jsou samy o sobě naprosto k ničemu. Aby se výzkumník dozvěděl, co na nich vlastně je, potřeboval algoritmus, který by je protřídil. A zde už na scénu konečně nastupuje strojové učení a neuronová síť – tedy počítačový algoritmus, který se pomocí statistické analýzy učí, jak třídit data – vytváří jejich pravděpodobnostní model.

Jak se učí neuronky

Základní principy jsme si na Živě.cz popsali už mnohokrát – třeba na příkladu mé meteorologické neuronové sítě Boženka, která umí rozpoznávat typ počasí (jasno, polojasno, oblačno, zataženo) na libovolné vstupní fotografii.

Bez strojového učení a neuronových sítí bych musel vytvořit nějaký vlastní a poměrně komplikovaný algoritmus, který by na takové fotografii počítal třeba pixely s modrou barvou (jasno) a hledal hrany a strukturu bílých mraků (polojasno, oblačno).

08188fa1-2aac-490f-a81c-21d2c80636f1
Neuronová síť odhaduje základní typ počasí na libovolné vstupní fotografii. V tomto případě na snímku z webkamery ČHMÚ.

Já namísto toho použil jednu z hotových neuronových sítí pro rozpoznávání obrázků Inception v3 a platformu pro zpracovávání strojového učení Google TensorFlow. Poté jsem vytvořil tři složky jasno, polojasno a zataženo a každou z nich naplnil několika tisíci studijních fotografií s odpovídajícím typem počasí.

Nakonec jsem na výkonném počítači spustil samotné strojové učení – v tomto případě přeučení dílčí části již hotové neuronové sítě Inception. To znamená, že si moje neuronka na základě studijních dat postupně vytvářela nový model, jak vypadá hezké a jak špatné počasí, přičemž k detekci využívala již předchozí znalosti, a tak mohlo být učení mnohem rychlejší a výsledek přesnější.

9ccbcf9e-679e-446f-b1eb-b40d84cbcc96
Setříděná studijní data mohou vypadat třeba takto. V horní části jsou fotografie s jasnou oblohou, ve střední s polojasnou až oblačnou a v závěru jsou snímky se zataženou, deštivou a zamlženou oblohou. 

Detekční schopnosti hotové neuronové sítě tedy byly tak dobré, jak dobrá byla mnou dodaná studijní data a případně parametry samotného učení. Co přesně ale obsahoval hotový statistický model sítě – tedy ona znalost, jak vypadá hezká a škaredá obloha – o velikosti zhruba 100 MB, vlastně netuším.

Stručně řečeno, studijní data jsou vše, a tak není divu, že jsou dnes ve studiu A.I. nejdále společnosti jako Google, Facebook nebo Microsoft, Mají jich prostě hodně. 

Volba padla na MobileNet

Filip ke svému vlastnímu strojovému učení použil neuronovou síť MobileNet2 a opět TensorFlow, na rozdíl od mého primitivního detektoru počasí (viz box výše) ji však neučil na modrou a zamračenou oblohu, ale právě na osoby na fotografiích z Rajčete.

30cfb70b-fa27-4c29-8698-ab1f79e43792
Děti tvoří jasnou většinu všech doposud analyzovaných snímků

Nejprve tedy musel vytvořit ručně roztříděná studijní data – kategorie s fotografiemi dospělých osob, dětí a nakonec i jiných objektů, aby strojové učení dokázalo rozlišovat mezi malým Kubíčkem, obnaženým ženským ňadrem i panenkou v pleťových barvách, která by jej mohla zmást.

Nakonec potřeboval pořádnou mašinu, strojové učení je totiž výpočetně velmi náročný proces, který by na běžném laptopu mohl zabrat celé dny a týdny bez nejistého výsledku. A tady už na scénu nastupuje brněnské A.I. studio Ximilar, které zlínskému studentovi vyšlo vstříc a pustilo jej do své výkonné infrastruktury.

Neuronka doposud prošla 6 milionů snímků

Výsledek? Bez nadsázky dechberoucí. Jakmile se Filipova síť naučila rozpoznávat nahé dětské postavy, rozlišovat babičky od batolat, retrívry od dětí u zahradního bazénku a plastové panenky od snímků z nudapláží, mohl ji konečně zapojit do automatického indexování oněch mnoha milionů snímků na Rajčeti. K dnešnímu dni jeho databáze čítá více než 6 milionů fotek, které už neuronka viděla a popsala, a tak je zhruba v polovině.

5528a8a6-284e-48c6-b450-7f5da32031fd
Struktura Filipovy databáze Rajčete

Filip může k databázi přistupovat skrze vlastní webové rozhraní Datový analyzátor, ve kterém si snadno zobrazí miniatury skutečných snímků podle hromady filtrů, aktuální verze neuronové sítě, kategorie nebo dokonce i konkrétního účtu na Rajčeti.

2c682b04-1f14-48ee-858d-324ccd30339b
Statistika snímků podle místa pořízení a věkového složení

Tisíce problematických fotografií

Filipova neuronka umí hledat kategorie nahé děti, děti, dospělí a příroda (v podstatě vše ostatní), přičemž u každé z nich si může nastavit pravděpodobnost. Může si tedy zobrazit všechny snímky, o kterých si neuronová síť myslí, že se 100% pravděpodobností obsahují nahé děti, načež se zobrazí šachovnice více než tisícovky těch nejproblematičtějších snímků na celém Rajčeti.

d7a2a5cd-ed5f-44fd-86d7-57fb60e41d11
Datový vizualizátor slouží jako webové rozhraní pro kontrolu schopností neuronové sítě

Stačí však pravděpodobnost snížit třeba na 90 %, načež množství nalezených snímků poskočí na více než 13 tisíc. Už se nebude jednat jen o ty nejexplicitnější snímky, stále to však bude krajně choulostivý obsah, jehož publikace na veřejném internetu je nanejvýš diskutabilní.

Opět připomenu, že výzkumník ze zlínské univerzity analyzuje veřejně dostupná alba a fotografie, veškerý explicitní materiál tedy není nikterak chráněný a stejným způsobem se k němu dostane jakýkoliv jiný internetový indexovací robot. Nejen ten od Googlu, Bingu a dalších vyhledávačů, ale i takový, který jej bude poté sdílet třeba na nejrůznějších darknetových fórech s pedofilní tematikou.

93a031d0-ce53-40e4-90f8-be9d6c656d9f
Klasifikace jedné z nalezených fotografií. Neuronová síť je se 100% jistotou přesvědčená, že se jedná o kategorii Nahé dítě a má pravdu. Fotografie je veřejně sdílená.

Ze stejného důvodu Filip ke svému Datovému vizualizátoru pochopitelně nepustí veřejnost, snadno by totiž mohlo dojít k jeho zneužití.

Vaše děti na pochybných webových fórech

Experiment Filipa Šedivého z Univerzity Tomáše Bati je v tuto chvíli pravděpodobně nejrozsáhlejší analýzou veřejně sdílených fotografií na Rajčeti a dokladem, že ohromné množství jeho uživatelů vědomě, či nevědomě i nadále porušuje podmínky služby.

A byť je většina fotografií relativně neškodná, vzhledem k velikosti služby, která čítá miliony alb, tu stále najdete hromadu snadno zneužitelných snímků bez náznaku jakékoliv ochrany.

Rajčeti tedy doporučujeme, aby si Filipa Šedivého najalo na důkladný audit, no a těm, kteří stejné službě svěřili své fotografie z dovolené s dětmi, aby citlivá alba chránili heslem a uvědomili si, že se možná nebude dívat jen babička a kamarádky z práce, ale i někdo jiný…  

Diskuze (72) Další článek: Hloupé omezení padlo: při spojení telefonu s Windows 10 uvidíte už více než jen 25 fotek

Témata článku: , , , , , , , , , , , , , , , , , , , , , , , ,