NeuralTalk: neuronová síť, která chápe dění na obrazu

Stanislav Janů 30. července 2015

Další
článek Světový trh s tablety pomalu klesá už třetí čtvrtletí SDÍLET NA FACEBOOKU TWEETNOUT

Detekovat objekty na fotografiích už umíme poměrně dlouhou dobu. Teprve před nedávnem se však umělá inteligence naučila chápat i to, co se na snímku odehrává.

Vyhledávání fotografií na Google Images už dlouhou dobu nepracuje s pouhým přiřazováním popisků ke konkrétnímu obrázku. Google používá algoritmy využívající neuronovou síť, které dokáží analyzovat snímek a detekovat na něm objekty. Když potom vyhledáte fotku kočky, Google najde i ty, které jsou chybně popsány jako snímky se psem. Google zkrátka vychází z dřívějších výsledků, kdy se naučil, jak taková kočka vypadá.

Umělá inteligence Googlu začala „snít“

I když jsou však podobné možnosti oproti původním obrázkovým vyhledávačům obrovským pokrokem, algoritmy v Google Images stále nechápou scénu odehrávající se na fotce. A právě o přesné rozpoznávání kompletního obsahu fotografie se snaží tým vědců na Stanfordově univerzitě. Jejich nástroj dokáže fotku analyzovat a popsat ji běžnou větou.

Takto dokáže NeuralTalk popsat obrázek

NeuralTalk

Používaný program je nazýván jako NeuralTalk a vzniká v rámci Laboratoře umělé inteligence, kterou vede Fei-Fei Li a společně s ní na nástroji pracoval také Andrej Karpathy. Ten mimo jiné v současné době pracuje na projektu Google DeepMind, který se zabývá například porozuměním a prací s běžnou řečí umělou inteligencí. Stanfordský NeuralTalk v současné době dokáže snímek rozdělit na jednotlivé segmenty s konkrétními objekty a přiřadit k nim i správný kontext.

K takto složitému rozpoznání dat a jejich interpretaci vývojáři využívají neuronovou síť, která se učí stejně jako lidský mozek. Pokud dítě poprvé uvidí desku se čtyřmi nohami a zároveň dostane informaci, že takto vypadá stůl, příště již bude vědět, na co kouká. A princip neuronové sítě rozpoznávající obrázky je velmi podobný. Nyní však umí vývojáři snímek kromě podstatných jmen popsat i slovesy. Jak takové popisování obrázků funguje v praxi, si můžete prohlédnout v demu, kde je automaticky popsána tisícovka fotek.

Vše začalo tím, že vývojáři nakrmili počítače výchozí databází popsaných obrázků. Použili databáze Flickr8K, Flickr30K a MSCOCO. Ty dohromady obsahují celkem 162 000 obrázků, které jsou ručně popsány. Každý z nich celkem pěti větami. Jen pro zajímavost – databáze byly vytvořeny pomocí Amazon Mechanical Turk, což je projekt zaměřující se na jednoduché činnosti, které stále nejdou dobře zautomatizovat a lidská síla vyjde levněji.

Na jednotlivých snímcích došlo k identifikování jednotlivých objektů a jejich přiřazení ke slovům a frázím, které se nachází v dodaných popiscích. Umělá inteligence se tedy z jednoho snímku mohla naučit, jak vypadá sedící kočka ovládající počítač, jak vypadá černý notebook a dřevěný stůl. Stejným způsobem byly analyzovány tisícovky popsaných fotografií. Následně mohlo dojít k samotnému generování popisků a jejich srovnávání s další částí ručně popsaných snímků. Pokud se vygenerovaný popisek neshodoval, mohlo dojít k další analýze a zpřesnění výsledků.

Ideální průběh celého experimentu

Celý proces byl samozřejmě mnohem složitější a jeho kompletní popis by vydal na desítky článků. Pokud se však přeci jen chcete do detailního bádání ponořit, vše potřebné najdete na webu Stanfordu.

Systém navíc rozhodně není dokonalý. Na dalším webu, kde jsou fotky opatřeny i hodnocením správnosti, se můžete přesvědčit, s čím si NeuralTalk může splést třeba slona.

Pro roboty i auta

Automatické popisování obrovského množství fotek na internetu je sice logickým využitím, avšak v dlouhodobém horizontu se takové schopnosti mohou rozšířit i mimo virtuální svět. V případě, že bude možné v reálném čase stejným způsobem analyzovat i video a strojově jej popsat, může vývoj vhodného nástroje například ulehčit pohyb nevidomých. Stejně tak by se mohlo jednat o další funkci bezpečnostních kamer, které v současné době umí rozpoznat obličej z databáze, avšak za nedlouho by mohlo přibýt i automatické upozorňování na vzniklé a rozpoznané nebezpečné situace. A stejně jako by podobné možnosti pomáhaly nevidomým, mohou se i roboti naučit pohybovat v běžném prostředí nejen pomocí senzorů používaných v současné době.

A nesmíme zapomenout ani na využití v automobilech, které je stále aktuálnější. Již mnohokrát zaznělo, že se z dopravních prostředků postupem času stanou superpočítače na čtyřech kolech. Předzvěstí může být projekt Drive PX, za kterým stoji Nvidia. Mozek automobilu obsahuje Tegru X1, která dokáže v reálném čase zpracovávat data z celkem dvanácti dvoumegapixelových kamer. Dokáže upozornit na chodce mířící k vozovce, projíždějícího cyklistu nebo auto ukryté v řidičově mrtvém úhlu. Na podobných systémech kromě Nvidie pracují i některé automobilky a podle některých spekulací se do vývoje má pustit i Apple.

O analýzu obrazu ze dvanácti kamer se stará Tegra X1.

Jak je vidět, hardwarové prostředky nám nechybí. K dispozici máme miniaturní čipy, které si v reálném čase poradí s obrazovým tokem přes 1,3 Gpx/s. Propojit můžeme desítky tisíc počítačů a využít je k automatizovanému popisování obrázků a velmi detailní analýze videa (případně hledání koček na Youtube). Vše ale záleží na vývojářích a vědcích, kteří se snaží o stále dokonalejší umělou inteligenci, která by se nejen svými schopnosti analyzovat kontext obrazu blížila lidskému mozku.