NeuralTalk: neuronová síť, která chápe dění na obrazu

Detekovat objekty na fotografiích už umíme poměrně dlouhou dobu. Teprve před nedávnem se však umělá inteligence naučila chápat i to, co se na snímku odehrává.
NeuralTalk: neuronová síť, která chápe dění na obrazu

Vyhledávání fotografií na Google Images už dlouhou dobu nepracuje s pouhým přiřazováním popisků ke konkrétnímu obrázku. Google používá algoritmy využívající neuronovou síť, které dokáží analyzovat snímek a detekovat na něm objekty. Když potom vyhledáte fotku kočky, Google najde i ty, které jsou chybně popsány jako snímky se psem. Google zkrátka vychází z dřívějších výsledků, kdy se naučil, jak taková kočka vypadá.

I když jsou však podobné možnosti oproti původním obrázkovým vyhledávačům obrovským pokrokem, algoritmy v Google Images stále nechápou scénu odehrávající se na fotce. A právě o přesné rozpoznávání kompletního obsahu fotografie se snaží tým vědců na Stanfordově univerzitě. Jejich nástroj dokáže fotku analyzovat a popsat ji běžnou větou.

Klepněte pro větší obrázek
Takto dokáže NeuralTalk popsat obrázek

NeuralTalk

Používaný program je nazýván jako NeuralTalk a vzniká v rámci Laboratoře umělé inteligence, kterou vede Fei-Fei Li a společně s ní na nástroji pracoval také Andrej Karpathy. Ten mimo jiné v současné době pracuje na projektu Google DeepMind, který se zabývá například porozuměním a prací s běžnou řečí umělou inteligencí. Stanfordský NeuralTalk v současné době dokáže snímek rozdělit na jednotlivé segmenty s konkrétními objekty a přiřadit k nim i správný kontext.

K takto složitému rozpoznání dat a jejich interpretaci vývojáři využívají neuronovou síť, která se učí stejně jako lidský mozek. Pokud dítě poprvé uvidí desku se čtyřmi nohami a zároveň dostane informaci, že takto vypadá stůl, příště již bude vědět, na co kouká. A princip neuronové sítě rozpoznávající obrázky je velmi podobný. Nyní však umí vývojáři snímek kromě podstatných jmen popsat i slovesy. Jak takové popisování obrázků funguje v praxi, si můžete prohlédnout v demu, kde je automaticky popsána tisícovka fotek.

Vše začalo tím, že vývojáři nakrmili počítače výchozí databází popsaných obrázků. Použili databáze Flickr8K, Flickr30K a MSCOCO. Ty dohromady obsahují celkem 162 000 obrázků, které jsou ručně popsány. Každý z nich celkem pěti větami. Jen pro zajímavost – databáze byly vytvořeny pomocí Amazon Mechanical Turk, což je projekt zaměřující se na jednoduché činnosti, které stále nejdou dobře zautomatizovat a lidská síla vyjde levněji.

Na jednotlivých snímcích došlo k identifikování jednotlivých objektů a jejich přiřazení ke slovům a frázím, které se nachází v dodaných popiscích. Umělá inteligence se tedy z jednoho snímku mohla naučit, jak vypadá sedící kočka ovládající počítač, jak vypadá černý notebook a dřevěný stůl. Stejným způsobem byly analyzovány tisícovky popsaných fotografií. Následně mohlo dojít k samotnému generování popisků a jejich srovnávání s další částí ručně popsaných snímků. Pokud se vygenerovaný popisek neshodoval, mohlo dojít k další analýze a zpřesnění výsledků.

Klepněte pro větší obrázek
Ideální průběh celého experimentu

Celý proces byl samozřejmě mnohem složitější a jeho kompletní popis by vydal na desítky článků. Pokud se však přeci jen chcete do detailního bádání ponořit, vše potřebné najdete na webu Stanfordu.

Systém navíc rozhodně není dokonalý. Na dalším webu, kde jsou fotky opatřeny i hodnocením správnosti, se můžete přesvědčit, s čím si NeuralTalk může splést třeba slona.

Pro roboty i auta

Automatické popisování obrovského množství fotek na internetu je sice logickým využitím, avšak v dlouhodobém horizontu se takové schopnosti mohou rozšířit i mimo virtuální svět. V případě, že bude možné v reálném čase stejným způsobem analyzovat i video a strojově jej popsat, může vývoj vhodného nástroje například ulehčit pohyb nevidomých. Stejně tak by se mohlo jednat o další funkci bezpečnostních kamer, které v současné době umí rozpoznat obličej z databáze, avšak za nedlouho by mohlo přibýt i automatické upozorňování na vzniklé a rozpoznané nebezpečné situace. A stejně jako by podobné možnosti pomáhaly nevidomým, mohou se i roboti naučit pohybovat v běžném prostředí nejen pomocí senzorů používaných v současné době.

A nesmíme zapomenout ani na využití v automobilech, které je stále aktuálnější. Již mnohokrát zaznělo, že se z dopravních prostředků postupem času stanou superpočítače na čtyřech kolech. Předzvěstí může být projekt Drive PX, za kterým stoji Nvidia. Mozek automobilu obsahuje Tegru X1, která dokáže v reálném čase zpracovávat data z celkem dvanácti dvoumegapixelových kamer. Dokáže upozornit na chodce mířící k vozovce, projíždějícího cyklistu nebo auto ukryté v řidičově mrtvém úhlu. Na podobných systémech kromě Nvidie pracují i některé automobilky a podle některých spekulací se do vývoje má pustit i Apple.

Klepněte pro větší obrázek
O analýzu obrazu ze dvanácti kamer se stará Tegra X1. 

Jak je vidět, hardwarové prostředky nám nechybí. K dispozici máme miniaturní čipy, které si v reálném čase poradí s obrazovým tokem přes 1,3 Gpx/s. Propojit můžeme desítky tisíc počítačů a využít je k automatizovanému popisování obrázků a velmi detailní analýze videa (případně hledání koček na Youtube). Vše ale záleží na vývojářích a vědcích, kteří se snaží o stále dokonalejší umělou inteligenci, která by se nejen svými schopnosti analyzovat kontext obrazu blížila lidskému mozku.

Témata článku: Technologie, Umělá inteligence, Neuronová síť, DeepMind, Tegra X1, Podobný objekt, Inteligence, Detailní snímek, Kočka, Detailní analýza, Dění, Obrovský pokrok, People, Illinois, Cyklista, Google Images, Používaný program, Lidský mozek, Images, Jednotlivý snímek, Welcome, Horse, Jednotlivé fotky

Určitě si přečtěte

Velká podzimní aktualizace Windows 10 je tady: Co přináší Fall Creators Update

Velká podzimní aktualizace Windows 10 je tady: Co přináší Fall Creators Update

** Po půl roce je tu další aktualizace Windows ** A opět přináší hlavně hromadu drobných kosmetických vylepšení ** Podívali jsme se na ty nejzajímavější

17.  10.  2017 | Jakub Čížek | 186

Budoucností Windows 10 je Fluent Design. Takto bude jednou vypadat celý systém

Budoucností Windows 10 je Fluent Design. Takto bude jednou vypadat celý systém

** Fluent Design je vzhled, do kterého postupně Microsoft převleče celý systém ** Staví na průhlednosti a velkých plochách ** Do Windows 10 se z části dostane už zítra při vydání podzimní aktualizace

16.  10.  2017 | Stanislav Janů | 155

Jak funguje největší akumulátor v Česku: podívejte se do elektrárny Dlouhé Stráně

Jak funguje největší akumulátor v Česku: podívejte se do elektrárny Dlouhé Stráně

** Přečerpávací vodní elektrárna Dlouhé stráně je obdivuhodné technické dílo ** Stejná turbína vyrábí elektřinu i tlačí vodu zpět do horního jezera ** Strojovna elektrárny je zabudována v podzemí

19.  10.  2017 | David Polesný | 19

Nejlepší optické iluze: Z toho vám půjde hlava kolem

Nejlepší optické iluze: Z toho vám půjde hlava kolem

** Mozek se nechá snadno ošálit, a to mnoha způsoby ** Podívejte se na několik nejlepších optických iluzí ** Iluze dokazují, že vnímání reality může být značně zkreslené

16.  10.  2017 | Vojtěch Malý


Aktuální číslo časopisu Computer

Nový seriál o programování elektroniky

Otestovali jsme 17 bezdrátových sluchátek

Jak na nákup vánočních dárků ze zahraničí

4 tankové tiskárny v přímém souboji