NeuralTalk: neuronová síť, která chápe dění na obrazu

Detekovat objekty na fotografiích už umíme poměrně dlouhou dobu. Teprve před nedávnem se však umělá inteligence naučila chápat i to, co se na snímku odehrává.
NeuralTalk: neuronová síť, která chápe dění na obrazu

Vyhledávání fotografií na Google Images už dlouhou dobu nepracuje s pouhým přiřazováním popisků ke konkrétnímu obrázku. Google používá algoritmy využívající neuronovou síť, které dokáží analyzovat snímek a detekovat na něm objekty. Když potom vyhledáte fotku kočky, Google najde i ty, které jsou chybně popsány jako snímky se psem. Google zkrátka vychází z dřívějších výsledků, kdy se naučil, jak taková kočka vypadá.

I když jsou však podobné možnosti oproti původním obrázkovým vyhledávačům obrovským pokrokem, algoritmy v Google Images stále nechápou scénu odehrávající se na fotce. A právě o přesné rozpoznávání kompletního obsahu fotografie se snaží tým vědců na Stanfordově univerzitě. Jejich nástroj dokáže fotku analyzovat a popsat ji běžnou větou.

Klepněte pro větší obrázek
Takto dokáže NeuralTalk popsat obrázek

NeuralTalk

Používaný program je nazýván jako NeuralTalk a vzniká v rámci Laboratoře umělé inteligence, kterou vede Fei-Fei Li a společně s ní na nástroji pracoval také Andrej Karpathy. Ten mimo jiné v současné době pracuje na projektu Google DeepMind, který se zabývá například porozuměním a prací s běžnou řečí umělou inteligencí. Stanfordský NeuralTalk v současné době dokáže snímek rozdělit na jednotlivé segmenty s konkrétními objekty a přiřadit k nim i správný kontext.

K takto složitému rozpoznání dat a jejich interpretaci vývojáři využívají neuronovou síť, která se učí stejně jako lidský mozek. Pokud dítě poprvé uvidí desku se čtyřmi nohami a zároveň dostane informaci, že takto vypadá stůl, příště již bude vědět, na co kouká. A princip neuronové sítě rozpoznávající obrázky je velmi podobný. Nyní však umí vývojáři snímek kromě podstatných jmen popsat i slovesy. Jak takové popisování obrázků funguje v praxi, si můžete prohlédnout v demu, kde je automaticky popsána tisícovka fotek.

Vše začalo tím, že vývojáři nakrmili počítače výchozí databází popsaných obrázků. Použili databáze Flickr8K, Flickr30K a MSCOCO. Ty dohromady obsahují celkem 162 000 obrázků, které jsou ručně popsány. Každý z nich celkem pěti větami. Jen pro zajímavost – databáze byly vytvořeny pomocí Amazon Mechanical Turk, což je projekt zaměřující se na jednoduché činnosti, které stále nejdou dobře zautomatizovat a lidská síla vyjde levněji.

Na jednotlivých snímcích došlo k identifikování jednotlivých objektů a jejich přiřazení ke slovům a frázím, které se nachází v dodaných popiscích. Umělá inteligence se tedy z jednoho snímku mohla naučit, jak vypadá sedící kočka ovládající počítač, jak vypadá černý notebook a dřevěný stůl. Stejným způsobem byly analyzovány tisícovky popsaných fotografií. Následně mohlo dojít k samotnému generování popisků a jejich srovnávání s další částí ručně popsaných snímků. Pokud se vygenerovaný popisek neshodoval, mohlo dojít k další analýze a zpřesnění výsledků.

Klepněte pro větší obrázek
Ideální průběh celého experimentu

Celý proces byl samozřejmě mnohem složitější a jeho kompletní popis by vydal na desítky článků. Pokud se však přeci jen chcete do detailního bádání ponořit, vše potřebné najdete na webu Stanfordu.

Systém navíc rozhodně není dokonalý. Na dalším webu, kde jsou fotky opatřeny i hodnocením správnosti, se můžete přesvědčit, s čím si NeuralTalk může splést třeba slona.

Pro roboty i auta

Automatické popisování obrovského množství fotek na internetu je sice logickým využitím, avšak v dlouhodobém horizontu se takové schopnosti mohou rozšířit i mimo virtuální svět. V případě, že bude možné v reálném čase stejným způsobem analyzovat i video a strojově jej popsat, může vývoj vhodného nástroje například ulehčit pohyb nevidomých. Stejně tak by se mohlo jednat o další funkci bezpečnostních kamer, které v současné době umí rozpoznat obličej z databáze, avšak za nedlouho by mohlo přibýt i automatické upozorňování na vzniklé a rozpoznané nebezpečné situace. A stejně jako by podobné možnosti pomáhaly nevidomým, mohou se i roboti naučit pohybovat v běžném prostředí nejen pomocí senzorů používaných v současné době.

A nesmíme zapomenout ani na využití v automobilech, které je stále aktuálnější. Již mnohokrát zaznělo, že se z dopravních prostředků postupem času stanou superpočítače na čtyřech kolech. Předzvěstí může být projekt Drive PX, za kterým stoji Nvidia. Mozek automobilu obsahuje Tegru X1, která dokáže v reálném čase zpracovávat data z celkem dvanácti dvoumegapixelových kamer. Dokáže upozornit na chodce mířící k vozovce, projíždějícího cyklistu nebo auto ukryté v řidičově mrtvém úhlu. Na podobných systémech kromě Nvidie pracují i některé automobilky a podle některých spekulací se do vývoje má pustit i Apple.

Klepněte pro větší obrázek
O analýzu obrazu ze dvanácti kamer se stará Tegra X1. 

Jak je vidět, hardwarové prostředky nám nechybí. K dispozici máme miniaturní čipy, které si v reálném čase poradí s obrazovým tokem přes 1,3 Gpx/s. Propojit můžeme desítky tisíc počítačů a využít je k automatizovanému popisování obrázků a velmi detailní analýze videa (případně hledání koček na Youtube). Vše ale záleží na vývojářích a vědcích, kteří se snaží o stále dokonalejší umělou inteligenci, která by se nejen svými schopnosti analyzovat kontext obrazu blížila lidskému mozku.

Témata článku: Technologie, Umělá inteligence, Neuronová síť, DeepMind, Tegra X1, Podobný objekt, Cyklista, Inteligence, People, Dění, Kočka, Detailní analýza, Obrovský pokrok, Detailní snímek, Illinois, Jednotlivé fotky, Welcome, Jednotlivý snímek, Google Images, Lidský mozek, Horse, Používaný program, Images

Určitě si přečtěte

Tesla chce změnit nákladní dopravu. Její elektrický náklaďák má ohromující parametry

Tesla chce změnit nákladní dopravu. Její elektrický náklaďák má ohromující parametry

** Tesla představila elektrický kamion ** Má obdivuhodný výkon i dojezd ** Prodávat by se měl už za dva roky

17.  11.  2017 | Vojtěch Malý | 163

30 počítačových brzd, které vám zpomalí Windows

30 počítačových brzd, které vám zpomalí Windows

Na webu najdete hromadu rad, jak zrychlit počítač a Windows. My jsme na to šli opačně a naopak jsme hledali činnosti, které ho nejvíce zpomalují. Toto je třicítka těch základních.

12.  11.  2017 | Jakub Čížek | 90

Elektronika, která nepotřebuje kabel ani baterii. Živí se rádiovým šumem

Elektronika, která nepotřebuje kabel ani baterii. Živí se rádiovým šumem

** Každá elektrická krabička má konektor pro napájení nebo baterii ** Jenže pozor, jednou by to tak nemuselo být ** Drobná elektronika se může živit rádiovými vlnami

14.  11.  2017 | Jakub Čížek | 15

Nejlepší notebooky do 10 tisíc, které si teď můžete koupit

Nejlepší notebooky do 10 tisíc, které si teď můžete koupit

** I pod hranicí desíti tisíc korun existují dobře použitelné notebooky ** Mohou plnit roli pracovního stroje i zařízení pro zábavu ** Nejlevnější použitelný notebook koupíte za pět a půl tisíce

16.  11.  2017 | Stanislav Janů | 52

Do 20 let nebude nikdo vlastnit auta, říká zkušený šéf několika automobilek

Do 20 let nebude nikdo vlastnit auta, říká zkušený šéf několika automobilek

** Bývalý šéf a expert z několika velkých automobilek se vyjádřil k budoucnosti tohoto průmyslu ** Do 20 let „nikdo“ nebude vlastnit auta ** Veškerá doprava bude řešená pomocí velkých logistických platforem

15.  11.  2017 | Karel Javůrek | 74


Aktuální číslo časopisu Computer

Otestovali jsme 5 HDR 4K televizorů

Jak natáčet video zrcadlovkou

Vytvořte si chytrou domácnost

Radíme s koupí počítačového zdroje