NeuralTalk: neuronová síť, která chápe dění na obrazu

Detekovat objekty na fotografiích už umíme poměrně dlouhou dobu. Teprve před nedávnem se však umělá inteligence naučila chápat i to, co se na snímku odehrává.
NeuralTalk: neuronová síť, která chápe dění na obrazu

Vyhledávání fotografií na Google Images už dlouhou dobu nepracuje s pouhým přiřazováním popisků ke konkrétnímu obrázku. Google používá algoritmy využívající neuronovou síť, které dokáží analyzovat snímek a detekovat na něm objekty. Když potom vyhledáte fotku kočky, Google najde i ty, které jsou chybně popsány jako snímky se psem. Google zkrátka vychází z dřívějších výsledků, kdy se naučil, jak taková kočka vypadá.

I když jsou však podobné možnosti oproti původním obrázkovým vyhledávačům obrovským pokrokem, algoritmy v Google Images stále nechápou scénu odehrávající se na fotce. A právě o přesné rozpoznávání kompletního obsahu fotografie se snaží tým vědců na Stanfordově univerzitě. Jejich nástroj dokáže fotku analyzovat a popsat ji běžnou větou.

Klepněte pro větší obrázek
Takto dokáže NeuralTalk popsat obrázek

NeuralTalk

Používaný program je nazýván jako NeuralTalk a vzniká v rámci Laboratoře umělé inteligence, kterou vede Fei-Fei Li a společně s ní na nástroji pracoval také Andrej Karpathy. Ten mimo jiné v současné době pracuje na projektu Google DeepMind, který se zabývá například porozuměním a prací s běžnou řečí umělou inteligencí. Stanfordský NeuralTalk v současné době dokáže snímek rozdělit na jednotlivé segmenty s konkrétními objekty a přiřadit k nim i správný kontext.

K takto složitému rozpoznání dat a jejich interpretaci vývojáři využívají neuronovou síť, která se učí stejně jako lidský mozek. Pokud dítě poprvé uvidí desku se čtyřmi nohami a zároveň dostane informaci, že takto vypadá stůl, příště již bude vědět, na co kouká. A princip neuronové sítě rozpoznávající obrázky je velmi podobný. Nyní však umí vývojáři snímek kromě podstatných jmen popsat i slovesy. Jak takové popisování obrázků funguje v praxi, si můžete prohlédnout v demu, kde je automaticky popsána tisícovka fotek.

Vše začalo tím, že vývojáři nakrmili počítače výchozí databází popsaných obrázků. Použili databáze Flickr8K, Flickr30K a MSCOCO. Ty dohromady obsahují celkem 162 000 obrázků, které jsou ručně popsány. Každý z nich celkem pěti větami. Jen pro zajímavost – databáze byly vytvořeny pomocí Amazon Mechanical Turk, což je projekt zaměřující se na jednoduché činnosti, které stále nejdou dobře zautomatizovat a lidská síla vyjde levněji.

Na jednotlivých snímcích došlo k identifikování jednotlivých objektů a jejich přiřazení ke slovům a frázím, které se nachází v dodaných popiscích. Umělá inteligence se tedy z jednoho snímku mohla naučit, jak vypadá sedící kočka ovládající počítač, jak vypadá černý notebook a dřevěný stůl. Stejným způsobem byly analyzovány tisícovky popsaných fotografií. Následně mohlo dojít k samotnému generování popisků a jejich srovnávání s další částí ručně popsaných snímků. Pokud se vygenerovaný popisek neshodoval, mohlo dojít k další analýze a zpřesnění výsledků.

Klepněte pro větší obrázek
Ideální průběh celého experimentu

Celý proces byl samozřejmě mnohem složitější a jeho kompletní popis by vydal na desítky článků. Pokud se však přeci jen chcete do detailního bádání ponořit, vše potřebné najdete na webu Stanfordu.

Systém navíc rozhodně není dokonalý. Na dalším webu, kde jsou fotky opatřeny i hodnocením správnosti, se můžete přesvědčit, s čím si NeuralTalk může splést třeba slona.

Pro roboty i auta

Automatické popisování obrovského množství fotek na internetu je sice logickým využitím, avšak v dlouhodobém horizontu se takové schopnosti mohou rozšířit i mimo virtuální svět. V případě, že bude možné v reálném čase stejným způsobem analyzovat i video a strojově jej popsat, může vývoj vhodného nástroje například ulehčit pohyb nevidomých. Stejně tak by se mohlo jednat o další funkci bezpečnostních kamer, které v současné době umí rozpoznat obličej z databáze, avšak za nedlouho by mohlo přibýt i automatické upozorňování na vzniklé a rozpoznané nebezpečné situace. A stejně jako by podobné možnosti pomáhaly nevidomým, mohou se i roboti naučit pohybovat v běžném prostředí nejen pomocí senzorů používaných v současné době.

A nesmíme zapomenout ani na využití v automobilech, které je stále aktuálnější. Již mnohokrát zaznělo, že se z dopravních prostředků postupem času stanou superpočítače na čtyřech kolech. Předzvěstí může být projekt Drive PX, za kterým stoji Nvidia. Mozek automobilu obsahuje Tegru X1, která dokáže v reálném čase zpracovávat data z celkem dvanácti dvoumegapixelových kamer. Dokáže upozornit na chodce mířící k vozovce, projíždějícího cyklistu nebo auto ukryté v řidičově mrtvém úhlu. Na podobných systémech kromě Nvidie pracují i některé automobilky a podle některých spekulací se do vývoje má pustit i Apple.

Klepněte pro větší obrázek
O analýzu obrazu ze dvanácti kamer se stará Tegra X1. 

Jak je vidět, hardwarové prostředky nám nechybí. K dispozici máme miniaturní čipy, které si v reálném čase poradí s obrazovým tokem přes 1,3 Gpx/s. Propojit můžeme desítky tisíc počítačů a využít je k automatizovanému popisování obrázků a velmi detailní analýze videa (případně hledání koček na Youtube). Vše ale záleží na vývojářích a vědcích, kteří se snaží o stále dokonalejší umělou inteligenci, která by se nejen svými schopnosti analyzovat kontext obrazu blížila lidskému mozku.

Diskuze (29) Další článek: Světový trh s tablety pomalu klesá už třetí čtvrtletí

Témata článku: Technologie, Umělá inteligence, Neuronová síť, DeepMind, Tegra X1, Lidský mozek, Obrovský pokrok, GPX, Používaný program, Illinois, Inteligence, Detailní snímek, Horse, Mechanical Turk, Kompletní obsah, Welcome, Cyklista, Běžné prostředí, Google Images, NLP, Podobný objekt, Dění, Jednotlivé fotky, Miniaturní čip, Kompletní popis


Určitě si přečtěte

Dell XPS 13: Když vás ostatní doženou až za tři roky

Dell XPS 13: Když vás ostatní doženou až za tři roky

** XPS 13 nastartoval trend notebooků bez rámečků ** Letošní model kompletně přechází na USB-C ** Navzdory malému tělu se řadí výkon ke špičce

Tomáš Holčík | 33

Kde se bere elektřina v zásuvce? Poznejte 10 tajemství venkovních stožárů s dráty

Kde se bere elektřina v zásuvce? Poznejte 10 tajemství venkovních stožárů s dráty

Elektřina se vyrábí v elektrárnách, ale do zásuvek v našich domovech to pak má ještě hodně daleko. Dnes se na tuhle dlouhou cestu podíváme.

David Polesný | 81

Do kanceláře to nejlepší: Test notebooku HP Elitebook 830 G5

Do kanceláře to nejlepší: Test notebooku HP Elitebook 830 G5

** HP se u nového Elitebooku snaží o nadstandardní výbavu ** Notebook klade důraz na videokonference ve firemním prostředí ** Unikátní displej umí omezit čitelnost z boku

Tomáš Holčík | 57

Xiaomi Yeelight: Wi-Fi LED žárovka za pár stovek, kterou můžete ovládat i hlasem

Xiaomi Yeelight: Wi-Fi LED žárovka za pár stovek, kterou můžete ovládat i hlasem

** Na eBayi aspol. ji koupíte za čtyři stovky ** Má Wi-Fi a povedenou appku ** Spojíte ji s Googlem, Amazonem, IFTTT i vlastním systémem

Jakub Čížek | 42

ELONOVINKY: Druhá strana popularity – servisy Tesly jsou přeplněné a nestíhají

ELONOVINKY: Druhá strana popularity – servisy Tesly jsou přeplněné a nestíhají

** Automobilka Tesla neustále zvyšuje prodeje svých vozů ** S kvapně rostoucím počtem nových majitelů Tesel ale stoupá i počet zákazníků servisů ** Servisy Tesly nestíhají, firma proto řeší další akutní problém

Petr Melechin, Karel Dlabač | 72

Alza si za osobní odběr účtuje už 45 Kč. Když zaplatíte předem, dostanete slevu

Alza si za osobní odběr účtuje už 45 Kč. Když zaplatíte předem, dostanete slevu

** Osobní odběr v Alze vyjde na 45 Kč ** Když zaplatíte kartou předem, dostanete slevu 30 Kč ** Většina ostatních e-shopů poplatek za osobní odběr nevede

David Polesný | 171

Nvidia představila nové grafické karty GeForce RTX. Nastavila šílené ceny a chce přesvědčit ray tracingem

Nvidia představila nové grafické karty GeForce RTX. Nastavila šílené ceny a chce přesvědčit ray tracingem

** Nvidia představila nové desktopové herní grafické karty GeForce RTX ** Tři modely se pyšní masivním výkonem pouze ve spojení s ray tracingem ** Ceny jsou mnohem vyšší než u předchozích generací

Karel Javůrek | 106


Aktuální číslo časopisu Computer

Megatest: 13 grafických karet

Srovnání 7 dokovacích stanic s USB-C

Jak na perfektní noční fotografie

Kvalitní zdroje informací pro sebevzdělávání