Zdá se, že už relativně brzy dokážeme číst myšlenky. Ale trošku jinak, než si to zpravidla představují filmaři z Hollywoodu a autoři sci-fi povídek.
K zobrazení toho, co se děje v nitru naší hlavy, totiž nemusíme do posledního vzruchu neuronové synapse chápat proces, jakým způsobem si vlastně naše Já uvědomuje jednotlivé vjemy. Nemusíme rozumět strojovému kódu našeho mozku.
Podobu těchto vjemů odhadneme nepřímo z ambientních dat, stejně jako si dokážeme se zavřenýma očima barvitě představit soupravu Českých drah, která právě teď jede po železnici kdesi v údolí a my ji pouze z dálky slyšíme.
Elektroencefalograf
Už před čtyřmi lety se svou prací pochlubil třeba jistý tým vědců z Moskvy, který pomocí strojového učení nacvičil neuronovou síť, a ta pak dokázala generovat obrázky podle toho, co zrovna zaznamenal elektroencefalograf (EEG).
Aktivita v mozku dítěte během epileptického záchvatu zaznamenaná pomocí EEG
Elektroencefalograf je zařízení, které pomocí elektrod přitisknutých k hlavě měří změny elektrického potenciálu způsobeného mozkovou aktivitou a vypisuje je na graf. Ve své podstatě je to tedy dostatečně citlivý voltmetr a změřené elektrické napětí je pak součtem všech možných událostí, které se právě teď dějí v hlavě.
V naší analogii s vlakem v údolí, který nevidíme, ale slyšíme ho, by mohl být elektroencefalografem extrémně citlivý mikrofon a onou aktivitou mozku právě součet všech zachycených zvuků z okolí. Byla by tam jak projíždějící souprava na železnici, tak ta slepice ze sousedství a vzdálený ruch dálnice D1.
Nuronka najde to, co je pro nás už neviditelné
Zkušený expert sice vyčte z EEG ledacos, ale tady bychom po něm chtěli zhruba to, aby v naší zvukové nahrávce rozlišil přesný typ projíždějícího vlaku a rozpoznal, ve kterém kupé zrovna sedí paní Květáková se svými čtyřmi dětmi.
Toto už člověk nedokáže, naučené hledání velmi slabých vzorů ve vstupních velkých datech je ale úkol jako dělaný pro mnohé architektury softwarových neuronových sítí.
Součet všech zvuků z okolí bude naprostý guláš, stroj by v něm ale mohl najít drobné nuance – naučené vzory typické pro různé zdroje zvuku
Takovou neuronku bychom mohli nejprve naučit, jak znějí všechny a různě obsazené železniční soupravy v Česku při průjezdu právě tímto údolím, no a když pak něco takového uslyší, zobrazí jednou fotografii starého motoráčku, podruhé Railjet a potřetí soupravu RegioJetu.
Stroj se samozřejmě často splete – pracuje jen s určitou pravděpodobností – , takže namísto starého motoráčku ukáže tu a tam traktor, ale v hrubých rysech by to mohlo fungovat.
Toto byl vrchol odposlechu mozku v roce 2019
Se signály EEG to při návrhu neuronové sítě není jiné. Jen je to o několik řádů složitější. Tento principiální postup proto nejrůznější výzkumné týmy zkoušejí už celé roky, přičemž masivní nástup strojového učení a moderních architektur neuronových sítí v poslední dekádě jen vše uspíšil. Už to není úplné sci-fi!
Testovací osoba sleduje video z pohledu závodníka, EEG snímá aktivitu jeho mozku a naučená neuronová síť vybere správný obrázek, který dějově odpovídá (malý čtvereček)
Před čtyřmi lety to v experimentu zkusili také oni vědci z Moskvy a naučili síť, jak se v poměrně zobecnělém šumu z EEG projevují nejrůznější vizuální vjemy. V druhé fázi pak celý postup otočili.
Neuronka se naučila generovat velmi hrubé fotografie podle elektrického signálu mozku.
Vlevo vždy skutečný obrázek a vpravo jeho rekonstrukce pomocí NS a dat EEG (dáma v klobouku nahrazuje skutečnou osobu kvůli ochraně osobních dat)
Jelikož je ale EEG součtem všech dějů v hlavě a dílčí informace jsou tak notně naředěné, je naředěný i hotový obrázek z AI, která zároveň pracovala s omezeným slovníkem (databází naučených obrázků). Nicméně alespoň v hrubých rysech a náznacích je vidět, na co se právě sledovaná osoba dívá.
Nástup difuzních neuronek
Tak, střih a posuňme se do současnosti. Doba pokročila a platí to i o stavu neuronových sítí. Velkým tématem posledních dvou let jsou totiž obrázkové generátory na principu difuzního strojového učení.
Do tohoto ranku patří jak technologie DALL-E od OpenAI, tak Stable Diffusion a z ní přinejmenším v raných verzích odvozená webová služba Midjourney.
Podstatou difuzního učení je – velmi zjednodušeně řečeno – postup, kdy studijní obrázek postupně ředíme šumem, až se promění v téměř dokonale neuspořádaný shluk pixelů. Podstatné je to, že všechny tyto fáze analyzovala neuronová síť a celý postup pak můžeme obrátit.
Nejprve se stroj učí, jak se obrázek mění, pokud jej budeme postupně rozptylovat do šumu
Díky tomu poté dokáže provést pravý opak a z šumu se zbytkovými rezidui generovat věrohodné obrázky. Přesně tak funguje populární Midjourney, Stable Diffusion a další
Pokud hotové neuronce předložíme šum s drobnými rezidui, dokáže z něj vyrobit syntetizovaný obrázek. Díky tomu, že je vstupní šum vždycky trošku jiný, je trošku jiný i hotový obrázek. I proto vám Midjourney aspol. nikdy nevygenerují tentýž výstup, i kdybyste použili naprosto identický textový povel.
Generování fotky papouška z šumu pomocí difuzní neuronové sítě
Zde je ovšem třeba říci, že je to dáno i tzv. solí. Tedy náhodným sledem bajtů, který se přidá ke každému vstupu právě proto, aby se ještě více umocnila pestrobarevnost šumu, ze kterého Midjourney a další generují výsledek.
Co syntéze, to nový originál
Základní principy, jak fungují difuzní obrázkové generátory, jsme si vysvětlili v samostatném článku
Toto vyčteme z šumu mozku v roce 2023
Pokud difuzní generátory vytvářejí syntetická grafická data mnohem lépe než předchozí architektury neuronových sítí, doslova se nabízí, abychom je využili i pro hrubé chápání toho, co se asi děje v mozku.
No, a to se už konečně dostáváme k dalšímu a už současnému experimentu (PDF) publikovanému opět na bioRxivu, jehož autory jsou tentokrát experti z japonské univerzity v Ósace.
Namísto EEG použili pro snímání aktivity mozku mnohem detailnější funkční magnetickou rezonanci (fMRI), na jejíchž datech pak učili obrazový difuzní model. Výsledky jsou místy opravdu ohromující, což dokládá ukázka níže.
V červeném čtverečku skutečná fotografie, v tom šedém její rekonstrukce pomocí difuzní AI
V červených rámečcích jsou snímky, které sledovala testovací osoba. V šedých rámečcích na druhém řádku je pak výstup z difuzního syntetizátoru, jehož vstupem byla opět složená data z fMRI.
Vědci samozřejmě vyzkoušeli experiment s vícero lidskými testovacími králíky, a protože co mozek, to originál, každý se samozřejmě choval jinak, jelikož i výstup z fMRI byl pokaždé trošku jiný. Nicméně jak je patrné v ukázkách níže, i tak stroj zhruba odhadnul, na co se osoba právě dívá.
AI korektně rozpoznala, že se tyto čtyři osoby dívají na letadlo a do fMRI se promítla i základní kompozice optického vjemu
Stejná čtveřice a tentokrát fotografie s věží a hodinami. Všimněte si, že se třetí osoba nejspíše zaměřila pozorností na hodiny, a tak vidíme právě jejich hrubý náznak
Tady vědci testují pohled na prosluněnou pláž s draky. AI ve všech případech správně odhadla barevný nádech
A konečně čtvrtý experiment s vlakem. Každý mozek si to přebral po svém, ale opět u všech vidíme určitou podobnost ať už v kompozici, nebo kontrastu
Co se děje v hlavě člověka po těžké mrtvici
Samozřejmě to stále není dokonalé a univerzální, není to ve 4K, ale docela hezky to ilustruje ohromný skok v posledních letech.
Pokud bude vývoj na poli zobrazování aktivity mozku a obrazových neuronových sítí pokračovat stejným tempem jako doposud, je opravdu docela možné, že se ještě současné generace dožijí toho, že jednoho dne uvidí třeba to, o čem sní jejich blízký připoutaný na lůžko po těžké mozkové mrtvici. Nebo oběť autonehody v kómatu.
Dreamgram místo Instagramu?
A ano, možná budeme mít jednou u postele nějakou tu roztomilou čelenku od Samsungu nebo Withings, která nám přes noc zaznamená sestřih našich snů. Hned ráno ho pošleme na Dreamgram a získáme alespoň sto lajků od ostatních za novou a opravdu originální noční můru.
Možná se dožijeme sdílení svých vlastní snů na Dreamgramu