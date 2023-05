Máte pocit, že tempo vývoje komerčních AI chatbotů je příliš zbrklé a měli bychom jej zmírnit, dokud je ještě čas? Tak to raději ani nechtějte vědět, co se právě teď děje v laboratořích po celém světě a co bude už relativně brzy normální.

Nejsou to ani dva měsíce, co jsme psali o jistém výzkumu z Japonska, který dokázal pomocí AI převést extrémně složitý výstup z funkční magnetické rezonance (fMRI) na obrázky a filmová políčka. Vědci k tomu tenkrát použili v podstatě stejnou technologii, na které staví i populární AI generátor Midjourney nebo Stable Diffusion.

Stručně řečeno, Japoncům, se podařilo docela realisticky zobrazit to, na co se zrovna díváme, dálkovým sledováním chemických změn v mozku. Současné mladší generace by se proto mohly dožít doby, kdy dokážeme podobným způsobem zobrazit třeba i to, na co zrovna myslí člověk upoutaný na lůžko, anebo co se nám samotným zdálo během včerejší divoké noci.

Co kdybychom na mozek napojili ChatGPT?

Po několika týdnech na výzkum z Ósacké univerzity navázali ve Spojených státech a šli ještě mnohem dál. Jerry Tang a dozorující Alex Huth z Texaské univerzity v Austinu totiž v časopisu Nature publikovali závěrečnou zprávu, která popisuje čtení a interpretaci lidských myšlenek pomocí jazykového transformeru. Jednoduše řečeno, udělali to samé, jako byste na mozek naroubovali textový generátor, který pohání i ChatGPT!



Jerry Tang, Alex Huth a Shailee Jain sbírají data z funkční magnetické rezonance

Článek v Nature sice není veřejně dostupný, univerzita jej ale vystavila také na externím úložišti a k dispozici je nakonec i předběžná zpráva z loňského podzimu ve veřejném skladišti biotechnologických studií bioRxiv.

Nutno podotknout, že na bioRxivu i obecnějším Arxivu lze publikovat prakticky cokoliv bez patřičného recenzního řízení, takže se občas jedná o naprosté nesmysly, zářez v renomované síti Nature je už ale něco úplně jiného.

Co je to transformer Transformer je obecná architektura AI, kterou v roce 2017 poprvé popsali vědci z Google Brain. Smetanu ale nakonec slízli především v OpenAI, protože nad ní postavili své velké jazykové modely z rodiny GPT (zkratka pro Generative Pre-trained Transformer). Ve vší stručnosti je to umělá inteligence, která se učí hledat vzájemné vztahy v po sobě jdoucích (sekvenčních) datech. Začalo se s textem a zvukem (proud po sobě jdoucích písmenek a tónů), nicméně v posledních dvou letech došlo k ohromnému rozmachu, a tak dnes existují transformery i pro detektory obrázků a další domény. Mnozí experti se domnívají, že právě této rodině architektur AI patří nejbližší budoucnost napříč celým oborem, protože dosahují mnohem vyššího výkonu než předchozí technologie.

Hemodynamická odezva

Takže co v tom Texasu vlastně udělali? Jednoduše připoutali několik dobrovolníků na lůžko mohutného stroje pro magnetickou rezonanci, jak je známe z nemocnic, a dlouhé hodiny jim přehrávali podcasty. Dobrovolníci je poslouchali a náš tým mezitím nahrával gigabajty dat, co se právě v tu chvíli děje v jejich hlavě.

Funkční magnetická rezonance zobrazuje dění v mozku různým způsobem, k těm nejtypičtějším ale patří technika BOLD (blood-oxygen-level-dependent imaging), kterou zvolili i v Texasu.



Typický výstup BOLD MRI

Je to vlastně tak trochu sci-fi, při boldu se totiž neměří přímo agregovaná elektrická aktivita neuronů jako třeba v případě EEG, ale jejich korelující hemodynamická odezva. Co to sakra je? Inu, naše neurony jedou na cukr a kyslík, to jistě všichni víte, samy o sobě ale nemají žádnou tankovací nádrž.

Jakmile tedy budete provozovat nějakou velmi náročnou intelektuální činnost – třeba na mobilu otevřete Živě.cz –, tělo začne do mozku pumpovat čerstvou okysličenou krev a živiny jako při nedělním cyklovýletu. Přemýšlejte hodně, kvalitně a často a s trochou nadsázky zhubnete.

Podstatné je to, že tuto náhlou změnu v okysličení krevního řečiště mozku můžeme sledovat a BOLD fMRI je jednou z cest. Je to vlastně velmi podobné tomu, jako byste chtěli odhadnout dění ve své obci (paralela mozku) sledováním tempa otáček elektroměru u každého domu (paralela k hemodynamické odezvě jednotlivých částí mozku).

Hodiny poslechu podcastů uvnitř fMRI stroje

Ale zpět do Texasu. Nebozí dobrovolníci hodiny a hodiny poslouchali podcasty, vědci ukládali kvanta dat z fMRI, no a pak tyto informace namapovali na jazykový transformer (podcast je přece mluvené slovo, tedy sekvenční proud písmenek).



Jerry Tang připravuje dobrovolníka pro poslech podcastů ve skeneru fMRI

Jakmile tímto způsobem pro každého z dobrovolníků vytvořili jejich jazykový neurální model, mohli celou operaci otočit a transformer namísto učení začal generovat text. Text s hrubým popisem toho, co se děje v mozku.

Dekodér píše sumáře, na co zrovna myslíme

Jelikož si při poslechu informaci zároveň představujeme, takže se do děje zapojuje celé spektrum domén naší mysli včetně těch vizuálních, sémantický dekodér z Austinu tento komplexní obraz zachytil v celé jeho celistvosti. Díky tomu reaguje nejen na hlas, ale i na obrazový vjem i pouhou představu.



Vlevo skutečný stimul (dění ve videu, skutečná představa dobrovolníka), vpravo výstup sémantického dekodéru. Modrá barva označuje přesnou shodu, fialová popis situace vlastními slovy (gist = podstata/sumář) a červená chybný závěr

Když dobrovolníci sledovali krátké video bez zvukové stopy, už to stačilo, aby sémantický dekodér začal psát sumář toho, co se ve videu vlastně děje. A když se nad něčím jen zamysleli, dekodér zafungoval stejně.

Rychlý videoprůlet, co dokáže sémantický dekodér z Texasu (bez zvuku):

Stephen Hawking

Pokud bude věda pokračovat v dalším vývoji stejným tempem, Tang a Huth slibují, že bychom se mohli dožít třeba zařízení, které bude psát nebo předčítat myšlenky člověka, který je upoutaný na vozík a lůžko, nicméně je při smyslech.



Palubní počítač se zvukovým syntetizátorem Stephena Hakwkinga

Představte si třeba Stephena Hawkinga, který by svůj výzkum a myšlenky prezentoval právě tímto způsobem, aniž by každé větě z hlasového syntetizátoru předcházela složitá příprava. Prostě by jen pomyslel na to, co chce světu sdělit a stalo by se.

Experimentů s převodem myšlenek na text tu už bylo mnoho, všechny ale pracovaly s omezeným slovníkem na několik málo slov, nebo vyžadovaly mozkový implantát. Sémantický dekodér nicméně díky AI na bázi transformeru využívá velmi bohatý slovník vzešlý z mnohahodinového poslechu podcastů a funguje i bez díry v hlavě.

fNIRS namísto magnetické rezonance

Technickou slabinou je samotné fMRI. Stroj pro magnetickou rezonanci totiž není zrovna nějaká malá helmička, kterou dobijete na nočním stolku, ale mnohatunová obluda.

I zde to ale vypadá nadějně, další akademické týmy totiž usilovně rozvíjejí a zkoumají možnosti snímání neurální aktivity pomocí techniky fNIRS (functional near-infrared spectroscopy), jejíž výstup je relativně podobný boldu.



fNIRS pro téměř kapesní sledování hemodynamické odezvy mozku

Funkční blízká infračervená spektroskopie se liší v tom, že hemodynamickou odezvu na aktivitu neuronů sleduje pomocí povrchového snímání hlavy.

Vlastně to funguje podobně jako s oxymetry v našich chytrých hodinách, které prostým osvitem pokožky a měřením odrazu světla od krve v drobných kapilárách měří míru jejího okysličení. Krevní barvivo hemoglobin pohlcuje frekvence blízké IR zdaleka nejvíce.



Okysličená a neokysličená červená krvinka

Zároveň ale platí, že je povrchové sledování hemodynamické odezvy už z principu velmi pomalé, probíhá s ohromnou latencí a informační hodnota je ještě více naředěná bezprostředním okolím. I s tím by ale mohla časem pomoci AI, která je v hledání člověku skrytých vzorů v datech to nejlepší, co doposud lidstvo vynalezlo.

Máme se bát?

Ne, alespoň prozatím. Tang a Huth uklidňují veřejnost, že i kdybychom v příštích desetiletích dokázali nahradit mnohatunový fMRI stroj za čip, který bude součástí bezdrátových sluchátek, klíčový je prvek svobodné vůle.

Jelikož je jejich technika pasivní, do mozku nic neposílá a pouze reaguje na to, co si myslíme. Jakmile tedy dali dobrovolníkům příkaz, aby přemýšleli o něčem jiném, než na co se dívají, samozřejmě to přestalo fungovat. Kognitivní činnost měla v mozku silnější odezvu než vizuální vjem, dekodér na text se ztratil v šumu a začal psát nesmysly. Vše tedy zatím funguje jen tehdy, pokud sami chceme, aby to fungovalo.

ChatGPT byl ještě před rokem taky sci-fi

A za druhé, (zatím) jsme daleko od vize, kdy by takové čtecí zařízení fungovalo s univerzálním nacvičeným modelem. Co mozek, to unikát, takže naučený model jednoho dobrovolníka nebylo možné použít pro dekódování mozku dalšího účastníka experimentu. Tedy, alespoň prozatím.

Při současném tempu výzkumu primární i aplikované AI nicméně může být už za pár let všechno jinak. Ostatně, i ChatGPT dnes dokáže kousky, o kterých jsme si mohli ještě loni v říjnu nechat leda tak zdát. Dnes je to realita. Nabízí se proto řečnická otázka, co bude realitou 2. května 2024. Co myslíte?