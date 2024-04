Chytrý repráček Amazon Echo letos na podzim oslaví desáté narozeniny a jeho úhlavní a jen o něco málo mladší konkurent Nest od Googlu (dříve Home) osmé. Třetí do počtu – HomePod od Applu – má za sebou už šest let provozu.

Co se od té doby změnilo? Když mi hned v prosinci 2016 dorazil dnes už ikonický seříznutý bílý válec a já na něj z gauče poprvé zařval: „Ok Google, lights on,“ stejně jako všichni ostatní jsem byl přesvědčený, že co nevidět si spolu popovídáme v perfektní češtině.

17. prosince 2016 a můj první povel pro Google Home:

A stejně tak jsem doufal v to, že se v půlce dvacátých let dočkáme přinejmenším některých náznaků uživatelského rozhraní, které v roce 2013 stanovilo v tomto směru už legendární americké sci-fi Her.

No, nevyšlo to. Byl to omyl věčně bláhového geeka číslo 4 268...

Chytré repráčky se vůbec nikam neposunuly

Chytré reproduktory a displeje všech možných značek a provedení sice ve své podstatě fungují a povely typu „turn on TV“ a „wake me up at 6 o'clock“ se staly každodenní rutinou kdejakého gaučového povaleče včetně autora tohoto článku, nicméně technologie samotná se vůbec nikam neposunula. Zakrněla a začíná nudit.

Jak by měl vypadat chytrý hlasový asistent v roce 2024 (hlasová verze ChatGPT napojená na moji chytrou domácnost):

Znát je to zvláště poslední dva roky a v souvislosti s nástupem nové generace chatbotů, jejichž schopnosti porozumění povelu jsou v tak drastickém rozporu s tím, co umějí Alexa a Nest, že se z někdejších přelomových repráčků staly optikou dneška relativně hloupé parametrické hračky. Hračky, které mají nepřekonatelný problém s jakýmkoliv komplexnějším a abstraktnější dotazem.

Už tam konečně dejte ten LLM!

Takové úlohy naopak zvládne levou zadní každý současný chatbot na bázi velkého jazykového modelu – LLM. Když si píšu s ChatGPT Plus, velmi často zapomenu, že mám kvůli programování zapnuté anglické rozložení klávesnice, a tak mu odešlu dotaz: „Pot5eboval bych k=od v HTML, kter7 bez pou6it9 jak7chkoliv extern9ch knihoven vyrob9 jednoduch0 p5ep9nac9 tla49tko ON/OFF.“



ChatGPT rozumí i těm, kteří zapomenou, že mají anglické rozložení klávesnice

Robot od OpenAI i tak vše pochopí a bez zaváhání sesmolí funkční odpověď. Nabízí se proto úvaha, jak by byl svět krásný, kdyby výrobci chytrých reproduktorů dali hlavy dohromady s výrobci velkých jazykových modelů a plastové krabice Nest, Echo a další by se svým fiktivním IQ konečně přiblížily virtuální asistence Samantě v podání Scarlett Johansson.

Napojení (jen) jazykového modelu ale nestačí

Teoreticky by k tomu mohl mít našlápnuto Microsoft, který už od loňského roku a zatím jen ve formě testu propojuje svého chatbota Copilot s Windows. Ti, kteří si ho vyzkoušeli, nicméně velmi brzy přišli na to, že to má k Her úplně stejně daleko jako Nest a Echo.



Testovací Copilot ve Windows je dnes v prvé řadě jen běžný AI chatbot v dedikované aplikaci. Samotný OS a jeho aplikace zatím moc ovládat neumí

Propojení s Windows totiž rozhodně neznamená, že by se snad Copilot lusknutím prstu naučil ovládat celý operační systém – změní na povel možná tak tapetu na ploše, ale to jen proto, že mu tuto schopnost autoři natvrdo (parametricky) naprogramovali.

Chytrý asistent zítřka potřebuje ještě LAM

Abychom se dočkali Samanty, potřebujeme vedle LLM ještě něco dalšího. Inženýři z letos hojně citovaného startupu Rabbit tomu říkají LAM – Large Action Model.

Zatímco díky LLM může chatbot chápat smysl našeho povelu a syntetizovat věrohodnou odpověď, protože se učil na milionech a milionech textů a lidských dialogů, LAM slouží k tomu, aby přestal být pasivní a mohl provést i nějakou akci. Large Action Model je prostě AI, která se učí ovládat věci.

V minulosti jsme tu měli hromadu medializovaných experimentů, ve kterých se AI agenti učili hrát šachy, go, počítačové střílečky a strategie a ve všech těchto disciplínách dříve či později porazili člověka. Troufám si ale tvrdit, že potenciálního zákazníka z New Yorku či Chlumce nad Cidlinou zajímá spíše to, kdy se sakra naučí ovládat třeba právě Windows, anebo web.

Spojení LLM+LAM bychom tedy měli získat technologii, která dokáže vyřešit i tenot tento povel:

Mám hlad, objednej mi tvarůžkovou pizzu!

Zatímco LLM pochopí, co vlastně chceme, LAM tu pizzu objedná a koupí na webu. A to ne proto, že je zastřešující chatbot natvrdo napojený na nějaké konkrétní API, čili opět parametricky svázaný s nějakým konkrétním dodavatelem pizzy, ale prostě proto, že se naučil brouzdat po webu a nakupovat věci úplně stejně jako mnozí z nás už kdysi v devadesátých letech minulého století.

Rabbit R1

Rabbit slibuje že některé z těchto základních úkonů zvládne jeho první krabička R1, se kterou se pochlubil na přelomu roku, nicméně i ta bude zpočátku trpět neduhy, které známe z raných a jednodušších LLM.



Rabbit R1 v předprodeji za 199 USD

Zatímco mnohé velké jazykové modely byly zpočátku (nebo nadále jsou) omezené jen na angličtinu, protože k cvičení holt potřebujeme kvalitní textová data a těch v univerzální angličtině je na webu zdaleka nejvíce, LAM bude analogicky omezený tím, kolik věcí se naučí používat dostatečně dobře na to, aby Rabbit do roka nezkrachoval po vlně reklamací a poté, co lidem koupil letenku v první třídě na Seychely, ačkoliv toužili po low-costu do Splitu.

Rabbit je nicméně hezkou ukázkou, kam by se mohla AI posunout dál a v relativně brzké době, pokud ji tvůrci chatbotů začnou učit nejen rozumět a syntetizovat text či mluvené slovo, ale podobným způsobem i používat svět okolo nás.

Sam Altman a Jony Ive hledají miliardu

Rabbit, u kterého jako u ostatních startupů hrozí, že mu jde pouze o publicitu a rychlý exit, přitom rozhodně nebude jediný. Stojí o to přinejmenším OpenAI, už od loňského roku se totiž kuloáry šíří zkazky o tom, že Sam Altman nehledá peníze pouze na vývoj vlastních čipů pro AI, ale i nějakého klientského zařízení.



Sam Altman, šéf OpenAI

Informaci před pár dny oprášil v této oblasti zpravidla dobře zběhlý The Information. Altman se dal už před nějakým časem dohromady s někdejším šéfnávrhářem Applu Jony Ivem a teď obcházejí investiční fondy v Silion Valley.

Údajně prý škemrají přinejmenším o miliardu dolarů na vývoj blíže nespecifikované krabičky vyzbrojené osobní AI asistentkou. Na seznamu má být třeba fond Thrive Capital, který už v minulosti nalil nějakou tu kačku i do OpenAI, a ve svém portfoliu historických investicí figurují samá známá jména technologického světa počínaje Instagramem a konče Spotify, GitHubem nebo třeba Slackem.



Jony Ive, někdejší šéfnávrhář v Applu

Další dojnou kravkou by mohli být investoři z Emerson Collective, kteří rádi podporují projekty s celospolečenským přesahem. A není divu, organizaci totiž před dvaceti lety založila Laurene Powell Jobs, vdova po zakladateli impéria s okousaným jablíčkem v logu.

A bude miliarda stačit?

Miliarda dolarů odpovídá zhruba provozním výdajům českého ministerstva financí pro letošní rok, Bezpečnostní informační služba by si s ní vystačila téměř jedenáct let a poslanecká sněmovna skoro šestnáct (viz Zákon č. 433/2023 Sb. o státním rozpočtu České republiky na rok 2024).

Ve světě AI to jsou ale jen drobné, což dokládá raketový růst Nvidie, která je dnes naprostým hegemonem. Bez jejích čipů by žádný ChatGPT neexistoval, firma si je toho dobře vědoma, a tak jsou její nejvýkonnější akcelerátory nejen naprosto nedostatkovým zbožím, ale také astronomicky drahým.

Připočítejte k tomuto mixu mzdové náklady velmi žádaných expertů na vývoj AI, jednoho Jonyho Iva a jeho smečku průmyslových designérů a zjistíte, že máte kasičku naplněnou leda tak na úvodní start.

OpenAI už má většinu stavebních kamenů

Tak či onak, jestli je tu někdo, kdo by mohl rozvířit poněkud stojaté vody na poli chytrých hlasových asistentů, kde se trestuhodně dlouho nic neděje (!), lidé okolo OpenAI se přímo nabízejí. Ostatně, laboratoř sama už disponuje většinou základních technologií, takže hlasem a spojitým dialogem si už můžete nějaký pátek povídat i v jejich aplikaci pro mobilní telefony. Podívejte se na video výše v článku.

Zbývá už jen ten LAM – tedy model, který bude umět dělat věci. Jestli i na něm laboratoř pracuje, sice nevíme, protože je ale jeho vývoj logickým vyústěním všech dosavadních snah, bylo by s podivem, kdyby se tak nedělo.

A to nejen v OpenAI, ale samozřejmě i v Googlu, Microsoftu a dalších vývojových centrech nové generace umělé inteligence.