Na sklonku roku 2020 asi jen málokdo tušil, že se na scéně o pár let později objeví jakýsi ChatGPT, už tehdy ale někteří vědci varovali před tím, že je AI pořádný žrout.
Jen připomenu, že tou dobou bylo synonymem každodenní umělé inteligence leda tak chytré vyhledávání obrázků od Googlu a ranými verzemi jazykových modelů z laboratoře OpenAI se tenkrát bavili výhradně výzkumníci z oboru.
A přesto mělo jedno jediné naučení podobné neuronky vytvořit stejné emise CO₂ jako celoživotní provoz několika průměrných osobních automobilů, anebo plně obsazené letadlo na lince z New Yorku do San Franciska a zpět.
Uhlíková stopa umělé inteligence
Tak, střih a přesuňme se do současnosti. Generativní AI dnes dokáže kousky, které byly ještě před třemi lety naprosté sci-fi, nicméně jsme v mezidobí neobjevili ani žádné zázračné perpetuum mobile, což potvrzují aktualizované odhady energetické náročnosti/uhlíkové stopy umělé inteligence z konce loňského roku.

Rozpoznání kočky na fotce (image classification) vs. vygenerování fotky s kočkou (image generation). Uhlíková stopa a spotřeba energie se dramaticky liší podle typu AI úlohy
Tým expertů z Carnegie Mellon University a služby Hugging Face, která slouží jako jedno z největších skladišť veřejně dostupných AI modelů (takže o náročnosti jejich spouštění toho vědí jako málokdo), se podíval, jak na tom jsme dnes.
Nejlevnější je základní klasifikace
Výsledky nejsou překvapivé. Z grafu výše jasně plyne, že je zdaleka nejlevnější AI klasifikace textu a obrázků. Do tohoto ranku patří třeba úloha, jestli je na obrázku kočka, pes, nebo vaše dovolená v Alpách a indexování fotografií podle jejich skutečného obsahu používají jak mnohé internetové vyhledávače, tak pokročilé webové galerie. Typicky třeba Google Photos.

Příklad jednoduché klasifikační AI, která odhaduje jednu ze tří možností (zataženo × polojasno × jasno) na vstupní fotografii
Detekce objektů a tvorba textů je o řád dražší
Zhruba o řád náročnější (a tedy s více emisemi CO₂) je pak detekce objektů. Na rozdíl od základní klasifikace chceme vědět, co, kde a v jakém počtu se na obrázku nachází. To je důležité pro všechny chytré kamery v čele s těmi v automobilu s autonomním řízení. Palubní počítač totiž potřebuje vědět, kde se přesně nachází chodec v obrazu a nejen to, že tam s nějakou mírou pravděpodobnosti asi je.

Zatímco klasifikační neuronka odpoví, s jakou pravděpodobností se na snímku nachází noha, detekční neuronka odhadne, kde se pravděpodobně nachází
Podobně je na tom sumarizace a generování textu. Zatímco chytrá kamera musí analyzovat desítky snímků za sekundu, jazykový model by měl stejným tempem vytvářet desítky znaků, abychom na jeho odpověď nečekali celou věčnost.
Generování obrázků je ze všech nejdražší
Zdaleka nejnáročnější je ale podle článku z Arxivu generování obrázků, na které jsme si loni zvykli z aplikací a modelů jako Midjourney, DALL-E a Stable Diffusion. Zde prý vystoupá uhlíková stopa klidně o 2-3 řády!

Jaký ekvivalent emisí oxidu uhličítého vytvořilo počítání tohoto obrázku? To ví pouze OpenAI a Microsoft (ChatGPT běží v infrastruktuře Azure), podle odhadů na základě podobných obrázkových modelů to ale mohou být stovky až tisíce gramů
Pokud vědci u základních úloh odhadli emisi na méně než 1 gram CO₂ na 1 000 použití zvolené AI, u obrázkových generátorů to jsou stovky až tisíce gramů CO₂.
Jeden obrázek, jeden nabitý mobil
Aby autoři studie, která ale ještě neprošla pořádným recenzním řízením, přiblížili jen těžko uchopitelné emise běžnému smrtelníkovi, vypůjčili si analogii s mobilním telefonem.

Tento obrázek vygenerovala neuronka SDXL. Podle autorů studie ale spotřebovala stejné množství energie, které je třeba k nabití průměrného telefonu
Nabití průměrného mobilu vyžaduje zhruba 0,012 kWh elektrické energie. Energeticky nejméně efektivní obrázkový generátor, který měli k dispozici (Stable Diffusion XL), spotřeboval na 1 000 generací 11,49 kWh energie, což dělá 0,011 kWh na jeden obrázek. Výroba jednoho obrázku z neuronky tak spotřebovala prakticky stejné množství elektřiny, které by průměrnému telefonu stačilo na celodenní provoz. To je děsivé.
Obrázek z DALL-E 3 přijde až na tři koruny
Tvorba co nejvěrnějšího obrázku a ve vysokém rozlišení je opravdu drahá a platí to i o ostatních modelech na trhu. Kdybyste chtěli skrze OpenAI API vygenerovat malůvku v DALL-E 3 v jeho nejvyšší „HD“ kvalitě a v rozlišení 1792×1024 pixelů, přijde vás podobná legrace na 0,145 dolarů včetně DPH (21 %). Po přepočtu to jsou zhruba tři koruny. Tři kačky za jediný obrázek!

Vyúčtování za využívání OpenAI API pro vývojáře za listopad. Všimněte si, že jednotková cena za generování obrázků je o několik řádů vyšší než v případě textových modelů
A teď si schválně spočítejte, kolik jste takových obrázků vytvořili v koncových službách jako Bing/Copilot, ChatGPT Plus nebo Midjourney. A to zejména s ohledem na to, že jeden obrázek často pipláme pokusem a omylem celou věčnost a finální podobě předchází třeba pět nepovedených AI malůvek.
To by pak bylo – v krajním případě – šest plně nabitých telefonů kvůli jedné blbině, která skončí beztak kdesi na Facebooku a X a její reálný dosah bude trvat přesně deset sekund, než zmizí kdesi v zapomenuté historii sociální sítě.
Vývoj na poli AI předstihl hardware
Jak je to vlastně vůbec možné, když se Nvidia, tedy lídr mezi dodavateli výpočetního AI železa, prakticky každý rok chlubí zase o něco efektivnějším akcelerátorem? Důvodů je celá řada. Software v každém případě předběhl dobu a GPU akcelerátory jsme celé roky používali jednoduše proto, že nic lepšího nebylo.
Původní obvody určené pro počítání co nejrealističtější souboje v Battlefieldu sice postupem doby začaly doplňovat ještě mnohem specializovanější a efektivnější jádra pro použití v AI, nicméně ani ty nejbohatší firmy na světě nemohou jen tak lusknout prsty a nakoupit u Nvidie nejnovější technologii. Nejen že v takovém množství zpravidla reálně neexistuje, ale je také děsně drahá.
Do veřejných cloudů konečně pronikají akcelerátory Nvidia H100, ale ty ceny jsou brutální
Současným standardem velmi pokročilého strojového učení tak nadále zůstávají zejména akcelerátory řady Nvidia A100 (architektura Ampere), kterou přitom Nvidia představila už na jaře 2020.
Jejich mnohem rychlejší a efektivnější nástupci z rodiny H100 (architektura Hopper), které Nvidia ukázala o dva roky později, se do veřejných cloudů (Azure, Google Cloud, AWS apod.) pomalu dostávají teprve na přelomu roku, nicméně cena je pohledem běžného smrtelníka naprosto brutální. Tady se zatím žádná demokratizace AI nekoná.

Je libo virtutální mašinu v infrastruktuře Google Cloud s 8 GPU Nvidia H100? Žádný problém, ale při plném vytížení si odložte 50 tisíc dolarů měsíčně. Naštěstí se účtuje po sekundách
I v tak dynamickém oboru, jakým dnes AI je, proto přetrvává ohromná technologická setrvačnost a to, na čem právě pracuje Nvidia, se do reálného provozu – ve smyslu široké dostupnosti třeba právě ve veřejných cloudech – dostane až za několik dlouhých let.
Špičkové AI superpočítače nemají osm, ale stovky a tisíce H100
Hlavní hráči na poli AI mezi sebou soutěží v benchmarku MLPerf, ve kterém se (mimo jiné) přetahují, kdo nejrychleji naučí velký jazykový model GPT-3. To je dědeček současného modelu GPT-4, který pohání ChatGPT Plus a armádu Copilotů od Microsoftu.
Aktuálním vítězem je Nvidia, která to na svém vlastním superpočítači zvládne za 3,92 minut, což je na jednu stranu úctyhodné číslo, ale mašina je také vyzbrojená téměř 11 tisíci akcelerátorů H100.
Energeticky udržitelný chatbot na každém rohu? Možná, ale až na železe, které se teprve rodí
Tvorba textu je sice mnohem levnější než syntéza obrázků, pokud na nás ale bude podle mnoha představ vykukovat chatbot prakticky na každém rohu, hravě to dohoní objemem svého nasazení. Zatímco drahých obrázků vyrobíme denně jen pár, bude-li jazykový model analyzovat každý náš e-mail a řešit za nás většinu podobné každodenní pracovní agendy, bude to pořádná nálož.
I kdyby totiž právě teď v Nvidii, AMD, Intelu a dalších fabrikách na chytrý křemík vymysleli nějaký nový a převratný obvod, který stáhne spotřebu energie na tisícinu, v praxi se to nejspíše projeví až někdy v závěru desetiletí, protože nikdo nemá dostatečně velkou pokladničku k tomu, aby jen tak odepsal vše, co má právě teď v datacentru a začal úplně od nuly.