Před energetickými nároky AI varovali vědci už před lety. Na podzim to spočítali znovu a nejdražší je prý generování obrázků. K opravdové AI revoluci potřebujeme čipy, které ještě neexistují  Ilustrace: AI DALL-E 3

Před energetickými nároky AI varovali vědci už před lety. Na podzim to spočítali znovu a nejdražší je prý generování obrázků. K opravdové AI revoluci potřebujeme čipy, které ještě neexistují  | Ilustrace: AI DALL-E 3

Rozpoznání kočky na fotce (image classification) vs. vygenerování fotky s kočkou (image generation). Uhlíková stopa a spotřeba energie se dramaticky liší podle typu AI úlohy

Rozpoznání kočky na fotce (image classification) vs. vygenerování fotky s kočkou (image generation). Uhlíková stopa a spotřeba energie se dramaticky liší podle typu AI úlohy

Příklad jednoduché klasifikační AI, která odhaduje jednu ze tří možností (zataženo × polojasno × jasno) na vstupní fotografii

Příklad jednoduché klasifikační AI, která odhaduje jednu ze tří možností (zataženo × polojasno × jasno) na vstupní fotografii

Zatímco klasifikační neuronka odpoví, s jakou pravděpodobností se na snímku nachází noha, detekční neuronka odhadne, kde se pravděpodobně nachází

Zatímco klasifikační neuronka odpoví, s jakou pravděpodobností se na snímku nachází noha, detekční neuronka odhadne, kde se pravděpodobně nachází

Jaký ekvivalent emisí oxidu uhličítého vytvořilo počítání tohoto obrázku? To ví pouze OpenAI a Microsoft (ChatGPT běží v infrastruktuře Azure), podle odhadů na základě podobných obrázkových modelů to ale mohou být stovky až tisíce gramů

Jaký ekvivalent emisí oxidu uhličítého vytvořilo počítání tohoto obrázku? To ví pouze OpenAI a Microsoft (ChatGPT běží v infrastruktuře Azure), podle odhadů na základě podobných obrázkových modelů to ale mohou být stovky až tisíce gramů

Tento obrázek vygenerovala neuronka SDXL. Podle autorů studie ale spotřebovala stejné množství energie, které je třeba k nabití průměrného telefonu

Tento obrázek vygenerovala neuronka SDXL. Podle autorů studie ale spotřebovala stejné množství energie, které je třeba k nabití průměrného telefonu

Vyúčtování za využívání OpenAI API pro vývojáře za listopad. Všimněte si, že jednotková cena za generování obrázků je o několik řádů vyšší než v případě textových modelů

Vyúčtování za využívání OpenAI API pro vývojáře za listopad. Všimněte si, že jednotková cena za generování obrázků je o několik řádů vyšší než v případě textových modelů

Je libo virtutální mašinu v infrastruktuře Google Cloud s 8 GPU Nvidia H100? Žádný problém, ale při plném vytížení si odložte 50 tisíc dolarů měsíčně. Naštěstí se účtuje po sekundách

Je libo virtutální mašinu v infrastruktuře Google Cloud s 8 GPU Nvidia H100? Žádný problém, ale při plném vytížení si odložte 50 tisíc dolarů měsíčně. Naštěstí se účtuje po sekundách

Rozpoznání kočky na fotce (image classification) vs. vygenerování fotky s kočkou (image generation). Uhlíková stopa a spotřeba energie se dramaticky liší podle typu AI úlohy
Příklad jednoduché klasifikační AI, která odhaduje jednu ze tří možností (zataženo × polojasno × jasno) na vstupní fotografii
Zatímco klasifikační neuronka odpoví, s jakou pravděpodobností se na snímku nachází noha, detekční neuronka odhadne, kde se pravděpodobně nachází
Jaký ekvivalent emisí oxidu uhličítého vytvořilo počítání tohoto obrázku? To ví pouze OpenAI a Microsoft (ChatGPT běží v infrastruktuře Azure), podle odhadů na základě podobných obrázkových modelů to ale mohou být stovky až tisíce gramů
8
Fotogalerie

AI má šílenou uhlíkovou stopu. Kreslení obrázku potřebuje tolik energie jako nabití telefonu

  • Před energetickými nároky AI varovali vědci už před lety
  • Na podzim to spočítali znovu a nejdražší je prý generování obrázků
  • K opravdové AI revoluci potřebujeme čipy, které ještě neexistují

Na sklonku roku 2020 asi jen málokdo tušil, že se na scéně o pár let později objeví jakýsi ChatGPT, už tehdy ale někteří vědci varovali před tím, že je AI pořádný žrout.

Jen připomenu, že tou dobou bylo synonymem každodenní umělé inteligence leda tak chytré vyhledávání obrázků od Googlu a ranými verzemi jazykových modelů z laboratoře OpenAI se tenkrát bavili výhradně výzkumníci z oboru.

A přesto mělo jedno jediné naučení podobné neuronky vytvořit stejné emise CO₂ jako celoživotní provoz několika průměrných osobních automobilů, anebo plně obsazené letadlo na lince z New Yorku do San Franciska a zpět.

Uhlíková stopa umělé inteligence

Tak, střih a přesuňme se do současnosti. Generativní AI dnes dokáže kousky, které byly ještě před třemi lety naprosté sci-fi, nicméně jsme v mezidobí neobjevili ani žádné zázračné perpetuum mobile, což potvrzují aktualizované odhady energetické náročnosti/uhlíkové stopy umělé inteligence z konce loňského roku.

32c3a1dd-fc43-4726-8ca8-d03dfdbde8c9
Rozpoznání kočky na fotce (image classification) vs. vygenerování fotky s kočkou (image generation). Uhlíková stopa a spotřeba energie se dramaticky liší podle typu AI úlohy

Tým expertů z Carnegie Mellon University a služby Hugging Face, která slouží jako jedno z největších skladišť veřejně dostupných AI modelů (takže o náročnosti jejich spouštění toho vědí jako málokdo), se podíval, jak na tom jsme dnes.

Nejlevnější je základní klasifikace

Výsledky nejsou překvapivé. Z grafu výše jasně plyne, že je zdaleka nejlevnější AI klasifikace textu a obrázků. Do tohoto ranku patří třeba úloha, jestli je na obrázku kočka, pes, nebo vaše dovolená v Alpách a indexování fotografií podle jejich skutečného obsahu používají jak mnohé internetové vyhledávače, tak pokročilé webové galerie. Typicky třeba Google Photos.

0d60e86d-f94c-4135-a3a3-34ec60199972
Příklad jednoduché klasifikační AI, která odhaduje jednu ze tří možností (zataženo × polojasno × jasno) na vstupní fotografii

Detekce objektů a tvorba textů je o řád dražší

Zhruba o řád náročnější (a tedy s více emisemi CO₂) je pak detekce objektů. Na rozdíl od základní klasifikace chceme vědět, co, kde a v jakém počtu se na obrázku nachází. To je důležité pro všechny chytré kamery v čele s těmi v automobilu s autonomním řízení. Palubní počítač totiž potřebuje vědět, kde se přesně nachází chodec v obrazu a nejen to, že tam s nějakou mírou pravděpodobnosti asi je.

79da9899-2b28-44be-b263-c2879fe597c9
Zatímco klasifikační neuronka odpoví, s jakou pravděpodobností se na snímku nachází noha, detekční neuronka odhadne, kde se pravděpodobně nachází

Podobně je na tom sumarizace a generování textu. Zatímco chytrá kamera musí analyzovat desítky snímků za sekundu, jazykový model by měl stejným tempem vytvářet desítky znaků, abychom na jeho odpověď nečekali celou věčnost.

Generování obrázků je ze všech nejdražší

Zdaleka nejnáročnější je ale podle článku z Arxivu generování obrázků, na které jsme si loni zvykli z aplikací a modelů jako Midjourney, DALL-E a Stable Diffusion. Zde prý vystoupá uhlíková stopa klidně o 2-3 řády!

4e267e51-4aef-4df9-ad1e-31f2c6fd1f6e
Jaký ekvivalent emisí oxidu uhličítého vytvořilo počítání tohoto obrázku? To ví pouze OpenAI a Microsoft (ChatGPT běží v infrastruktuře Azure), podle odhadů na základě podobných obrázkových modelů to ale mohou být stovky až tisíce gramů

Pokud vědci u základních úloh odhadli emisi na méně než 1 gram CO₂ na 1 000 použití zvolené AI, u obrázkových generátorů to jsou stovky až tisíce gramů CO₂.

Jeden obrázek, jeden nabitý mobil

Aby autoři studie, která ale ještě neprošla pořádným recenzním řízením, přiblížili jen těžko uchopitelné emise běžnému smrtelníkovi, vypůjčili si analogii s mobilním telefonem.

af4e0445-5d34-4f13-b078-3f54e76212ae
Tento obrázek vygenerovala neuronka SDXL. Podle autorů studie ale spotřebovala stejné množství energie, které je třeba k nabití průměrného telefonu

Nabití průměrného mobilu vyžaduje zhruba 0,012 kWh elektrické energie. Energeticky nejméně efektivní obrázkový generátor, který měli k dispozici (Stable Diffusion XL), spotřeboval na 1 000 generací 11,49 kWh energie, což dělá 0,011 kWh na jeden obrázek. Výroba jednoho obrázku z neuronky tak spotřebovala prakticky stejné množství elektřiny, které by průměrnému telefonu stačilo na celodenní provoz. To je děsivé.

Obrázek z DALL-E 3 přijde až na tři koruny

Tvorba co nejvěrnějšího obrázku a ve vysokém rozlišení je opravdu drahá a platí to i o ostatních modelech na trhu. Kdybyste chtěli skrze OpenAI API vygenerovat malůvku v DALL-E 3 v jeho nejvyšší „HD“ kvalitě a v rozlišení 1792×1024 pixelů, přijde vás podobná legrace na 0,145 dolarů včetně DPH (21 %). Po přepočtu to jsou zhruba tři koruny. Tři kačky za jediný obrázek!

194ff203-4fbb-4682-afdc-ef94871a79bf
Vyúčtování za využívání OpenAI API pro vývojáře za listopad. Všimněte si, že jednotková cena za generování obrázků je o několik řádů vyšší než v případě textových modelů

A teď si schválně spočítejte, kolik jste takových obrázků vytvořili v koncových službách jako Bing/Copilot, ChatGPT Plus nebo Midjourney. A to zejména s ohledem na to, že jeden obrázek často pipláme pokusem a omylem celou věčnost a finální podobě předchází třeba pět nepovedených AI malůvek.

To by pak bylo – v krajním případě – šest plně nabitých telefonů kvůli jedné blbině, která skončí beztak kdesi na Facebooku a X a její reálný dosah bude trvat přesně deset sekund, než zmizí kdesi v zapomenuté historii sociální sítě.

Vývoj na poli AI předstihl hardware

Jak je to vlastně vůbec možné, když se Nvidia, tedy lídr mezi dodavateli výpočetního AI železa, prakticky každý rok chlubí zase o něco efektivnějším akcelerátorem? Důvodů je celá řada. Software v každém případě předběhl dobu a GPU akcelerátory jsme celé roky používali jednoduše proto, že nic lepšího nebylo.

Původní obvody určené pro počítání co nejrealističtější souboje v Battlefieldu sice postupem doby začaly doplňovat ještě mnohem specializovanější a efektivnější jádra pro použití v AI, nicméně ani ty nejbohatší firmy na světě nemohou jen tak lusknout prsty a nakoupit u Nvidie nejnovější technologii. Nejen že v takovém množství zpravidla reálně neexistuje, ale je také děsně drahá.

Do veřejných cloudů konečně pronikají akcelerátory Nvidia H100, ale ty ceny jsou brutální

Současným standardem velmi pokročilého strojového učení tak nadále zůstávají zejména akcelerátory řady Nvidia A100 (architektura Ampere), kterou přitom Nvidia představila už na jaře 2020.

Jejich mnohem rychlejší a efektivnější nástupci z rodiny H100 (architektura Hopper), které Nvidia ukázala o dva roky později, se do veřejných cloudů (Azure, Google Cloud, AWS apod.) pomalu dostávají teprve na přelomu roku, nicméně cena je pohledem běžného smrtelníka naprosto brutální. Tady se zatím žádná demokratizace AI nekoná.

65128b39-71b8-45d6-8cd8-68943189493c
Je libo virtutální mašinu v infrastruktuře Google Cloud s 8 GPU Nvidia H100? Žádný problém, ale při plném vytížení si odložte 50 tisíc dolarů měsíčně. Naštěstí se účtuje po sekundách

I v tak dynamickém oboru, jakým dnes AI je, proto přetrvává ohromná technologická setrvačnost a to, na čem právě pracuje Nvidia, se do reálného provozu – ve smyslu široké dostupnosti třeba právě ve veřejných cloudech – dostane až za několik dlouhých let.

Špičkové AI superpočítače nemají osm, ale stovky a tisíce H100

Hlavní hráči na poli AI mezi sebou soutěží v benchmarku MLPerf, ve kterém se (mimo jiné) přetahují, kdo nejrychleji naučí velký jazykový model GPT-3. To je dědeček současného modelu GPT-4, který pohání ChatGPT Plus a armádu Copilotů od Microsoftu.

Aktuálním vítězem je Nvidia, která to na svém vlastním superpočítači zvládne za 3,92 minut, což je na jednu stranu úctyhodné číslo, ale mašina je také vyzbrojená téměř 11 tisíci akcelerátorů H100.

Energeticky udržitelný chatbot na každém rohu? Možná, ale až na železe, které se teprve rodí

Tvorba textu je sice mnohem levnější než syntéza obrázků, pokud na nás ale bude podle mnoha představ vykukovat chatbot prakticky na každém rohu, hravě to dohoní objemem svého nasazení. Zatímco drahých obrázků vyrobíme denně jen pár, bude-li jazykový model analyzovat každý náš e-mail a řešit za nás většinu podobné každodenní pracovní agendy, bude to pořádná nálož.  

I kdyby totiž právě teď v Nvidii, AMD, Intelu a dalších fabrikách na chytrý křemík vymysleli nějaký nový a převratný obvod, který stáhne spotřebu energie na tisícinu, v praxi se to nejspíše projeví až někdy v závěru desetiletí, protože nikdo nemá dostatečně velkou pokladničku k tomu, aby jen tak odepsal vše, co má právě teď v datacentru a začal úplně od nuly.

Určitě si přečtěte

Články odjinud