Microsoft představil nový malý jazykový model Phi-3. Zatím není veřejně dostupný, ale utáhne jej i procesor iPhonu. Malé modely by jednou mohly běžet ve Windows, ale mají i svá úskalí Ilustrace: AI DALL-E 3

Microsoft představil nový malý jazykový model Phi-3. Zatím není veřejně dostupný, ale utáhne jej i procesor iPhonu. Malé modely by jednou mohly běžet ve Windows, ale mají i svá úskalí | Ilustrace: AI DALL-E 3

Maličký chatbot Phi-3 na iPhonu 15

Maličký chatbot Phi-3 na iPhonu 15

Zátěž GPU a její RAM před spuštěním malého jazykového modelu Phi-2.

Zátěž GPU a její RAM před spuštěním malého jazykového modelu Phi-2.

Zátěž GPU a její RAM po spuštění. Tady to ještě byla brnkačka, Phi-2 má totiž pouze 2,7 miliard zjednodušených parametrů

Zátěž GPU a její RAM po spuštění. Tady to ještě byla brnkačka, Phi-2 má totiž pouze 2,7 miliard zjednodušených parametrů

Vlevo původní spojitá křivka a po zjednodušení – kvantizaci – na 10 diskrétních hodnot (schodů). Na uložení rozsahu hodnot 0-10 nám stačí 4 bity a byť je tvar křivky zjednodušený, stále ji dokážeme hrubě popsat 

Vlevo původní spojitá křivka a po zjednodušení – kvantizaci – na 10 diskrétních hodnot (schodů). Na uložení rozsahu hodnot 0-10 nám stačí 4 bity a byť je tvar křivky zjednodušený, stále ji dokážeme hrubě popsat 

Hypotetické panorama Prahy s ohromným rozlišením

Hypotetické panorama Prahy s ohromným rozlišením

Analogie drobných nuancí, které dokáže modelovat velký jazykový model se stovkami miliard kvalitních parametrů

Analogie drobných nuancí, které dokáže modelovat velký jazykový model se stovkami miliard kvalitních parametrů

Analogie informačního rozlišení, kterým disponuje malý a kvantizovaný jazykový model. Ovšem pozor, už toto vlastně pro hromadu úloh bohatě stačí. V praxi nám stačí obrázek Pražského hradu a nepotřebujeme hromadu detailů o jeho dílčím okně

Analogie informačního rozlišení, kterým disponuje malý a kvantizovaný jazykový model. Ovšem pozor, už toto vlastně pro hromadu úloh bohatě stačí. V praxi nám stačí obrázek Pražského hradu a nepotřebujeme hromadu detailů o jeho dílčím okně

Microsoft se chlubí, že i malý model Phi-3 dosahuje ve standardních testech chatbotů docela slušného skóre. Slabý je ve faktografii, na to mu totiž chybějí parametry

Microsoft se chlubí, že i malý model Phi-3 dosahuje ve standardních testech chatbotů docela slušného skóre. Slabý je ve faktografii, na to mu totiž chybějí parametry

To, co Phi-3 neví, může zjistit na webu pomocí vyhledávače

To, co Phi-3 neví, může zjistit na webu pomocí vyhledávače

 Drobná demoaplikace nad starším Phi-2 a debata v angličtině o tom, co je to kružnice a jak vypočítat její obvod. Na to nejsou třeba hluboké schopnosti ChatGPT 


Drobná demoaplikace nad starším Phi-2 a debata v angličtině o tom, co je to kružnice a jak vypočítat její obvod. Na to nejsou třeba hluboké schopnosti ChatGPT 

Předchůdce Phi-2 zabírá na disku více než 5 GB a při běhu na GPU zbaští neméně RAM a paměti na samotné grafické kartě. Přitom pokud má být stále dostupný, měl by v ní být nahraný neustále a tiše čekat na pozadí

Předchůdce Phi-2 zabírá na disku více než 5 GB a při běhu na GPU zbaští neméně RAM a paměti na samotné grafické kartě. Přitom pokud má být stále dostupný, měl by v ní být nahraný neustále a tiše čekat na pozadí

Maličký chatbot Phi-3 na iPhonu 15
Zátěž GPU a její RAM před spuštěním malého jazykového modelu Phi-2.
Zátěž GPU a její RAM po spuštění. Tady to ještě byla brnkačka, Phi-2 má totiž pouze 2,7 miliard zjednodušených parametrů
Vlevo původní spojitá křivka a po zjednodušení – kvantizaci – na 10 diskrétních hodnot (schodů). Na uložení rozsahu hodnot 0-10 nám stačí 4 bity a byť je tvar křivky zjednodušený, stále ji dokážeme hrubě popsat 
12
Fotogalerie

Microsoft Phi-3 je chatbot, který dokáže běžet i na telefonu. Co to jsou malé jazykové modely

  • Microsoft představil nový malý jazykový model Phi-3
  • Zatím není veřejně dostupný, ale utáhne jej i procesor iPhonu
  • Malé modely by jednou mohly běžet ve Windows, ale mají i svá úskalí

Microsoft se pochlubil novým malým jazykovým modelem Phi-3 s 3,8 miliardami parametrů. Podobně jako Gemini Nano od Googlu má přinést chatboty na mobily a běžné počítače.

To je naprosto klíčové k tomu, aby jednou mohla nějaká ta AI fungovat třeba v nitru Windows bez potřeby neustále komunikace se vzdáleným datacentrem plným drahých grafik od Nvidie.

c4320585-6a70-4e27-a5e0-8e757bd06491
Maličký chatbot Phi-3 na iPhonu 15

Malé jazykové modely se na scéně objevily během loňského roku a je to jakýsi protipól titánům, na které jsme si zvykli po příchodu ChatGPT v závěru roku 2022. Ale pěkně popořadě.

Proč ChatGPT nespustíme přímo na svém PC

Chatboty pohánějí jazykové modely, jejichž vnitřní složitost uvádíme stejně jako u ostatních neuronových sítí počtem už zmíněných parametrů.

Zatímco populární AI model detektoru obrázků YOLOv9 obsahuje pro představu několik milionů až desítek milionů parametrů, velikost mnohem komplikovanějších chatbotů se počítá na miliardy až biliony parametrů.

dc0eb285-3c70-4638-a108-fcf68737443fb051916c-345a-4e37-a4d3-1958ecc5cf07
Zátěž GPU a její RAM před spuštěním malého jazykového modelu Phi-2 a po spuštění. Tady to ještě byla brnkačka, Phi-2 má totiž pouze 2,7 miliard zjednodušených parametrů

Abychom přitom mohli pracovat s podobným AI modelem, musí být celý nahraný v RAM (respektive v GPU RAM), a tak je z povahy věci zřejmé, že k běhu těch největších a nejschopnějších potřebujeme superpočítač s neméně astronomickou operační pamětí.

Kvanitzace

Protože se operační paměť běžných počítačů a mobilů počítá na jednotky gigabajtů, chatbota musíme nějakým způsobem zjednodušit, aby se tam vešel – musíme z něj udělat malý jazykový model.

8c469aa6-da54-457f-b347-dc2379aea7a6
Vlevo původní spojitá křivka a po zjednodušení – kvantizaci – na 10 diskrétních hodnot (schodů). Na uložení rozsahu hodnot 0-10 nám stačí 4 bity a byť je tvar křivky zjednodušený, stále ji dokážeme hrubě popsat 

Jak? Je to prosté. Drasticky snížíme počet parametrů a také jejich bitovou hloubku. Říkáme tomu quantization a ve vší stručnosti je to proces, ve kterém třeba původní 32bitové hodnoty v AI modelu zjednodušíme na 4bitové, čímž získáme až osminásobnou úsporu paměti.

Představte si ChatGPT jako panorama Prahy

Podobné zjednodušení a jeho následky můžeme připodobnit třeba k běžnému JPEG obrázku. I ten má své parametry a vy je dobře znáte, říkáme jim totiž pixely. Představte si, že analogií ChatGPT by bylo 900GPx panorama Prahy pořízené z Petřína a v HDR (900 miliard pixelů – parametrů – s velkou bitovou hloubkou).

5a36dce8-0a38-4758-9efd-f27944c8d0e9
Hypotetické panorama Prahy s ohromným rozlišením

Takový obrázek byste na svém domácím laptopu a v celku prostě nikdy neotevřeli, ale na nějakém superpočítači s ohromnou RAM už ano a při přiblížení 1:1 byste viděli oknem až kamsi do ložnice na Pražském hradě.

a25cf0b4-28b6-4261-a9c2-cd23371fbf39
Analogie drobných nuancí, které dokáže modelovat velký jazykový model se stovkami miliard kvalitních parametrů

Co kdybychom teď obrovský obrázek zmenšili třeba na 50 MPx a 256 barevných odstínů? Rázem bude čítat jen 50 milionů parametrů, které budou mnohem jednodušší (jen 256 možných hodnot) a poradí si s ním každý počítač.

A za jakou cenu? Při přiblížení 1:1 už sice neuvidíme, co se odehrává za okenní tabulí Pražského hradu, i při tomto sníženém informačním rozlišení nicméně stále vidíme stavbu jako takovou – širší kontext. To přitom bude většině diváků bohatě stačit.

5984f0f4-ed9a-433b-bb66-b0bb1dbdbd8d
Analogie informačního rozlišení, kterým disponuje malý a kvantizovaný jazykový model. Ovšem pozor, už toto vlastně pro hromadu úloh bohatě stačí. V praxi nám stačí obrázek Pražského hradu a nepotřebujeme hromadu detailů o jeho dílčím okně

Proč malý jazykový model může stačit

Malý jazykový model se stejně tak nemůže ani náznakem rovnat ChatGPT v jeho drobných nuancích a astronomickém výčtu možností, na co všechno se ho můžeme zeptat, protože se ale většina lidí ptá chatbotů na stále ty stejné pitomosti (viditelný dům na zmenšeném panoramatu), dost možná by je dokázal zodpovědět i jejich zmenšený kolega.

9f7498a3-49c4-4e84-a25c-85bc9b73db84
Microsoft se chlubí, že i malý model Phi-3 dosahuje ve standardních testech chatbotů docela slušného skóre. Slabý je ve faktografii, na to mu totiž chybějí parametry – nemá namodelovanou celou Wikipedii

A přesně na to sází Gemini Nano a nový Phi-3! Ve standardních testech chatbotů si nevede vůbec špatně, protože ano, oněch 3,8 miliard parametrů s 4bitovým zjednodušením (kvantizací) je dost na to, aby si s námi i v režimu chatbota smysluplně povídal třeba na iPhonu 15 a jeho armovém SoC Apple A16 Bionic.

A docela rychle, Microsoft se totiž v technické zprávě (PDF) chlubí rychlostí 12 tokenů za sekundu (1 token odpovídá 1-několika znakům).

330aea7a-b926-4c64-a042-81d7ba9ed133
To, co Phi-3 neví, může zjistit na webu pomocí vyhledávače

Na stranu druhou už ale Phi-3 narazí ve chvíli, kdy po něm budete chtít nějakou detailní faktografickou informaci. Na to je 3,8 miliard parametrů málo. Microsoft nicméně v dokumentaci logicky kontruje, že to, co Phi-3 nebude vědět, může delegovat třeba na Bing, který komplexnější informaci dohledá na internetu.

Stručně řečeno, i jednodušší člověk s IQ 80 (analogie SLM) dokáže použít Wikipedii a přečíst nám, co je to třeba Heisenbergův princip neurčitosti, aniž by chápal byť jedinou vyřčenou větu.

Většina SLM komunikuje jen anglicky

Malé jazykové modely tedy vypadají jako jedno velké win-win a možná tomu tak i jednou bude, těch „ale“ je v nich nicméně mnohem více. Zdaleka největší slabinou je podpora dalších jazyků mimo angličtinu.

Pokud má mít model jen 3,8 miliard parametrů – a ke všemu zjednodušených kvantizací – je zhola nemožné, aby s námi komunikoval anglicky, španělsky, francouzsky, německy… a samozřejmě česky. Microsoft přiznává, že to je slabina i jeho řady Phi a Trojka není výjimkou. Drtivá většina studijních textů, na kterých se učil, je totiž v angličtině.

4e344e5f-6cfb-4082-a811-ffebdc6ed32b
Drobná demoaplikace nad starším Phi-2 a debata v angličtině o tom, co je to kružnice a jak vypočítat její obvod. Na to nejsou třeba hluboké schopnosti ChatGPT 

To je ovšem problém, typickým úkolem vhodným pro SLM na laptopu nebo výkonném mobilu je totiž sumarizace textů – třeba elektronické pošty. Nevím jak u vás, ale drtivá většina mých příchozích e-mailů je v češtině.

Pomalou lokalizaci bohužel známe velmi dobře

S možným nástupem malých jazykových modelů na koncové počítače tedy hrozí to, co jako malý trh velmi dobře známe a co měly definitivně vyřešit naopak velké jazykové modely: ostudně pomalá lokalizace.

Suma sumárum, pokud Gemini Nano, Phi-3 a jejich následovníci budou chtít udržet svoji titěrnou velikost, neanglicky mluvící a píšící z nich budou těžit jen v případě, že Microsoft, Google a další dodají jejich lokalizované varianty pro ostatní jazyky.

I když je to malé, není to perpetuum mobile. Spaluje to elektřinu a žere prostředky

A tím výčet komplikací nekončí. Jak už jsme si vysvětlili v úvodu, pokud má mít model AI co nejnižší latenci, musí být neustále načtený v paměti. I poměrně malí chatboti přitom sežerou nemálo prostoru (předchůdce Phi-2 z loňského podzimu zabírá jen na disku dobrých 5 GB).

d76c6496-677b-4b9c-b4fc-b987dc863c97
Předchůdce Phi-2 zabírá na disku více než 5 GB a při běhu na GPU zbaští neméně RAM a paměti na samotné grafické kartě. Přitom pokud má být stále dostupný, měl by v ní být nahraný neustále a tiše čekat na pozadí

Pokud by takový chatbot běžel neustále na pozadí, aby mohl na náš povel okamžitě odpovídat, bude nepřetržitě zabírat drahocenné místo, o které přitom budou mít zájem i ostatní programy a hry. A nejen to; více zabraných prostředků bude odpovídat také většímu odběru elektrické energie, což je parametr, který bude na laptopech a mobilech zajímat nejednoho uživatele.

Ti se pak budou jistě ptát, jestli jim celá tato legrace stojí za to, když bude telefon už odpoledne zcela vyšťavený. Nelze než doufat, že tento problém časem vyřeší nové AI koprocesory, u kterých už nebudeme tleskat jen tomu, že A18 Bionic na iPhonu 15 dokáže utáhnout chatbota na bázi Phi-3 jako takového, ale tomu, že to také dává smysl a nezruinuje to baterii – na rozdíl od spuštění mobilní apky ChatGPT a dalších robotů, kteří prostě žijí v cloudu a basta. 

Určitě si přečtěte

Články odjinud