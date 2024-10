AI chatboti tu s námi jsou bezmála dva roky a pro mnohé se už stali stejnou revolucí jako masivní nástup internetu před třiceti lety. Tzv. velké jazykové modely jednou možná vyřeší i ty nejsložitější problémy lidstva, prozatím ale ještě stále sekundují celé plejádě mnohem jednodušších neuronek.

Tisíckrát menší AI model totiž sice nesloží básničku o Brně a nenamaluje papeže Františka v bazénku se sličnými jeptiškami, ale na druhou stranu může běžet i na relativně jednoduchém procesoru bezpečnostní kamery.

Nejprve to chce nějaké železo

V dalším pokračování našeho seriálu o programování elektroniky si to vyzkoušíme v praxi a vycvičíme si vlastní obrazovou klasifikační neuronku. A abychom cvičením nestrávili celou pozdní pubertu, na pomoc povoláme grafickou kartu GeForce RTX 4060 Ti Windforce OC 16G.



GPU s čipem Nvidia GeForce RTX 4060 Ti a ve verzi s 16 GB paměti se na příští týdny a měsíce stane referenčním strojem pro naše hrátky se základními neuronkami i generativní AI

Grafický procesor od Nvidie je vyzbrojený 4 352 výpočetními jádry CUDA a 16 GB rychlé paměti, strojové učení proto dokáže dramaticky paralelizovat – rozdělit na dílčí úlohy, které se zpracovávají v jeden čas vedle sebe.

Když máš v počítači místo 12 jader rovnou 4 tisíce

Kdysi dávno tento přístup úžasně zrychlil vykreslování 3D polygonů v počítačových hrách a ještě fotorealističtější explodující mozky v sérii Battlefield, chytré hlavy však záhy zjistily, že speciální algoritmy pro miniprocesory CUDA mohou stejně tak počítat i něco jiného.



Desktopový Xeon je prostě Xeon a i když už můj model E5-1650 v4 hodně zestárnul, 12 jader @ 3,6 GHz stále odvede hromadu práce. GeForce RTX 4060 Ti má ale 4 352 výpočetních jader!

Díky masivnímu paralelizmu dokážou třeba během směšných 130 milisekund seřadit pole s 200 miliony náhodných čísel. Jen pro srovnání, na mém stárnoucím desktopovém Xeonu s dvanácti jádry (Intel Xeonu E5-1650 v4) zabere stejná úloha okolo 5 600 milisekund.

Takže teď už všichni víme, proč neuronky cvičíme na grafických kartách. Mají tisíce drobných výpočetních jader, a proto dokážou velmi rychle vyřešit problém, který na nich dokážeme rozdělit. Jádra běžného desktopového procesoru CPU sice mohou být sama o sobě rychlejší a jsou pochopitelně mnohem univerzálnější, nicméně jich máme pod kapotou mašiny příliš málo.

YOLO 11. generace

Dost teorie, jdeme cvičit! Píše se rok 2024, k dispozici je celá řada ověřených technologií, takže nemusíme znovu vymýšlet kolo. Náš obrazový detektor vycvičíme na neuronové síti YOLO od Ultralytics, která je dnes k dispozici už ve své 11. generaci, patří ve své oblasti k těm zdaleka nejpopulárnějším a zvládne pět základních úkolů:

Každá z variant je dále k dispozici v několika naučených velikostech od 1,6 milionů po 62 milionů parametrů. Jen připomenu, že počet parametrů odpovídá složitosti naučené neuronové sítě a velké jazykové modely jich mohou mít stovky milionů až miliardy. Ze stejného důvodu pak ale k běhu potřebují superpočítač, zatímco neuronku s jednotkami milionů parametrů rozjedete (téměř) na čemkoliv.



Základní schopnosti a varianty obrazové neuronky YOLO

Hotové YOLO můžeme rovnou použít ve svém kódu pomocí naprosto blbuvzdorné knihovny Ultralytics pro Python. Takový program si vystačí opravdu pouze s několika málo řádky kódu, do modelu totiž jen odešleme třeba JPEG obrázek a záhy vyplivne, co na něm vidí.

Protože je ale model malý, je naučený pouze na to, aby viděl omezený počet objektů. Co když jej ale budeme potřebovat použít na detekci něčeho vlastního, co v databance chybí?

Přeučení sítě je to stejné, jako když batole uvidí novou hračku. Neučí se úplně od nuly

To je už úkol pro naši GPU (nebo samozřejmě i klasický procesor CPU s tím, že učení bude mnohonásobně pomalejší), libovolné YOLO z nabídky totiž snadno přetrénujeme na vlastních datech.

Nebudu zabrušovat příliš hluboko, ale vtip přeučení neuronové sítě spočívá v tom, že ji nemusíme cvičit úplně od začátku, ale pozměníme jen její poslední vrstvu. Co to v praxi znamená?

Kdybychom učili neuronku vidět úplně od nuly, bude to extrémně náročné. Neuronová síť si musí postupně modelovat úplně vše, jako když nemluvně poprvé otevře oči a začne vnímat různé barvy, barevné předěly a teprve později začne rozlišovat a identifikovat různé objekty.

Při retrainingu neuronky YOLO tedy síť nemusíme učit znovu vidět, ale batoleti, které už ví, že těch pět kýčovitých blbin nad postýlkou jsou hračky z Temu, předložíme několik nových, které zatím nevidělo.

Nebohé děcko využije svých stávajících schopností a zvládne je identifikovat relativně rychle. YOLO a další obrazové AI ve své podstatě fungují docela podobně.

Vyrobíme si detektor počasí

Zdaleka nejjednodušší úlohou modelů YOLO je klasifikace. V tomto případě se AI neučí, kde přesně a jaký objekt se nachází v obrazu, který poté můžeme označit obdélníčkem a dále s ním pracovat, ale pouze zjišťuje, jestli obraz odpovídá objektu, či nikoliv a s jakou pravděpodobností.



Klasifikační varianta YOLO 11 je ze všech nejjednodušší, a proto ji použijeme i v experimentu

Takže zatímco detekční AI řekne:

Vidím s 95% pravděpodobností hrnek na pozici 135,45 a má rozměry 543×256 px,

klasifikační AI řekne:

Vidím s 95% hrnek.

Klasifikační detekce není tak výpočetně náročná a v mnoha případech bohatě stačí včetně dnešního zadání. Zkusíme si totiž natrénovat detektor počasí, který bude klasifikovat, jestli je na fotografii jasná, polojasná, nebo zatažená obloha. Nebude muset určovat, kde přesně je, protože to je naprosto irelevantní.



Naše vycvičená neuronka v akci při počítání typu počasí na vstupním videu. Obloha se postupně horší, a tak roste počet snímků, na kterých přeučené YOLO vidí polojasnou a zataženou oblohu

Takto naučenou neuronku bychom poté mohli použít třeba na Raspberry Pi s kamerou, která by každých deset minut pořídila snímek pohledu z vašeho okna a uložila informaci, jaké bylo zrovna počasí. Anebo, pokud amatérské meteorologii zrovna neholdujete, by mohla projít archiv vašich fotografií za celé roky kdesi na NASu a do EXIFu uložit klíčové slovo o počasí na snímku pro snadné dohledání všech záběrů, na kterých bylo hezky.

Mimochodem, na podobném principu fungují i cloudové AI fotogalerie jako Google Photos a další.