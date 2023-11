OpenAI zkraje listopadu vylepšilo své aplikační rozhraní pro vývojáře, kteří si tak už několik týdnů mohou hrát s hromadou nových modelů. K těm nejlákavějším patří obrázkový generátor DALL-E 3 a upravený chatbot GPT-4 Vision, který získal schopnost vidět.

Předplatitelé ChatGPT Plus obě umělé inteligence důvěrně znají, skrze API je ale můžeme snadno automatizovat a zapojit do prakticky libovolných scénářů.

Podívejte se na náš experiment v praxi:

AI, nakresli, co si myslíš, že vidíš

A přesně to si dnes vyzkoušíme na bizarním experimentu, ve kterém na GPT-4 Vision napojíme webovou kameru. Obrázky z kamery se budou posílat na servery OpenAI, kde se nejprve GPT-4 Vision pokusí rozeznat, co na nich je, no a poté pomocí DALL-E 3 nakreslí, co vidí.

Bude to tedy taková hezká demonstrace tiché pošty, kdy se jeden model umělé inteligence pokusí co nejpodrobněji popsat scénu, no a poté to zašeptá druhému modelu, který zase umí kreslit.



V miniatuře obraz z kamery a na pozadí rekonstrukce pomocí AI modelu DALL-E 3

Čím věcněji dokáže GPT-4 Vision popsat slovy, co vidí, a čím lépe těmto slovům porozumí DALL-E 3, tím více bude syntetizovaný obrázek odpovídat tomu, co skutečně zachytila kamera.

Naše AI aplikace poběží v HTML a Pythonu

Abychom nestrávili věčnost programováním jakési desktopové aplikace s webkamerou, o uživatelské rozhraní – frontend – se postará běžná webová stránka napsaná v HTML a Javavascriptu. Veškerou komunikaci s OpenAI pak provede jednoduchý a lokálně spuštěný webový server napsaný v Pythonu.



V miniatuře obraz z kamery a na pozadí rekonstrukce pomocí AI modelu DALL-E 3

Po jeho startu proto stačí na stejném počítači vyťukat do libovolného prohlížeče adresu http://localhost. Bez (byť jen lokálního) serveru by to nešlo, bezpečnostní politika moderních webových prohlížečů totiž jinak neumožňuje pracovat s obrazem z kamery.

Aby to vše fungovalo, dále předpokládejme, že vše spouštíme na Windows a stránku budeme otevírat v prohlížečích na bázi Chromium (Google Chrome, Microsoft Edge). Do hry totiž zapojíme ještě český hlasový syntetizátor ve Windows, který je dostupný skrze standardní rozhraní Javascriptu SpeechSynthesis.



V miniatuře obraz z kamery a na pozadí rekonstrukce pomocí AI modelu DALL-E 3. Další ukázky najdete v úvodním videu

Hřejivým slovem nám vždy po klepnutí odpoví, co vlastně GPT-4 Vision vidí na obrázku.

Komunikaci s OpenAI API už známe

Komunikace s OpenAI API je docela prostá a firma dokonce vytvořila i knihovnu pro Python, která to ještě více usnadňuje. Některé nové kousky ale zatím neumí, a tak se budeme držet surové komunikace HTTP POST pomocí knihovny pro HTTP komunikaci Requests.

Základní způsob spojení s OpenAI API jsme si podrobně vysvětlili už ve starších článcích, takže vás na ně odkážu:

A dnes se vrhneme rovnou na podstatu věci. Ostatně, veškerý zdrojový kód najdete jako vždy na GitHubu našeho seriálu o programování elektroniky.

Jsi asistent pro nevidomé. Popiš, co vidíš

Práce s modelem GPT-4 Vision se v principu neliší od základního chatbota. Na adresu API tedy pošleme nějaký povel v přirozené češtině, nicméně tentokrát bude zpráva formátovaná ve strukturovaném JSON obsahovat ještě odkaz na obrázek, anebo rovnou bajty ve formě textu Base64.

Naším povelem bude: