OpenAI zkraje listopadu vylepšilo své aplikační rozhraní pro vývojáře, kteří si tak už několik týdnů mohou hrát s hromadou nových modelů. K těm nejlákavějším patří obrázkový generátor DALL-E 3 a upravený chatbot GPT-4 Vision, který získal schopnost vidět.
Předplatitelé ChatGPT Plus obě umělé inteligence důvěrně znají, skrze API je ale můžeme snadno automatizovat a zapojit do prakticky libovolných scénářů.
Podívejte se na náš experiment v praxi:
- 00:00 DALL-E 3 a GPT-4 Vision v ChatGPT Plus
- 00:22 GPT-4 Vision a DALL-E 3 jako API skrze Python a HTML
- 00:48 Webová aplikace na lokálním serveru
- 01:57 Vidění a rekonstrukce snímku plešatého pána s jablkem
- 02:38 Vidění a rekonstrukce plešatého pána s hrníčkem psa s motýlkem
- 03:11 Vidění a rekonstrukce snímku multimetru
- 03:51 Vidění a rekonstrukce snímku s okousaným jablíčkem
- 04:28 Vidění a rekonstrukce snímku 3Dbenchy v dlani
- 05:02 Vidění a rekonstrukce snímku dřevěné kravičky na stole
AI, nakresli, co si myslíš, že vidíš
A přesně to si dnes vyzkoušíme na bizarním experimentu, ve kterém na GPT-4 Vision napojíme webovou kameru. Obrázky z kamery se budou posílat na servery OpenAI, kde se nejprve GPT-4 Vision pokusí rozeznat, co na nich je, no a poté pomocí DALL-E 3 nakreslí, co vidí.
Bude to tedy taková hezká demonstrace tiché pošty, kdy se jeden model umělé inteligence pokusí co nejpodrobněji popsat scénu, no a poté to zašeptá druhému modelu, který zase umí kreslit.
V miniatuře obraz z kamery a na pozadí rekonstrukce pomocí AI modelu DALL-E 3
Čím věcněji dokáže GPT-4 Vision popsat slovy, co vidí, a čím lépe těmto slovům porozumí DALL-E 3, tím více bude syntetizovaný obrázek odpovídat tomu, co skutečně zachytila kamera.
Naše AI aplikace poběží v HTML a Pythonu
Abychom nestrávili věčnost programováním jakési desktopové aplikace s webkamerou, o uživatelské rozhraní – frontend – se postará běžná webová stránka napsaná v HTML a Javavascriptu. Veškerou komunikaci s OpenAI pak provede jednoduchý a lokálně spuštěný webový server napsaný v Pythonu.
V miniatuře obraz z kamery a na pozadí rekonstrukce pomocí AI modelu DALL-E 3
Po jeho startu proto stačí na stejném počítači vyťukat do libovolného prohlížeče adresu http://localhost. Bez (byť jen lokálního) serveru by to nešlo, bezpečnostní politika moderních webových prohlížečů totiž jinak neumožňuje pracovat s obrazem z kamery.
Přihlaste se
a zdarma dočtěte
tento článek
Po přihlášení můžete také
diskutovat pod články
V pokračování článku také najdete
Kolik stojí jeden dotaz na GPT-4 Vision a proč je výpočet ceny tak složitý
Poté si vysvětlíme, jak funguje DALL-E 3 skrze API
V závěru si popíšeme, jak komunikuje naše stránka s lokálním serverem. Kompletní kód celého projektu se vším všudy najdete na GitHubu