V miniatuře obraz z kamery a na pozadí rekonstrukce pomocí AI modelu DALL-E 3 

V miniatuře obraz z kamery a na pozadí rekonstrukce pomocí AI modelu DALL-E 3 

V miniatuře obraz z kamery a na pozadí rekonstrukce pomocí AI modelu DALL-E 3 

V miniatuře obraz z kamery a na pozadí rekonstrukce pomocí AI modelu DALL-E 3 

V miniatuře obraz z kamery a na pozadí rekonstrukce pomocí AI modelu DALL-E 3. Další ukázky najdete v úvodním videu

V miniatuře obraz z kamery a na pozadí rekonstrukce pomocí AI modelu DALL-E 3. Další ukázky najdete v úvodním videu

GPT-4 Vision má stejný ceník jako základní GPT-4 Turbo

GPT-4 Vision má stejný ceník jako základní GPT-4 Turbo

Režim nízké kvality analýzy obrázku stojí 0,00085 USD a nehledě na rozlišení

Režim nízké kvality analýzy obrázku stojí 0,00085 USD a nehledě na rozlišení

Výpočet analýzy v normální kvalitě je krapet složitější

Výpočet analýzy v normální kvalitě je krapet složitější

Pro testování API skvělé poslouží multiplatformní  HTTP klient Postman

Pro testování API skvělé poslouží multiplatformní HTTP klient Postman

Roztomilý redaktor Živě.cz olizuje zmrzlé zábradlí před redakcí

Roztomilý redaktor Živě.cz olizuje zmrzlé zábradlí před redakcí

Ceník obrázkových modelů DALL-E 2 a DALL-E 3

Ceník obrázkových modelů DALL-E 2 a DALL-E 3

V popředí skutečný obrázek z kamery, v pozadí syntéza téhož v DALL-E 3

V popředí skutečný obrázek z kamery, v pozadí syntéza téhož v DALL-E 3

Stačí nastartovat server příkazem python server.py a v prohlížeči načíst adresu http://localhost

Stačí nastartovat server příkazem python server.py a v prohlížeči načíst adresu http://localhost

Aplikace v akci. Do konzole prohlížeče (vpravo) se vypisují všechny události, které probíhají na pozadí a ve formě JSON struktur i původní odpovědi OpenAI API 

Aplikace v akci. Do konzole prohlížeče (vpravo) se vypisují všechny události, které probíhají na pozadí a ve formě JSON struktur i původní odpovědi OpenAI API 

V miniatuře obraz z kamery a na pozadí rekonstrukce pomocí AI modelu DALL-E 3 
V miniatuře obraz z kamery a na pozadí rekonstrukce pomocí AI modelu DALL-E 3. Další ukázky najdete v úvodním videu
GPT-4 Vision má stejný ceník jako základní GPT-4 Turbo
Režim nízké kvality analýzy obrázku stojí 0,00085 USD a nehledě na rozlišení
13
Fotogalerie

Napojili jsme GPT-4 Vision a DALL-E 3 na kameru. AI se pokouší kreslit, co si myslí, že vidí

  • OpenAI zveřejnilo API pro přístup k GPT-4 Vision a DALL-E 3
  • GPT-4 Vision umí vidět a DALL-E 3 zase kreslit
  • Posíláme snímky z webkamery do GPT-4 a DALL-E podle toho kreslí

OpenAI zkraje listopadu vylepšilo své aplikační rozhraní pro vývojáře, kteří si tak už několik týdnů mohou hrát s hromadou nových modelů. K těm nejlákavějším patří obrázkový generátor DALL-E 3 a upravený chatbot GPT-4 Vision, který získal schopnost vidět.

Předplatitelé ChatGPT Plus obě umělé inteligence důvěrně znají, skrze API je ale můžeme snadno automatizovat a zapojit do prakticky libovolných scénářů.

Podívejte se na náš experiment v praxi:

  • 00:00 DALL-E 3 a GPT-4 Vision v ChatGPT Plus
  • 00:22 GPT-4 Vision a DALL-E 3 jako API skrze Python a HTML
  • 00:48 Webová aplikace na lokálním serveru
  • 01:57 Vidění a rekonstrukce snímku plešatého pána s jablkem
  • 02:38 Vidění a rekonstrukce plešatého pána s hrníčkem psa s motýlkem
  • 03:11 Vidění a rekonstrukce snímku multimetru
  • 03:51 Vidění a rekonstrukce snímku s okousaným jablíčkem
  • 04:28 Vidění a rekonstrukce snímku 3Dbenchy v dlani
  • 05:02 Vidění a rekonstrukce snímku dřevěné kravičky na stole

AI, nakresli, co si myslíš, že vidíš

A přesně to si dnes vyzkoušíme na bizarním experimentu, ve kterém na GPT-4 Vision napojíme webovou kameru. Obrázky z kamery se budou posílat na servery OpenAI, kde se nejprve GPT-4 Vision pokusí rozeznat, co na nich je, no a poté pomocí DALL-E 3 nakreslí, co vidí.

Bude to tedy taková hezká demonstrace tiché pošty, kdy se jeden model umělé inteligence pokusí co nejpodrobněji popsat scénu, no a poté to zašeptá druhému modelu, který zase umí kreslit.

3a6dc0fb-fc53-4300-bae2-ef10e14549b0
V miniatuře obraz z kamery a na pozadí rekonstrukce pomocí AI modelu DALL-E 3 

Čím věcněji dokáže GPT-4 Vision popsat slovy, co vidí, a čím lépe těmto slovům porozumí DALL-E 3, tím více bude syntetizovaný obrázek odpovídat tomu, co skutečně zachytila kamera.

Naše AI aplikace poběží v HTML a Pythonu

Abychom nestrávili věčnost programováním jakési desktopové aplikace s webkamerou, o uživatelské rozhraní – frontend – se postará běžná webová stránka napsaná v HTML a Javavascriptu. Veškerou komunikaci s OpenAI pak provede jednoduchý a lokálně spuštěný webový server napsaný v Pythonu.

14cef90a-4cdc-4c8b-9cd3-781bbe9b95de
V miniatuře obraz z kamery a na pozadí rekonstrukce pomocí AI modelu DALL-E 3 

Po jeho startu proto stačí na stejném počítači vyťukat do libovolného prohlížeče adresu http://localhost. Bez (byť jen lokálního) serveru by to nešlo, bezpečnostní politika moderních webových prohlížečů totiž jinak neumožňuje pracovat s obrazem z kamery.

Přihlaste se
a zdarma dočtěte
tento článek

 

Po přihlášení můžete také
diskutovat pod články

V pokračování článku také najdete

Kolik stojí jeden dotaz na GPT-4 Vision a proč je výpočet ceny tak složitý

Poté si vysvětlíme, jak funguje DALL-E 3 skrze API

V závěru si popíšeme, jak komunikuje naše stránka s lokálním serverem. Kompletní kód celého projektu se vším všudy najdete na GitHubu

Určitě si přečtěte

Články odjinud