OpenAI do svého chatbota konečně vypouští nový model GPT-4V. Je to další z variant jeho nejpokročilejšího velkého jazykového modelu GPT-4, která se podle svého plného názvu (GPT-4 Vision) specializuje právě analýzu obrázků.

Funkce je už k dispozici pro předplatitele ChatGPT Plus/Enterprise, kteří tak mohou podobně jako v Bing Chatu a Google Bardu nahrát libovolný obrázek z počítače a pak o něm s robotem diskutovat.



Vedle běžných příloh můžeme nově nahrát i obrázky

OpenAI slibuje, že novinky později nabídne i ve svém API pro vývojáře a dostane se k většímu počtu uživatelů. Těžko ale soudit, jestli a kdy i do bezplatné verze ChatGPT. Jak jsme totiž psali v samostatném článku, generativní AI je šíleně drahá a OpenAI potřebuje udržitelný obchodní model.

Spočítej prsty na nohou

Model GPT-4V není jen prachsprosté OCR, které v obrazu rozpozná text, ale má přinejmenším občas velmi solidní schopnost porozumění i těm nejmenším detailům na fotografii. Na ukázce níže mi tak bezchybně spočítal prsty na nohou a rozpoznal, že nejsou oholené.



Kolik vidíš noh a prstů?

Vyřeš úlohu

Nicméně legraci stranou, stejně tak si totiž robot poradil i s mnohem komplexnější geometrickou úlohou napsanou od ruky na čtvrtku papíru a jen s textovým doplněním v chatu: „vyřeš úlohu.“



Vyřeš úlohu na obrázku

ChatGPT korektně identifikoval, že je na papíru nakreslené schéma válce, hodnoty r (poloměr základny) a h (výška), nicméně chybí objem. A tak se pustil do díla a k radosti všech učitelů matematiky na základní škole za pár chvil vyplivnul správný výsledek.

Kde jsem to vyfotil?

GPT-4V si poradí i s identifikací známých míst. Předložil jsem mu fotografii od římského Kolosea a bez zaváhání sesumíroval správnou odpověď.



Robot korektně identifikoval Koloseum v Říme

Když jsme se ho ale zeptali na ničím zajímavé místo kdesi u dálnice, už byl skoupý na slovo s tím, že by to mohl být zásah do něčího soukromí, protože chceme třeba lokalizovat fotografii, kterou měl někdo na sociální síti aj. Pokud tomu tak opravdu je, je to vlastně docela chytrá bezpečnostní brzda.



Zde robot mohl jednoduše odpovědět: nemám páru, ale jeho skutečné zdůvodnění je vlastně mnohem zajímavější