Před třinácti lety v seriálu Teorie velkého třesku vymýšleli aplikace, které z fotografie přečtou a vyřeší matematické rovnice nebo online najdou módní obuv Šest let zpět jsme mohli začít na Googlu vyhledávat pomocí obrázků. Minulý rok jste možná žasli nad prvními multimodálními modely umělé inteligence. A teď můžete obrázky použít i pro komunikaci s AI.
S Edge bez printcreenu
Nedávno v postranním panelu prohlížeče Edge přibyla další funkce Copilota. Mezi tlačítky přibylo nové pro výběr a vložení oblasti na obrazovce. A to i mimo okno prohlížeče Edge.
Nástroje pro vkládání obrázků v panelu Copilot
Pro výběr oblasti pro zpracování klikněte na ikonu nůžek v levé části okna pro psaní zpráv. Vyberte část obrazovky, kterou má AI zpracovat, nebo ji ještě upravte. Pomocí základních nástrojů pro kreslení můžete strojům třeba zvýraznit konkrétní věc na obrázku nebo šipkou naznačit směr pohybu předmětu. I takový kontext pomůže AI lépe pochopit na co se to kouká.
Copilot z postranního panelu Edge umí dělat výstřižky i mimo svoje okno. Třeba v tabulkovém editoru. Stačí mít okno prohlížeče někde na monitoru.
Snadnější psaní promptů
Za rok, co velké jazykové modely získaly na popularitě, se málokdo naučil psát dokonalé prompty – příkazy pro modely. A některé situace je i těžké dobře popsat. U multimodálních modelů si ale můžeme pomoci obrázkem nebo výstřižkem z obrazovky.
Například si zrovna nevzpomenu na postup v Excelu. Odsunu okno s Copilotem na stranu, vystřihnu část obrazovky s řešeným problémem a popíšu, jaké bych chtěl řešení. Situaci popisovat nemusím, stroj ji vidí na obrázku.
Copilot nedostal v textové formě dost kontextu a u „obyčejného“ jazykového modelu bych pohořel. Neuvedl jsem, o jakou aplikaci jde
AI ale Excel i situaci identifikovala z výstřižku. Návod je srozumitelný a funkční
Stejný postup můžete použít i u ostatních multimodálních AI nebo Copilota mimo Edge, jen místo výstřižku budete muset použít screenshot.
Na nudné dotazníky ano, raději ne na BOZP
Nejedno personální oddělení musí dělat práci do které se nikomu nechce. Rozesílat dotazníky. A ještě horší je dotazníky vyplňovat. Výstřižek můžeme použít, pokud otázky nelze do chatbota přímo zkopírovat. Dodáme strojům dostatek kontextu a požádáme o vygenerování odpovědí. Před odesláním je ale důkladně zkontrolujte a upravte, ať vás halucinace umělé inteligence nestojí místo.
Fiktivní web s formulářem stejně si jako předchozí tabulku nechal vygenerovat Chat GPT s modelem GPT-4
Odpovědi jsou dle zadání. Drží se otázek z výstřižku i limitu počtu vět v odpovědi. Kontextu jsem moc nedopsal, odpovědi jsou tak velmi všeobecné. Doplněním v konverzaci bych dosáhl lepších výsledků
AI si umí poradit i s testy, kde vybíráte z více možností. Jen vždy dobře zvažte, jestli jde o činnost, za kterou si někdo jen potřebuje odškrtnout políčko, nebo jestli je mít tyto znalosti opravdu důležité. Jako třeba zmiňovaná ochrana zdraví při práci nebo školení kybernetické bezpečnosti.
S domácími úkoly opatrně
Na samotné řešení matematických úloh existují lepší aplikace, kde stačí příklad vyfotit a máte obratem výsledek, než univerzální AI. Výhodou jazykových modelů je ale možnost doptávat se. Potomstvo stále nechápe nějaký výpočet? Neumíte ho dost jednoduše vysvětlit? Zadejte kromě screenshotu rovnic s žádostí o výsledek i další kontext. Například jak podrobně má chatbot jednotlivé kroky vysvětlovat, komu to vysvětluje, nebo žádost a vygenerování příkladů se stejnou operací na procvičování.
Zadání úkolu stačí i stručně. Na obrázku je vše potřebné.
Chatbot bude vysvětlovat postupy tak podrobně, jak si o to řeknete. Doptávejte se, nechte si navrhnout například uplatnění výpočtů v praxi pro lepší představu
Překladač z řečtiny do obrázku
Zajímavý způsob využití multimodálního AI při večeři v zahraničí se objevil na konci léta na X. Jako vstupy byly využity: snímek jídelního lístku ve středomořské restauraci, popis toho, jaké suroviny, kdo z rodiny preferuje, žádost o přeložení názvů, popis jídla v češtině… a co se mi líbilo nejvíce, ještě žádost o obrázek, aby bylo snazší si pokrmy představit.
Najděte brýle bez brýlí
Copilot na všech platformách a mobilní aplikace ChatGPT umí kromě zpracování obrázků i diktování textu. Například prompt k tabulce jsem nepsal ručně, ale diktoval. Převod mluveného slova v češtině obě zmiňované aplikace zvládají překvapivě dobře.
Při použití řeči jako vstupu bude Copilot na telefonu i hlasem odpovídat. Takže až příště budete hledat něco, o čem víte, že jste to teď měli v ruce, vezměte telefon, zapněte Copilota, vyfoťte prostor kolem sebe, a po stisknutí ikony mikrofonu se na propisku/peněženku/brýle AI zeptejte.
A čemu se vyhnout?
Dejte si pozor, jaké snímky do asistentů nahráváte. Výstřižek nebo screenshot obsahující osobní informace před použitím upravte. A informace na výstupu ověřujte. AI nejsou 100% spolehlivé a kombinace computer vision a jazykového modelu šanci na chybu ještě drobně zvětšuje. Může dojít k chybě jak při identifikaci předmětů nebo textu na vstupu, tak k chybě v odpovědi.
Při používání nástrojů postavených na AI je často obtížné vůbec si uvědomit, že je právě teď můžete použít. Že mohou pomoci při činnosti, kterou zrovna děláte – zjednodušit ji, zrychlit, třeba vykonat úplně za vás.
Rozhodli jsme se proto ukazovat, jak a kde AI použít. Konkrétně a prakticky. Když to jde, v ukázkách používáme nástroje, které jsou k dispozici úplně zdarma.