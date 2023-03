Svět se sice za poslední půlrok posadil na zadek z ChatGPT, nového Bingu a dalších textových AI z ranku tzv. velkých jazykových modelů (LLM), nicméně pravidelní čtenáři našeho seriálu pro kutily zůstali ledově klidní.

Většinu praktických znalostí robota z laboratoří OpenAI totiž už před dvěma lety zvládala přelomová technologie z Brna jménem hlasový asistent Živák!

No dobrá, tak moc přelomová zase nebyla, nicméně trošku odkrývala karty, jak do té doby fungovalo mnoho sémantických a zdánlivě vševědoucích botů a vyhledávačů.

Podívejte se na video, jak jsme do našeho hlasového asistenta Živáka napojili technologii ChatGPT:

Před nástupem AI dodávala chytrost Wikipedie

Podobné programy tehdy přehodily veškerou logiku na jeden velmi široký znalostní a licenčně svobodný zdroj, který všichni velmi dobře znáte, řeč je totiž o Wikipedii a jejím API pro vývojáře.

Když jsme tedy našemu Živákovi položili dotaz Co je to paprika, sám o sobě neprovedl naprosto žádnou sémantickou analýzu, ale textový řetězec v původním znění jednoduše přeposlal na server Wikipedie. Teprve ta rozklíčovala, že se asi ptáme na termín paprika a nabídla na toto téma všechny dostupné články.



Živák uslyšel „Co je to paprika“ a dohledal odpověď na Wikipedii

Náš Živák si následně vybral ten první v pořadí a znovu skrze API požádal Wikipedii, aby mu vrátila stručný výtah. Tedy nikoliv text celého článku na komunitní encyklopedii, ale jen rychlý a informačně hutný perex o několika větách, který nakonec náš robot zobrazil na monitoru a přečetl jej skrze hlasový syntetizátor ve Windows 10/11 a hlas Microsoft Jakub.

Bylo to efektní, celé to běželo v Chromu, a byť měl kompletní HTML kód včetně Javascriptu a komentářů jen okolo stovky řádků, laik si mohl pomyslet, že právě opravdu komunikuje s jakousi sofistikovanou AI, kterou tým vývojářů budoval dlouhé měsíce kdesi na superpočítači.

Ale kdeže! Naši demonstrační apku by levou zadní sesumíroval kdejaký a na výkon orientovaný východoasijský školák.

Dnes napojíme na Živáka ChatGPT

Doba nicméně pokročila, dnes je trendy OpenAI, a tak na její technologii po dvou letech napojíme i našeho Živáka. Nebudeme znovu v celé šíři opakovat, jak vlastně funguje – tady vás odkážu na předchozí díly:

A rovnou se vrhneme na podstatu věci.

Nový model gpt-3.5-turbo

OpenAI nabízí aplikační rozhraní pro vývojáře už nějaký pátek a jeho dokumentaci a podmínky najdete na webu platform.openai.com. Každý uživatel dostane do začátku kredit na hraní, po jehož vyčerpání si už musí zřídit placený účet.

OpenAI Platform dnes umí pracovat s celou škálou vlastních technologií počínaje doplňováním a klasifikací textu a konče generováním obrázků. Před pár dny pak přibyly dva nové modely:

gpt-3.5-turbo

whisper-1

Zatímco první zmíněný a průběžně vylepšovaný model zpřístupní robůtka ChatGPT, Whisper umí překládat mluvené slovo nahrané třeba v MP3 na text.

Ve světě velkých jazykových modelů neplatíte za CPU čas, ale za zpracované tokeny, což je jejich nejmenší informační jednotka. Co to jsou tokeny v případě OpenAI a ChatGPT, jsme si vysvětlili na několika příkladech v samostatném článku.

Pouze tedy zopakuji, že jeden token má v průměru okolo čtyř znaků a případě modelu gpt-3.5-turbo, který od raných verzí prošel mohutnou optimalizací, si OpenAI účtuje 0,002 dolarů za tisíc tokenů. To je o řád méně než doposud.

Nejprve si vytvoříme klíč API

Pojďme si to vyzkoušet v praxi. Předpokládejme, že jste si zřídili účet na webu OpenAI Platform, máte do začátku ještě nějaký kredit, nebo si za přístup už platíte, a vygenerovali jste si svůj klíč API, kterým budete podepisovat dotazy na platformu OpenAI.



Každý nový uživatel dostane do začátku zkušební kredit a vytvoří si přístupový klíč k API

Poté můžete s neuronkami a jejich modely komunikovat skrze knihovnu v některém z mnoha podporovaných programovacích jazyků. Přímo OpenAI vyvíjí vlastní knihovnu pro Python a Node.js, komunita pak i pro PHP, C#, Javu, Kotlin a další technologie.

A teď se zeptáme na papriku z příkazové řádky

Stejně tak ale můžete s API komunikovat přímo skrze prostý HTTP dotaz. Takže pokud máte na počítači dnes už prakticky standardní textový HTTP klient curl, dotaz na robota ChatGPT ve znění:

„Co je to paprika? Odpověď napiš v češtině“

By mohl vypadat v příkazové řádce takto:

curl https://api.openai.com/v1/chat/completions -H "Authorization: Bearer API klíč" -H "Content-Type: application/json" -d '{"model": "gpt-3.5-turbo", "messages": [{"role": "user", "content": "Co je to paprika? Odpověď napiš v češtině"}]}'

Stručně si to rozklíčujme:

https://api.openai.com/v1/chat/ je cílová HTTP adresa

je cílová HTTP adresa -H "Authorization: Bearer API klíč" je HTTP hlavička s API klíčem

je HTTP hlavička s API klíčem -H "Content-Type: application/json" je HTTP hlavička s formátem dat

je HTTP hlavička s formátem dat -d XXX jsou HTTP POST data ve formátu JSON

JSON struktura s parametry dotazu má pak tuto podobu:

{ "model": "gpt-3.5-turbo", "messages": [ { "role": "user", "content": "Co je to paprika? Odpověď napiš v češtině" } ] }

A opět si to rozklíčujeme:

model je AI z nabídky OpenAI, kterou chceme použít

je AI z nabídky OpenAI, kterou chceme použít role je role tohoto dotazu. Ptáme se jako uživatel, takže user

je role tohoto dotazu. Ptáme se jako uživatel, takže user content je samotný dotaz v přirozené češtině

Všimněte si, že dotaz neobalujeme žádnými parametry. Třeba identifikací jazyka, ve kterém chceme dostat odpověď. Na straně OpenAI se textový dotaz nejprve přeloží na číselné identifikátory tokenů a ty se odešlou do samotné neuronové sítě a jejího modelu.



Náš dotaz převedený na tokeny architektury GPT-3. Vyzkoušejte si to sami v tokenizéru

Modelem je vlastně naučená statistická struktura vazeb mezi jednotlivými tokeny, takže AI může odhadovat, jakému sledu tokenů asi nejpravděpodobněji odpovídá nějaký jiný sled tokenů o stanovené délce.

A takto bude vypadat odpověď

Překladač/detokenizér převede vygenerovaný sled tokenů zpět na čitelné znaky, které nám konečně odešle včetně spočítané statistiky ve formátu JSON.



Kompletní dotaz a odpověď na OpenAI API z příkazové řádky

Odpověď ve strojově zpracovatelném formátu JSON a v lépe čitelné formě pak může vypadat v případě papriky třeba jako v ukázce níže. Ale pozor, ChatGPT není Wikipedie, takže každá odpověď je do jisté míry unikátní a může vypadat trošku jinak než ta předchozí.

Odpověď ve formátu JSON:

{ "id": "chatcmpl-6qmMNCSVreZN0Gw9JDvl93QGrMnJN", "object": "chat.completion", "created": 1678036971, "model": "gpt-3.5-turbo-0301", "usage": { "prompt_tokens": 28, "completion_tokens": 88, "total_tokens": 116 }, "choices": [ { "message": { "role": "assistant", "content": "



Paprika je pálivá nebo sladká koření, která se získává z různých odrůd paprikového pepře. Může být používána jako koření do jídel, jako zelenina, nebo se z ní vyrábí paprikový olej." }, "finish_reason": "stop", "index": 0 } ] }

Už si nebudeme vysvětlovat, co přesně představuje každá z položek odpovědi – je to myslím docela jasné z ukázky –, takže jen ty nejdůležitější. V klíči model vidíme konkrétní verzi dané AI, kterou OpenAI použil. V klíči role vidíme, že se jedná o odpověď v režimu asistenta, no a její znění je v klíči content.

Velmi důležitá je i sekce usage, která nám napovídá, kolik jsme spotřebovali tokenů. Samotný dotaz jich zabral 28, poměrně stručná odpověď pak 88. U košatějších odpovědí to ale mohou být i stovky. Dohromady dotaz propálil 116 tokenů.

A teď to samé v čistém Javascriptu a HTML

V příkazové řádce s HTTP klientem curl to funguje, ale teď si to pojďme celé přepsat do podoby jednoduché webové stránky, která bude fungovat i lokálně bez jakéhokoliv serveru prostým otevřením v prohlížeči.



Jednoduché webové rozhraní ChatGPT API

Nezapomeňte nastavit hodnotu proměnné openai_api_klic vlastním identifikátorem, který jste si vygenerovali na webu OpenAI.

<!DOCTYPE html> <html lang="cs"> <head> <title>Dotaz na ChatGPT pomocí API</title> <script> // Funkce, která se spojí s OpenAI API skrze asynchronní HTTP klient Fetch API, // který podporují všechn ymoderní prohlížeče // Viz https://developer.mozilla.org/en-US/docs/Web/API/fetch function dotazGPT(){ let openai_api_klic = "xxxxxxx"; let dotaz = document.querySelector("#dotaz").value; document.querySelector("#vysledek").innerHTML = "<p style='font-size:150%'>Zjišťuji odpověď, chvíli to může trvat...</p>"; fetch("https://api.openai.com/v1/chat/completions", { method: "POST", headers: { "Authorization": "Bearer " + openai_api_klic, "Content-Type": "application/json" }, body: JSON.stringify({ "model": "gpt-3.5-turbo", "messages": [ { "role": "user", "content": dotaz } ] }) }) // Odpověď HTTP serveru zpracuj jako JSON .then((odpoved) => odpoved.json()) // Teď už máme JSON a můžeme s ním pracovat .then((json) =>{ // Načteme odpověď AI let odpoved = json.choices[0].message.content; // Zjistíme, kolik jsme propálili tokenů let tokeny_vstup = json.usage.prompt_tokens; let tokeny_vystup = json.usage.completion_tokens; let tokeny_celkem = json.usage.total_tokens; // Do HTML kontejneru #vysledek napíšeme odpověď a seznam, // koli ktokenů jsme propálili document.querySelector("#vysledek").innerHTML = "<p style='font-size:150%'>" + odpoved + "</p>" + "<ul>" + "<li><b>Spotřeba tokenů celkem:</b> " + tokeny_celkem + "</li>" + "<li><b>Spotřeba tokenů, dotaz:</b> " + tokeny_vstup + "</li>" + "<li><b>Spotřeba tokenů, odpověď:</b> " + tokeny_vystup + "</li>" + "</ul>"; }); } </script> </head> <body> <!-- Textový vstup pro dotaz --> <input id="dotaz" type="text" value="Na něco se zeptej" /> <!-- Při klepnutí na tlačítko zavolej funkci dotazGPT() --> <input type="button" value="Odešli" onclick="javascript:dotazGPT()"> <!-- Kontejner pro odpověď --> <div id="vysledek"></div> </body> </html>

Jednoduchá stránka se skládá z textového vstupu, tlačítka a kontejneru, ve kterém se zobrazí odpověď od ChatGPT a pro lepší představu i statistika spotřebovaných tokenů.

Po klepnutí na tlačítko se skrze vestavěný asynchronní HTTP klient Fetch API spojíme se serverem OpenAI a po několika sekundách (dle vytížení) získáme odpověď v v JSON.

Jednoduché Fetch API už roky podporují prakticky všechny současné webové prohlížeče, takže není třeba i na podobné banality stále dokola používat externí knihovny jako třeba jQuery.

Nakonec integrujeme AI přímo do Živáka

Jak vidno, základní práce s OpenAI je velmi jednoduchá i z prosté HTML stránky a pro ostatní jazyky včetně oblíbeného Pythonu tu jsou knihovny přímo od tvůrců technologie, nebo komunity.



Živák tentokrát poslal dotaz „Co je to paprika“ na server OpenAI a žádá, aby jej zpracoval model gpt-3.5-turbo, který se chová stejně jako nejnovější ChatGPT

My si ale vystačíme s kódem výše, kterým rozšíříme našeho Živáka z roku 2021. Ve výchozím stavu budeme veškerý textový vstup, který jsme získali z vrstvy SST (Speech To Text) posílat právě na servery OpenAI.

Nechceme se ale zcela zbavit Wikipedie, a tak bude Živák podporovat oba znalostní zdroje, což se hodí pro porovnání schopností. Mezi oběma zdroji můžeme v aplikaci přepínat na klávesnici.

Přepínání zdroje hledání Ve výchozím stavu hledá Živák odpověď na Wikipedii. Zdroj hledání lze přepnout stiskem kláves C a W: C nastaví zdroj hledání na ChatGPT

nastaví zdroj hledání na ChatGPT W nastaví zdroj hledání na Wikipedii

Komentovaný kód Živáka v jednom jediném HTML souboru si můžete prohlédnout níže, no a pro jeho hlubší pochopení vás opět přesměruji na původní články, ve kterých jsme si nejprve ukázali, jak na Windows a v Chromu pracovat s převodem hlasu na text a naopak, no a následně jak se spojit s Wikipedií, dohledat články na kýžené téma a získat z nich stručný výtah, který naše aplikace posléze zobrazí a přeříká.

Kód Živáka, který používá ChatGPT i Wikipedii

Nezapomeňte v kódu nahradit text v proměnné openai_api_klic vlastním identifikátorem, který jste si vygenerovali na webu OpenAI.