V dalším pokračování našeho seriálu o programování elektroniky se vrátíme k OpenAI API, továrna na umělou inteligenci totiž před pár dny vyšla vstříc kutilům, kteří si nechtějí přímo povídat s AI chatboty, ale touží je proměnit třeba v ovladač chytré domácnosti.

V redakci máme nástěnnou klimatizaci, lampičku s chytrou LED žárovkou Wiz a neméně chytrou průchozí zásuvku TP-Link P110. Tato zařízení můžeme ovládat z mobilní aplikace výrobce, stejně tak je ale můžeme komandovat pomocí komunitních knihoven v Pythonu a dalších programovacích jazycích.

To se nám hodí, dnes si totiž ukážeme jednoduchý prototyp v HTML/Javascriptu a Pythonu, s jehož pomocí ovládneme klimatizaci, zásuvku i žárovku hlasovým povelem v přirozené češtině. Ano, ještě jednou: v přirozené češtině! Žádná Alexa v angličtině, žádný Google Home taktéž v angličtině a žádné Siri.

Video: Ovládáme chytrou redakci v přirozené české řeči a s pomocí GPT-3.5

Zdrojové kódy projektu najdete také na GitHubu

Namísto obvyklého: Turn on light in living room prostě webové stránce řekneme třeba: Zapni lampu v dílně nebo třeba: nastav lampu v dílně na růžovou, no a za pár sekund se tak opravdu stane.

ChatGPT API jako dekodér řeči

Celá aplikace přitom nebude mít tisíce a tisíce řádků kódu, právě o interpretaci toho, co vlastně chceme udělat, se totiž postará ChatGPT, respektive jeho velký jazykový model GPT-3.5 v poslední červnové verzi gpt-3.5-turbo-0613.

Robot složitou slovní omáčku převede na jednoduché a strojově zpracovatelné instrukce, kterým už porozumí náš server ovládající chytrou domácnost.



Velký jazykový model GPT-3.5 jako překladač přirozeného jazyka na strojové instrukce

Ačkoliv máme přístup i k nejvýkonnějšímu modelu GPT-4, přesto zvolíme starší generaci 3.5, která je mnohem rychlejší, levnější a její rozumové schopnosti k podobným povelům bohatě stačí.

Robote, překládej řeč na strojové příkazy

Jak vlastně vyrobit podobný interpretační převodník? Jelikož se bavíme s chatbotem, mohli bychom mu to prostě napsat v přirozené řeči. Povel níže tedy promění chatbota v překladač košaté řeči na několik strojových instrukcí, které už můžeme snadno zpracovat v naší klasické aplikaci.



Košatá slovní instrukce, po které se ChatGPT začne chovat jako překladač vstupu v přirozené řeči na jednoduchý strojový výstup

Nastav LED proužek u televize na růžovou

Čili když bychom nyní chatbotovi poslali zprávu:

Nastav barvu LED proužku u televize na růžovou

Odpoví bez dalšího vykecávání a jako na obrázku výše instrukcí:

set_color(85698, 255, 105, 180)

To je strojově snadno zpracovatelná informace v libovolném programovacím jazyku. Stejně tak bychom robotovi mohli přikázat, ať generuje odpověď ve formátu JSON atp.

Čím košatější otázka, tím ale také vyšší cena

V ChatGPT jsme si tento způsob komunikace pouze otestovali, ale v praxi bychom to samé posílali jazykovému modelu GPT-3.5 skrze oficiální aplikační rozhraní OpenAI Platform. Už jsme si ho ukázali v samostatném článku, takže se nebudeme opakovat a jen zdůrazníme, že je zpoplatněné v režimu pay as you go.

Člověk dostane do začátku pár dolarů na experimentování, poté už ale musí vyplnit číslo platební karty a počítat s tím, že v případě modelu GPT-3.5 a základního 4K kontextu (pro práci s textem o délce 4 000 tokenů) zaplatí:

0,0015 dolarů za 1 000 tokenů na vstupu

0,002 dolarů za 1 000 tokenů na výstupu

Pozor, toto je relativně čerstvá novinka, dříve jsme totiž měli jen jednu cenu pro celkový počet propálených tokenů (součet vstupních a výstupních). Teď naopak musíte zvlášť počítat ty vstupní a ty výstupní, protože se jejich cena liší.

Token je základní informační jednotka velkých jazykových modelů a má variabilní délku jednoho až několika znaků. Vstupem je to, co do GPT posíláte, no a výstupem zase to, co AI vygenerovala. Suma sumárum, v našem konkrétním případě je vstup poměrně dlouhý (takže potenciálně drahý) a výstup relativně levný, protože se sestává jen ze strojové instrukce.

Namísto složitého vysvětlování function calling

Takhle vypadala praxe až do minulého týdne, kdy se OpenAI pochlubilo novinkou function calling. Vtip spočívá v tom, že namísto obšírného popisování v přirozené řeči, jak má GPT překládat dlouhý text na strojově zpracovatelnou informaci, vše nakonfigurujeme v JSONu, který pošleme společně s dotazem.

V JSONu jsou stručné deklarace funkcí podobných jako set_color z naší ukázky výše a popisky v přirozené řeči, k čemu je má robot použít a s jakými parametry. Formát JSONu sice není tak tvárný a neumožní úplně všechno, OpenAI ale v dokumentaci slibuje, že model GPT-3.5 je počínaje červnovou verzí gpt-3.5-turbo-0613 na podobnou práci optimalizovaný, takže zpracovávání odpovědi bude rychlejší a s menším rizikem chyb.

Deklarace funkcí, které může vytvořit, je zároveň kratší, takže na vstupu propálíme o něco méně tokenů.

Tak, dost řečí pojďme si to vyzkoušet v praxi.

Mějme v redakci tuto trojici zařízení

Mějme tedy modelovou chytrou domácnost, ve které se nacházejí zařízení s těmito jedinečnými identifikátory:

lampa-dilna

vetrak

klimatizace

Mějme tuto dvojici funkcí pro jejich ovládání

Od AI chceme, aby k těmto zařízením dle kontextu dotazu přidělila funkce:

set-switch

set-color

Set-switch slouží pro zapnutí a vypnutí zařízení a má dva parametry:

id

state

Id představuje identifikátor zařízení, state pak může nabývat jen dvou možností on a off.

Set-color zase slouží pro nastavení RGB barvy, a tak má vedle parametru id ještě r, g a b pro hodnotu každého z osmibitových kanálů.

V deklaraci je velmi důležité, abychom pomocí klíče description popsali, co každá z těchto položek znamená, aby robot pochopil, k čemu jsou dobré. Celý zápis s deklarací funkcí pro GPT-3.5 bude vypadat takto:

[ { "name": "set-switch", "description": "Set switch of device. We can switch on or switch off device", "parameters": { "type": "object", "properties": { "id":{ "type": "string", "description": "Unique name of device", "enum": ["lampa-dilna", "vetrak", "klimatizace"] }, "state":{ "type": "string", "description": "State of switch", "enum": ["on", "off"] } }, "required": ["id", "state"] } }, { "name": "set-color", "description": "Set RGB color of device", "parameters": { "type": "object", "properties": { "id":{ "type": "string", "description": "Unique name of device", "enum": ["lampa-dilna"] }, "r":{ "type": "integer", "description": "Red channel of RGB", }, "g":{ "type": "integer", "description": "Green channel of RGB", }, "b":{ "type": "integer", "description": "Blue channel of RGB", } }, "required": ["id", "r", "g", "b"] } } ]

Když nyní pošleme velkému jazykovému modelu povel v přirozené češtině:

Je tu tma a já mám romantickou náladu. Nastav lampu v dílně na růžovou

A doplníme k němu JSON s deklarací funkcí, které může robot použít, pokud to uzná za vhodné, namísto souvislého textu odpoví opět strukturou v JSON, která bude v klíči function_call obsahovat název funkce, kterou se rozhodl použít, a její parametry.

{ "id": "chatcmpl-7SnmjThCHLD5l1T3HtFcSk0pslVzT", "object": "chat.completion", "created": 1687098913, "model": "gpt-3.5-turbo-0613", "choices": [ { "index": 0, "message": { "role": "assistant", "content": null, "function_call": { "name": "set_color", "arguments": "{

\"id\": \"lampa-dilna\",

\"r\": 255,

\"g\": 192,

\"b\": 203

}" } }, "finish_reason": "function_call" } ], "usage": { "prompt_tokens": 211, "completion_tokens": 40, "total_tokens": 251 } }

V čem spočívá opravdové kouzlo? Jelikož se bavíme s velkým jazykovým modelem, který má poměrně slušnou schopnost abstrakce, pochopí dle deklarace funkcí, že chceme změnit barvu zařízení lampa-dilna a že pracujeme ve formátu RGB.

Sám proto převede slovo růžovou na numerické hodnoty kanálů R: 255, G: 192 a B: 203, které doplní do strukturované odpovědi v JSON.



Kontrola, jaký vzhled má RGB barva 255, 192, 203. Skvělé! Je to opravdu růžová

JSON s přeloženými funkcemi projdeme a podle toho se pak pomocí knihoven spojíme skrze místní síť s koncovými zařízeními a provedeme akci.

V HTML napíšeme frontend pro Chrome

V HTML a Javascriptu si napíšeme jednoduchý webový frontend pro prohlížeč Chrome, který je vyzbrojený vestavěnou technologií SpeechRecognition pro převod mluveného slova na text a podporuje češtinu.



Webové rozhraní se postará o převod hlasu na text v Chromu

S převodem hlasu na text v Chromu jsme v minulosti pracovali už několikrát, a tak jen připomenu náš miniseriál, ve kterém jsme programovali hlasového asistenta Živáka:

HTTP server v Pythonu se spojí s OpenAI a koncovými zařízeními

Jakmile získáme text, pošleme jej na náš HTTP server napsaný v Pythonu pomocí knihovny Tornado. V praxi by mohl běžet třeba na domácím Raspberry Pi, respektive na počítači, který řídí chytrou domácnost, v dnešní demonstraci si nicméně vystačíme se startem na našem vlastním počítači. Díky tomu bude dostupný na IP pseudoadrese 127.0.0.1.

Server poté pošle text ke zpracování do OpenAI pomocí oficiální knihovny pro Python. Dle odpovědi konečně provede akci s vybraným zařízením dostupným v lokální síti LAN:

Žárovku Wiz, se kterou jsme si už pohráli v samostatném článku, ovládne pomocí knihovny pywizlight

Zásuvku TP-Link Tapo P110, se kterou jsme si už také pohráli, ovládne pomocí knihovny PyP100. Na zásuvku je připojený ventilátor

Stará klimatizace je sice sama o sobě úplně hloupá, ale my ji ovládáme pomocí bezdrátového infračerveného vysílače s Wi-Fi, protože jsme si reverzně dekódovali její komunikační protokol. I to jsme si už ukázali v samostatném článku

Funguje to!

Jak se můžete podívat ve videu v úvodu článku, náš prototyp funguje. Sémantické dekódování přirozené řeči na některou z podporovaných funkcí pracuje velmi dobře a GPT-3.5 si poradí jak s různými slovními obraty o stejném významu, tak i se zkomolenými textovými identifikátory našich zkušebních zařízení v redakci. Stejně dobře funguje i převod slovně zadané barvy na kód RGB.



Hlasový povel „nastav barvu redakční lampy na modrou“ a výsledek po zpracování povelu velkým jazykovým modelem GPT-3.5 pomocí techniky function calling

Toto vše bychom samozřejmě mohli udělat i bez velkého jazykového modelu, bylo by s tím ale mnohem více práce a stejně bychom nepostihli tolik možných situací, které GPT dává levou zadní, protože se učil na hromadě textů a jazyků.

Nehledě na to, že to bude principiálně fungovat jak v češtině, tak slovenštině, angličtině, němčině, francouzštině a tak podobně.

Zdrojový kód webového frontendu index.html

Nakonec to nejdůležitější, tedy zdrojové kódy. Nejprve si prohlédněte HTML stránku s ovládací aplikací. V jejím kódu je třeba změnit proměnnou smarthome_url, která obsahuje adresu HTTP serveru, kterému má posílat text z převodníku hlasu. Ve výchozím stavu je to 127.0.0.1, takže server musí běžet na stejném počítači, ze kterého spouštíme webovou stránku.

<!DOCTYPE html> <html lang="cs"> <head> <title>Smart Home Živák</title> <link rel="preconnect" href="https://fonts.googleapis.com"> <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin> <link href="https://fonts.googleapis.com/css2?family=Sofia+Sans+Semi+Condensed&display=swap" rel="stylesheet"> <style> /* CSS styl stránky * Bez okraje, bez posuvníků * S rozložením tabulky */ html, body{ font-family: "Sofia Sans Semi Condensed", sans-serif; margin: 0; padding: 0; width: 100%; height: 100%; display: table; overflow: hidden; cursor: pointer; } /* CSS styl hlavního okna s výsledkem * Pružná velikost písma podle výšky okna, * zobrazení jako tabulková buňka s vycentrovaným obsahem */ #outputbox{ font-size: 5vh; display: table-cell; text-align: center; vertical-align: middle; padding: 50px 50px; } /* CSS styl pomocného okna v zápatí * Druhý řádek tabulky, funkce patičky stránky */ #infobox{ color: #bbbbbb; font-size: 3vh; display: table-row; text-align: center; } /* Třída stylu error pro obarvení chyby do ruda */ .error{ color:coral; } </style> <script> let smarthome_url = "http://127.0.0.1/smarthome/speech/" // HTTP cesta k webovému serveru let stt; // Proměnná objektu převodu hlasu na text (Speech To Text) let tokens_input_total = 0; let tokens_output_total = 0; let tokens_input_price_total = 0; let tokens_output_price_total = 0; // Po kliknuti myší na stránku zavolej funkci listening document.onclick = (event) => listening(); // Po stisku klávesy zavolej funkci listening document.onkeydown = (event) => { listening(); } // Po kompletním načtení stránky zpracuj tuto anonymní funkci window.onload = (event) => { document.title = "Smart Home Živák"; outputBox("Klepni a řekni povel"); // Napiš hlášku do okna console.log("Komandére, okénko prohlížeče je připraveno k hrátkám"); // Vypiš do konzole prohlížeče uvítání stt = new webkitSpeechRecognition(); // Nastartuj technologii Web Speech API v prohlížeči Chrome stt.continuous = false; // Nechceme získávat průběžné výsledky, ale až celou větu stt.lang = "cs-CZ"; // Chceme na text převádět hlas v češtině stt.interimResults = false; // Nechceme dostávat (rychlejší) předběžné výsledky, ale až finální a kvalitní // Jakmile převod řeči na text uslyší delší ticho, přestane poslouchat, zpracuje zvuk a zavolá tuto anonymní funkci stt.onresult = (event) => { if(event.results.length > 0){ // Pokud jsme získali alespoň 1 výsledek let text = event.results[0][0].transcript; // Ulož do pomocné proměnné první výsledek z pole přepisů console.log("========================================"); // Vypiš do konzole pro kontrolu, co prohlížeč uslyšel console.log("Hlas: „" + text + "“"); outputBox("Zpracovávám povel..."); // Napiš hlášku do okna smartHome(text.toLowerCase()); // Pošli text k sémantické analýze } // Pokud žádný výsledek nemáme, // resetuj pohled a do patičky naiš důvod else{ outputBox("Klepni a něco řekni..."); infoBox("Žádné mluvené slovo"); } } stt.onspeechend = () => stt.stop(); // Na konci detekce mluveného slova ukonči poslech // V případě chyby převodu Speech To Text stt.onerror = (event) => { console.log(event.error); outputBox("Klepni a něco řekni..."); infoBox("Chyba analýzy hlasu: <span class='error'>" + event.error + '</spann>'); } // V případě, že Speech To Text nedokáže najít žádné mluvené slovo stt.onnomatch = (event) => { outputBox("Klepni a něco řekni..."); infoBox("Nerozpoznal jsem žádné mluvené slovo"); } } // Funkce listening spustí převod hlasu na text function listening(){ console.log("🎤 Poslouchám..."); window.speechSynthesis.cancel(); // Pokud hlasový syntetizátor právě mluví, ukončí ho outputBox("Poslouchám...");// Do textového okna napiš informační zprávičku stt.start(); // Konečně aktivuj poslech } // Pomocná funkce pro zobrazení textu v patičce function infoBox(text){ document.querySelector("#infobox").innerHTML = text; } // Pomocná funkce pro zobrazení hlavního textu na středu obrazovky function outputBox(text){ document.querySelector("#outputbox").innerHTML = text; } // Hlavní funkce pro analýzu textu, který jsme získali z STT (Speech-To-Text) // Na náš server posílám HTTP POST s tělem fe formátu JSON: // {"text": "převedený text z hlasu"} function smartHome(text){ console.log("🤖 Povel pro server chytré domácnosti: '" + text + "'") fetch(smarthome_url, { method: "POST", headers: { "Content-Type": "application/json" }, body: JSON.stringify({"text": text}) }) // Čekáme na odpověď ve formátu JSON .then((odpoved) => odpoved.json()) .then((json) =>{ // Pokud je klíč return pravda if(json.return){ // V odpovědi dorazila textová hláška (zapnul jsme zařízení XYZ apod.) // A také statistika se spotřebou tokenů a jejich cenou (dle kurzu, viz skript v Pythonu) let text = json.text; let tokens_input = json.tokensInput; let tokens_output = json.tokensOutput; let tokens_input_price = json.tokensInputPrice; let tokens_output_price = json.tokensOutputPrice; tokens_input_total += tokens_input; tokens_output_total += tokens_output; tokens_input_price_total += tokens_input_price; tokens_output_price_total += tokens_output_price; // Textovou hlášku vypíšeme do hlavního okna outputBox(text); // Do patičky vypíšeme statistiku spotřebovaných tokenů let total_price = tokens_input_price_total + tokens_output_price_total; let info = "Cena dotazu: <b>" + tokens_input_price.toFixed(6) + " USD</b> (" + tokens_input + " tokenů)"; info += "<br>Cena odpovědi: <b>" + tokens_output_price.toFixed(6) + " USD</b> (" + tokens_output + " tokenů)"; info += "<br><br />Celková cena sezení: <b>" + total_price.toFixed(6) + " USD</b> (vstup: " + tokens_input_total + " tokenů, výstup: " + tokens_output_total + " tokenů)"; infoBox(info); } // Pokud je klíč return nepravda, // vypíšeme chybové hlášení else{ console.log(json.text); outputBox(json.text); infoBox("Chytrá domácnost neprovedla žádnou akci"); } }); } </script> </head> <body> <!-- HTML prvek DIV s identifikátorem vysledek. Tady se budou zobrazovat výsledky --> <div id="outputbox">Klepni a na něco se zeptej</div> <!-- HTML prvek DIV s identifikátorem infrormace. Slouží jako patička s dodytatečnými informacemi --> <div id="infobox">Hlasové ovládání domácnosti s využitím AI GPT-3.5</div> </body> </html>

Zdrojový kód HTTP serveru v Pythonu

A toto je už konečně mozek naší aplikace – server, který vyřídí jak HTTP spojení z webové stránky výše, tak komunikaci s OpenAI API a koncovými zařízeními. Základní nastavení (API klíč aj.) je v proměnné configuration.

Poté stačí server spustit příkazem:

python server.py

Jelikož ve výchozím stavu běží na standardním TCP portu 80, na linuxových systémech jej budete muset nastartovat s právy správce, jako službu, anebo ručně povolit spouštění na TCP portu 80 i pro neprivilegované aplikace.