Nvidia zveřejnila demo aplikaci Chat with RTX, která už nyní dobře ukazuje budoucnost práce s lokálními soubory. Využívá stávající velké jazykové modely Llama nebo Mistral, kterým můžete podsunout lokální složku se soubory typu TXT, PDF, DOC/DOCX a XML nebo videa a playlisty z YouTube.
Pomocí metody nazvané retrieval-augmented generation (RAG) se při generování odpovědi na dotaz v LLM může model opřít o reálná podkladová data a vyhnout se tak halucinování nebo nejasnostem v generovaném textu.
A protože Nvidia Chat with RTX běží čistě lokálně nad lokálními daty, je nejen rychlý, ale současně i bezpečný. Můžete tak spustit dotazy na chráněným obsahem, který by neměl viset někde na internetu. Advokát se může dotazovat nad zákony a dřívějšími rozsudky, technik zkonzultuje jinak neprostupné referenční příručky a doktor může spouštět dotazy nad lékařskými záznamy pacientů.
Hlavním omezením aktuálně budou především použité jazykové modely. Ty jsou totiž úsporné, aby se rozjely lokálně na jednom počítači, a češtinu buď neumí vůbec, nebo ve velmi rané téměř nepoužitelné verzi. Reálně to dnes tedy rozjedete jen nad podkladovými daty v angličtině. I tak to jistě najde široké využití, ale je třeba brzdit nadšení. Není to lokální ChatGPT 4.
Požadavky na hardware
Dále budete potřebovat i výkonnější hardware. Podmínkou je grafická karta GeForce RTX série 30 nebo 40 vybavená alespoň 8 GB paměti. Levné karty typu RTX 4050 nebo 4060 v základních herních počítačích a noteboocích podobný objem grafické paměti nenabídnou, takže potřebujete něco lepšího. Pořád je to ale dosažitelný požadavek, nemusíte shánět NVIDIA GH200 Grace Hopper s 288 GB paměti za pěkný kulatý milión korun.
Další požadavky už jsou zcela dosažitelné – Windows 11, 16 GB paměti a aktuální ovladače Nvidie.
Chat with RTX ale i v této základní verzi dobře ukazuje možnosti a limity lokálních jazykových modelů. Schopnost běžet na jediném od internetu odříznutém počítači stále znamená ústupky v podobě jen prostých odpovědí v omezeném počtu jazyků. Současně jazykové modely vyžadují velké objemy paměti, které v běžných počítačích nenajdete.
Náročnost na výkon a obsazenou paměť pak také naznačuje, že podobný jazykový model na počítači asi ještě chvíli nebude trvale v pohotovosti na pozadí. Jako běžnou součást systému jej asi pár let ještě používat nebudeme a nezmění na tom ani přidání neurálních jednotek NPU přímo do procesorů.
Ale už dnes, ačkoli jde podle Nvidie jen o demo aplikaci, může Chat with RTX v mnoha případech výrazně pomoci při dolování informací z lokálně uložených dokumentů.