Umělá inteligence ovládne téměř veškeré produkty Mety. Obrázky, samolepky… všechno bude nějakým způsobem vylepšené. Firma to ohlásila minulý týden na konferenci Connect, kde také představila zcela nového AI asistenta, kterého integruje do svých služeb. O jeho trénování spíše pomlčela, avšak později přiznala to, co jsme všichni tušili – Meta svou AI trénuje na veřejných příspěvcích z Facebooku a Instagramu nás všech.
Meta AI, jak se novinka nazývá, je chatbot podobný ChatGPT, Bardovi a dalším. Meta jej plánuje zařadit do Messengeru, Instagramu, WhatsAppu a také do nové generace chytrých brýlích Ray-Ban a headseatu pro virtuální realitu Quest 3. Podle firmy je to „nový asistent, se kterým můžete komunikovat jako s člověkem”, takže klasika – hledání odpovědí na otázky, úpravy a vymýšlení textů apod.
Meta nastínila, že u Meta AI proběhla nějaká forma spolupráce s Bingem a že chatbot bude nabízet i nástroj na tvorbu obrázků. Základem je nicméně vlastní model založený na technologii LLama 2, jenž Meta s velkou pompou dala do světa během léta (více o Llama 2 zde).
To bylo tak zhruba všechno, co Meta během představení sdělila. Detaily o tom, na jakých datech svého chatbota/asistenta trénovala, neuvedla. Až bokem pro agenturu Reuters prezident Mety pro globální záležitosti Nick Clegg prozradil, že firma pro trénování použila veřejné příspěvky na Facebooku a Instagramu.
Nevzala však příspěvky, které byly nastaveny jako soukromé jen pro kamarády a rodiny ani obsah soukromých konverzací. Z těch příspěvků, které byly nakonec použity, byly vyfiltrovány osobní údaje.
Meta k tomu má právo
Hledání dat pro trénování generativních AI modelů je vždycky problém. Je jich potřeba ohromné množství, protože čím více dat budou mít, tím výsledná technologie bude fungovat lépe a bude nabízet rozmanitější výsledky. Jenže s tímto přístupem se lehce může stát, že se do datasetu dostanou i data, ke kterým autor nedal souhlas.
ChatGPT je například vytrénován na datech od neziskové organizace Common Crawl. Ta je shromažďuje z nejrůznějších míst internetu už od roku 2008, dataset je velký v řádů petabytů. Mělo to být relativně „v pohodě”, avšak mateřský OpenAI už čelí celé řadě žalob kvůli možnému porušení autorského zákona, že vzal něco, co nemohl.
Pro Metu se použití vlastních sociální sítí přímo nabízí. Facebook a Instagram jsou obrovské služby, jen Facebook měsíčně používá přes 3 miliardy lidí. Od roku 2014 jsou všechny nově založené profily nastavené jako soukromé, do té chvíle byly všechny automaticky veřejné. Existuje jistě velké množství starých profilů, které nejspíš ani neví, že jejich příspěvky jsou veřejné. Zároveň všechny komentáře na veřejných stránkách a skupinách jsou veřejné a to nelze změnit.
Facebook má v podmínkách jasně uvedeno, že co se nastaveno jako soukromé, to je vaše a nikdo na to nesmí sahat. Co je ale nastavené jako veřejné… tam už je to složitější. Facebook si vyhrazuje právo s tímto obsahem pro vlastní potřeby pracovat. Takže z právního hlediska Meta mohla použít vaše veřejné příspěvky k trénování své AI.
Jak se to projeví v praxi, je otázka. Nejvíc tento fakt nejspíš zamrzí různé veřejné osobnosti a instituce, které na Facebooku sdílejí autorské analýzy, názory apod., které musí mít nastavené jako veřejné kvůli svému publiku. Takový blok textu pak může dát základ textům, které bude Meta AI produkovat. Zvlášť to zamrzí v situaci, kdy jste například spisovatelem a na Facebook dáte úryvek svého díla. Meta si ho prostě vezme a pak ho může lehce okopírovat.
V tomto případě ale žádné žaloby kvůli podmínkám Facebooku nemají šanci na úspěch. Buď musíte sdílet soukromě, nebo nesdílet vůbec.