OpenAI si nedávno postěžovala, že čínský DeepSeek v rozporu s podmínkami použití zřejmě trénoval svou AI na jeho AI. Jenže západní firmy včetně OpenAI trénovaly svévolně na různých datech. Soudní spor se spisovateli a spisovatelkami odhalil, kolik knih Meta z výměnné sítě BitTorrent při trénování Llamy použila.
Prozrazuje to soudního dokument, který zveřejnil web Ars Technica. Meta skrze torrenty získala minimálně 81,7 terabajtu textů. Z toho 35,7 TB pocházelo z pirátských knihoven Z-Library a LibGen. Americká firma data čerpala prostřednictvím Anna’s Archive.
Už dříve ale Meta z LibGenu vytěžila 80,6 TB dat. Žalobci poukazují na to, že ačkoli Meta nelegálně získala jen 0,008 % z celého autorsky chráněného obsahu, soudcům to stačilo k tomu, aby případ postoupili trestnímu vyšetřování. Očekávají tedy, že případ bude pokračovat.
Příloha zmíněného dokumentu obsahuje části interní komunikace Mety, kterou jsme do té doby neměli možnost vidět. Jeden ze zaměstnanců Mety v e-mailu napsal: „Mám pocit, že používání pirátských materiálů by měly být za hranicí naší etiky“. Interní dokumenty dokládají, že Mark Zuckerberg o použití pirátského obsahu k trénování AI věděl. Předtím to ale dle obžaloby popřel.

V Česku není chatbot Meta AI dostupný
Spor s Metou odstartovalo v červenci 2023 několik spisovatelů a spisovatelek včetně Paula Tremblaye a Sarah Silverman. Tito se rovněž soudí s firmami OpenAI, Nvidia a Databricks. Podle nich firmy použily k tréninku svých umělých inteligencí pirátské knihy. Sbírají důkazy, Meta jim je poskytnout nechce.
Jeden z důkazů ukazuje část komunikace, z níž vyplývá, že se Meta pokusila zakrýt svou činnost tím, že nepoužila facebookové servery ke stahování a nahrávání. Frank Zhang, výzkumník z Mety, loni v dubnu napsal, že na základě rozhodnutí má být práce odvedena v utajeném režimu ve výzkumnické skupině. Současně měla Meta nastavit klienty tak, aby se zpětně do výměnné sítě odeslalo minimum dat.
Prozatím firma v soudním tvrdila, že použití dat z LibGenu spadalo pod dovolené užití. Meta v případu dále argumentovala tím, že žalobci neposkytli důkazy o stahování nebo nahrávání pirátských knih. Na další vývoj si budeme muset počkat. Všechny dokumenty k případu najdete na CourtListener.com.
Zdroje: Document 413 / Case 3:23-cv-03417-VC | Document 417 / Case 3:23-cv-03417-VC | Document 417-1 / Case 3:23-cv-03417-VC | Document 417-8 / Case 3:23-cv-03417-VC | Document 417-9 / Case 3:23-cv-03417-VC via Ars Technica | LLM litigation