New York Times žalují Microsoft a OpenAI. Firmy nelegálně trénují AI na milionech článků | Ilustrace: AI Midjourney

Ilustrace: AI Midjourney

New York Times žalují Microsoft a OpenAI. Firmy nelegálně trénují AI na milionech článků

Nejčtenější americké noviny podaly stížnost k manhattanskému okresnímu soudu na společnosti Microsoft a OpenAI kvůli údajnému porušení autorských práv. The New York Times v žalobě uvádějí, že tyto firmy nelegálně zpracovaly miliony jejich článků pro trénování velkých jazykových modelů, na nichž stojí Bing Chat (Copilot) a ChatGPT.

Oba chatboti také citovali texty, které ani nebyly dostupné v bezplatné části webu nytimes.com, ale přístup k nim měli jen předplatitelé. Microsoft navíc v Bingu používá delší výňatky článků, než bývají v běžných výsledcích vyhledávače. Výsledkem je, že AI deníku ubírá čtenáře, protože jim poskytne odpovědi bez placení a návštěvy NYT.

Vedení listu tvrdí, že Microsoft a OpenAI oslovilo již letos v dubnu, když chtělo vytyčit hranice toho, co ještě AI může, a za co už musí platit. Firmy prý ale společnou řeč nakonec nenašly. Microsoft situaci nekomentuje, ale mluvčí OpenAI Lindsey Held říká, že jednání se prý konstruktivně posouvala dopředu, takže je překvapená i zklamaná tím, že došlo až na žalobu.

OpenAI ani nepopírá, že text NYT pro trénink neuronových sítí využívá. Velký jazykový model GPT-3 se učil mj. na datasetu WebText2, kde přes dvě stě tisíc článků vede na nytimes.com. Je ale součástí také většího korpusu Common Crawl, kde je NYT čtvrtým největším zdrojem tokenů po dvou variantách Wikipedie a patentové databázi spravované Googlem. A hned po NYT jsou i jiné významné zpravodajské weby jako LA Times nebo The Guardian.

Žaloba, ať už dopadne jakkoliv, může stanovit důležitý precedent pro posuzování dalších podobných případů. Paralelně už se ostatně vedou i spory o autorská práva u generátorů obrázků, které se trénovaly na chráněných obrazech či fotografiích.

Zdroj: NYT

Určitě si přečtěte

Články odjinud