Google od roku 2011 smazal více než půl miliardy odkazů na warez. Protipirátští roboti přitom odesílají stále více chybných a zcela nesmyslných požadavků. Je to neudržitelné.
V Americe a zbytku vyspělého světa včetně České republiky už dlouhé roky platí jednoduché právní pravidlo: Vystavuj na webu, co chceš, pokud se nejedná o zjevné porušení zákona, případně pokud tě na to někdo neupozorní.
Bezpečný přístav
V zámoří se tomuto pravidlu říká safe harbor – bezpečný přístav – a je součástí legislativy DMCA z konce devadesátých let minulého století. V našem případě prakticky totéž upravuje § 5 zákona 480/2004 Sb. o některých službách informační společnosti.
Právě díky tomuto pravidlu se na internetu mohlo od počátku století vyrojit enormní množství nejrůznějších webových úložišť a komunitních hudebních služeb jako Grooveshark, které sice operovaly na hraně zákona, ale spoléhaly právě na to, že dokud budou spolupracovat a mazat ohlášený warez, zodpovědnost nepadá na jejich hlavu.
Příklad politiky DMCA v případě Googlu. I ten musí mazat odkazy, pokud vedou třeba na warez a firma o tom byla formálním způsobem informována. Díky tomuto principu ovšem není za předchozí publikaci zodpovědný.
Zatímco zpočátku byl tento stav docela udržitelný, v posledních letech stále více sílí tlak na revizi DMCA a naopak přenesení zodpovědnosti na vydavatele. Právě o to se v zámoří před několika lety pokoušely třeba návrhy zákonů SOPA a PIPA.
Protipirátští roboti
Abychom byli spravedliví, majitelům práv se nemůžeme moc divit. Zatímco ještě na přelomu století bylo webového warezu a surfařů relativně málo, dnes jednu úspěšnou DMCA žádost o smazání obsahu okamžitě nahradí další odkaz na warez, protože web je živý organizmus dvou miliard uživatelů.
Postupem času se tedy musela změnit i defenzivní strategie majitelů práv. Vyšly jim vstříc specializované společnosti, které vyvíjejí velmi sofistikované softwarové roboty, kteří procházejí internet a nedělají nic jiného, než že hledají warez – odkazy na ilegálně šířené chráněné dílo jejich klientů.
Jejich zásah rostl poslední roky téměř geometrickou řadou, takže zatímco ještě v letních měsících 2011 musel takový Google každý týden prověřovat okolo 150 tisíc hlášených webových odkazů, které údajně vedly na warez, v loňské říjnové špičce to už bylo jen stěží představitelných 11,7 milionů. Dnes je to „pouze“ okolo 8 milionů kusů – tedy něco málo přes milion každý den.
Počet žádostí o odstranění odkazů na warez z vyhledávače Google. Před čtyřmi lety to bylo okolo 100 000 URL týdně, dnes jsou to miliony.
Jistě, Google je specialista na hromadné zpracování dat, čili i on pro toto prověřování využívá automatizovaný proces, na konci ale vždy musí rozhodnout člověk. Většinu adres Google skutečně ze své databáze odstraní, ale poměrně hodně jich i zachová a stížnost prostě neuzná. Protistrana pak může Google zažalovat.
Stávající systém je vzhledem ke svému vývoji jen těžko udržitelný, protipirátští roboti jsou totiž stále poměrně hloupí. Vzhledem k množství žádostí (necelé dva miliony od jara 2011) se mezi hlášenými adresami stále častěji objevují naprosté nesmysly, které zvyšují náklady na prověřování.
Všechny žádosti o výmaz jsou k dispozici na stránkách Googlu a na webu chilligneffects.org
Chybně rozpoznaná žádost přitom může mít fatální dopad na svobodu slova na internetu, a proto tyto žádosti veřejně monitoruje a publikuje i americký projekt chillingeffects.org. Pokud by totiž robot chybně rozpoznal warez, do žádosti o výmaz by mohl zaregistrovat zcela nevinný web. No, a pokud by Google, Bing a další vyhledávače neprovedly řádnou analýzu žádosti, oběť by mohla snadno vypadnout z databází a mohla by jí vzniknout významná finanční škoda. Nemluvě o tom, že falešné hlášení by mohli někteří zneužít (a také zneužívají) ke konkurenčnímu boji. Google například píše o případu, kdy jistá britská autoškola nahlásila jinou autoškolu jednoduše z toho důvodu, že údajně zkopírovala její seznam měst, ve kterém působí, a vyvěsila jej na svých stránkách.
Jistě už chápete, že takovou pitomost opravdu nerozlouskne žádný robot, a tak nad podobnými případy musí v Googlu skutečně někdo nechápavě kroutit hlavou a označovat podobné žádosti jako zamítnuté. Google ostatně všechny varuje, že v případě zneužívání formuláře pro hlášení údajného porušení autorských práv vyšle na odesílatele tým svých právníků a bude požadovat náhradu škody.
A to je on – formulář pro hlášení adres ve výsledcích Googlu, které údajně porušují autorská práva. K jedné žádosti můžete připojit až tisíc adres.
Robot chtěl vymazat z Googlu stovku obřích webů
Ovšem ani případ s britskou autoškolou nemá na událost z počátku letošního února, kdy se Googlu ozvala německá společnost Total Wipes Music Group a žádala odstranění necelé stovky odkazů z vyhledávače, které prý porušovaly práva hudebního labelu Aborigeno Music. Na kompletní žádost publikovanou katalogem Chilling Effects se můžete podívat zde.
Stojí to opravdu za to, společnosti Total Wipes totiž zrovna přestal fungovat protipirátský robot a strojově zpracovaná žádost obsahovala zcela bezproblémové odkazy, které se provinily jen tím, že v nich bylo slovíčko download.
Podle Total Wipes tak měl Google ze svého indexu odstranit třeba adresy icq.com/download, java.com/download, ubuntu.com/download, evernote.com/download a tak dále. Jednalo se o stovku odkazů ke stažení všemožných oblíbených softwarových produktů.
Tyto adresy prý porušují autorská prává jistého hudebního vydavatelství. Dobře se podívejte.
Google pochopitelně odkazy neodstranil, a pokud se případ vůbec dostal k člověku (podobné adresy mohl už nějaký primární automat odmítnout jako zjevně bezproblémové), musel si jen povzdechnout, že mu opět někdo přidělává práci.
Nejedná se totiž o ojedinělý případ. Podobné boty se dějí prakticky neustále a na vině zdaleka nejsou jen malí vydavatelé a jejich zástupci ale i ty největší domy včetně Sony, Universalu, EMI a dalších. Vzhledem k množství a tedy i vynucenému strojovému zpracovávání se exponenciálně zvyšuje i riziko, že některé weby Google, Bing a další ze svého seznamu skutečně odstraní, aniž by k tomu byl důvod.
A jaké má být řešení? Majitelé práv přirozeně hledají tu nejjednodušší cestu, která pro ně nebude příliš drahá a bolestivá, a tak namísto toho, aby si dávali větší pozor, na co si vlastně stěžují, požadují, aby Google přestal problematické weby rovnou celé indexovat (fakticky tedy žádají presumpci viny), případně aby on sám byl zodpovědný za vše, co publikuje (to by zase byla revize DMCA a faktické přijetí filosofie SOPA/PIPA).
Střízlivý pohled praví, že zodpovědnost by měla být na obou stranách. Majitelé práv by měli investovat do lepších robotů a měli by být penalizováni, pokud hlásí špatné údaje, ale stejně tak Google a další webové společnosti by měly nést část nákladů, protože zveřejňování informací – včetně potenciálního warezu – je prostě jejich byznys, který jim generuje miliardové obraty.
Dosavadní systém je v každém případě na hraně neudržitelnosti a prakticky stejně nefunkční, i přes miliony odstraněných odkazů totiž i tak Google už ze své přirozenosti zůstává největším katalogem warezu na světě.
Surová data ke stažení
Google nabízí základní statistická data volně ke stažení v několika obřích CSV souborech. Pokud je analyzujete, zjistíte, že firma od roku 2011 zpracovala 1,9 milionů žádostí a na jejich základě odstranila 575 milionů odkazů. Data od robotů byla ale opravdu poměrně chybová, v 56 milionech případů totiž Google odkazy odmítl odstranit. V hromadě případů se jednalo o duplicity téhož URL, těch unikátních, které v Googlu nakonec zůstaly netknuté, je tedy k dnešnímu dni okolo 5,6 milionů. V každém případě se i nadále jedná o obrovskou chybovost protipirátských robotů.
Za účelem zpracování rozměrného textového souboru (275 MB) jsme si napsali jednoduchý program, který spočítal, kolik už Google dohromady smazal URL a kolik žádostí naopak ignoroval.