Big data: Malé chyby, velký problém

Jan Janča 2. ledna 2015

Další
článek BitTorrent Zeitgeist 2014: co se v uplynulém roce nejvíce pirátilo? SDÍLET NA FACEBOOKU TWEETNOUT

Je to jeden z buzzwordů dnešní doby - Big data. Shromažďují se a využívají k ledasčemu, ale smyl dávají až po smysluplné analýze. Tu může znehodnotit hloupá chyba.

Termín Big data se během několika posledních let dostal snad i mezi amazonské indiány a pro mnohé firmy, média a vědce se stal příslibem nové doby, ve které budou teorie a výpočty nahrazeny pravdou vydestilovanou z oceánu dat. Takové poblouznění ale vede k přehlížení častých selhání snah o využití Velkých dat k hledání smysluplných a pravdivých odpovědí.

Proč se úžasný příběh o velkých datech lidem tak dobře poslouchá, není těžké pochopit. Představa, že místo úmorného a intelektuálně náročného hledání souvislostí a ověřování teorií pouze vezmeme dostatečně velký soubor dat, která nám po prohnání mašinou samy prozradí svůj smysl, je totiž nesmírně lákavá. Důvěryhodnost příběhu navíc zvyšují i velké firmy, jako je Google, Amazon či IBM, které stály u jeho zrodu.

Když Data promluví

Byl to právě Google, který v roce 2008 zveřejnil svoji předpověď šíření epidemie chřipky založenou na frekvenci hledání výrazů spojených s jejími příznaky a radami jak ji „léčit“. Rychlostí i přesností s jakou Google zachytil nástup a předpověděl rozsah chřipkové epidemie, významně předčil standardní statistické metody založené na zpětném sběru diagnóz stanovených lékaři. Tento úžasný výsledek přitom nebyl výsledkem systematické vědecké práce na teorii šíření infekčních chorob, ale pouhým pohledem statistického stroje na miliony vyhledávaných výrazů. Data promluvila, svět poslouchal.

Pro další příklady úspěšného dolování informací z Velkých dat nemusíme chodit daleko. Amazon dokáže z dat o nákupním chování uživatelů vytáhnout veškeré souvislosti, takže lze jen s velmi malou nadsázkou říci, že ví o přání svých zákazníků dříve, než jim přijdou na mysl. Sklady Amazonu se tak plní v předstihu zbožím, o které bude dle jeho předpovědi v dané lokalitě největší zájem během následujících týdnů, čímž se ušetří miliony dolarů na logistice.

VISA, Mastercard a jiné finanční společnosti zase úspěšně využívají analýzu dat k rozpoznání podvodů s platebními kartami, Facebook i další servery s pomocí dat o chování jeho uživatelů zase cílí reklamu. Efektivitu získávání odpovědí z Velkých dat si nakonec můžete vyzkoušet i sami.

Podívejte se, jak lze využít veřejně dostupná data o vyhledávání na Google k zjištění délky oběžné doby Měsíce okolo Země. Zapomeňte na chvíli na znalosti ze základní školy i na to, že si můžete najít heslo Měsíc ve Wikipedii a soustřeďte se čistě na vyhledávaná slova. Otevřete si službu Google Trends, vyhledejte frekvenci hledání klíčové fráze „Full moon“, anglicky „úplněk“, a změňte si časové období na posledních 90 dní.

Vrcholy frekvence vyhledávání klíčové fráze jsou od sebe vzdáleny v průměru 30 dní, což je logické, protože vyhledávání souvisí s pozorováním okolních jevů. Bez jediného pohledu na oblohu a znalostí nebeské mechaniky jsme tak zjistili střední délku oběžné doby Měsíce okolo Země.

Pokud máte zájem a vládnete-li angličtinou, můžete si tento a řadu dalších příkladů prohlédnout v úžasné přednášce Petera Norviga „The Unreasonable Effectiveness of Data“, která je dostupná na YouTube:

Když nerozumíme tomu, co data říkají

Popsané úspěchy a zdánlivá jednoduchost s jakou se dají z Velkých dat dostat užitečné informace, vedly datové optimisty k prohlášením, ve kterých oznamovali konec „doby teorií“ a významu klasického „vědeckého myšlení“ při řešení problémů. Nejen, že se hluboce mýlili, ale navíc udělali medvědí službu tomu, čemu se mezi tím začalo z marketingových důvodů říkat místo statistiky „datová věda“.

Samotná data nelžou a díky počítačům je dokážeme přimět i mluvit. Porozumět tomu, co říkají, je ale úplně jiná disciplína. Chyby známé statistikům, kteří po staletí zkoumali data malá, totiž nadělají stejnou nebo úměrně větší paseku i při analýze dat velkých. Ze všech nástrah, které na nás při zkoumání dat čekají, se blíže podívejme na tu vůbec nejčastější, záměnu kauzality a korelace.

Příkladem jednoduché záměny korelace za kauzalitu je skutečně pozorovaná a novináři zveřejněná „závislost“ spotřeby zmrzliny a počtu násilných trestných činů

Opakování je matka moudrosti, a proto si nejprve řekněme, co oba pojmy znamenají. Kauzalita znamená, že „A“ vede k „B“, tedy v podstatě, že nějaké příčina má jasný následek. Naproti tomu korelace znamená, že „A“ a „B“ se často vyskytuje pohromadě, tedy, že se nějaké jevy či hodnoty vyskytují často spolu. To, že při analýze jakéhokoliv množství dat korelují (objevují se často spolu) nějaké hodnoty ovšem neznamená, že spolu souvisí.

Příkladem jednoduché záměny korelace za kauzalitu je skutečně pozorovaná a novináři zveřejněná „závislost“ spotřeby zmrzliny a počtu násilných trestných činů. Tvrzení, že zakoupením zmrzliny způsobujete zvýšení pravděpodobnosti, že vás nebo vaše blízké někdo zavraždí, je však chybné.

Oba jevy, tedy jak spotřeba zmrzliny, tak počet násilných trestných činů jsou závislé na počasí. Pokud svítí slunce a je teplo, prodeje zmrzliny letí vzhůru a zároveň se zvyšuje počet sociálních interakcí mezi lidmi. Pokud je určité procento těchto interakcí násilné, pak se zvýšeným počtem interakcí vzroste i absolutní počet násilných trestných činů.

Jak Tallin vyhodil do vzduchu 12 milionů EUR

Záměny korelace a kauzality nemusí skončit úsměvně a mohou stát v lepším případě miliony dolarů, v horším případě lidské životy. Zvlášť pokud korelaci používáme k potvrzení našich dopředu vyslovených domněnek. Experty na takové chyby jsou celosvětově politici a ekologové.

Příkladem budiž Tallin, ve kterém se pár chytrých hlav rozhodlo vyřešit problém husté dopravy a kvality ovzduší populárním i papírově efektivním způsobem. Veřejnou dopravou zdarma. Opírali se o korelaci mezi slevou a objemem prodejů, která je skutečně v mnoha případech zároveň kauzalitou.

A jak to dopadlo? Při 23 % růstu nákladů zažila veřejná doprava „ohromující“ 3 % meziroční nárůst přepravených osob, přičemž více než polovinu růstu mělo na svědomí rozšíření linek na dříve neobsluhovaná místa. Snížení hustoty dopravy nebylo pozorováno, znečištění ovzduší nekleslo, naopak mírně vzrostlo. Proč?

Data versus informace

Pojmy data a informace jsou, nejen v médiích, často zaměňovány nebo jsou dokonce považovány za synonyma. Ve skutečnosti je ale jejich význam velice rozdílný. Data, to jsou nuly a jedničky, které nám sami o sobě neposkytují popis okolního světa. Na základě dat nemůžeme přijímat rozhodnutí, nijak totiž nesnižují naši nejistotu. Oproti tomu informace představují konkrétní popis vlastnosti nebo chování, snižují naši nejistotu při popisu okolního světa, a můžeme na základě nich činit racionální rozhodnutí. Zjednodušeně řečeno, data jsou železná ruda, informace jsou ocel.

V případě osobní dopravy, tedy jízdou autem, platí jiná kauzalita. S růstem životní úrovně a disponibilního příjmu si prostě lidé, ať se to politikům a ekologům líbí nebo ne, kupují více automobilů a preferují je před veřejnou dopravou. Chcete-li snížit počet lidí přepravujících se v osobních automobilech, musíte zdražit jejich používaní, například mýtným pro vjezd do centra města.

Pokud se domníváte, že podobné chyby jsou doménou „hloupých“ novinářů a politiků, pak vás zklamu. Podle výzkumu provedeného na Severovýchodní a Harvardově univerzitě se v posledním roce podobně fatálně mýlil i Google ve své výše popsané předpovědi šíření chřipky. Minimálně v USA se jeho dříve přesná předpověď mýlila ve stovce ze 108 sledovaných týdnů, přičemž v únoru 2013 nadhodnotil skutečný počet případů chřipky hned dvojnásobně.

Ne, Velká data nepřestala fungovat, ale lidé z Google se zapomněli správně ptát. Od roku 2008 se totiž změnilo nejen rozhraní vyhledavače, ale i chování jeho uživatelů a schopnost původního algoritmu úspěšně předpovídat chřipkovou epidemii se vytratila.

Ukazuje se, že tím, jak Google přidal některé klíčové fráze související s předpovědí do našeptavače, a tím, jak změnil způsob, jakým indexuje a vypisuje stránky s informacemi o zdraví, změnil i zvyky uživatelů. Korelace mezi vyhledáváním vytipovaných frází a skutečnou nemocností tak přestala platit. Bude tedy potřeba klasického vědeckého přístupu a zkušených statistiků, aby našli nové, signifikantní korelace a spojili je se skutečným výskytem choroby.

Velká data tedy rozhodně nepřinesla konec teorií a vědeckého myšlení, ale právě naopak. Firmy i státní instituce, které chtějí z dat o zákaznících, výrobě nebo občanech získat smysluplné informace, potřebují více než kdy jindy zkušené statistiky, matematiky a fyziky, kteří je provedou nástrahami, které sebou přináší snaha o porozumění tajemství skrytých ve Velkých datech.

Autor je CEO společnosti Gauss Algorithmic

Diskuze (7) › Další článek: BitTorrent Zeitgeist 2014: co se v uplynulém roce nejvíce pirátilo?