Známe budoucnost! Mluvíte o ní na Facebooku

Ještě donedávna sloužily sociální sítě pouze ke žvatlání, dnes se o váš profil zajímají komerční společnosti i vědecké ústavy. Co všechno ze sociálních sítí umí vyvěštit?

Sociální sítě vyrostly z věku nevinnosti. Ještě donedávna sloužily jenom ke žvatlání, dnes se o váš profil enormně zajímají komerční společnosti i vědecké ústavy. Co všechno ze sociálních sítí umí vyvěštit?

Facebook se svou půlmiliardou uživatelů i dvousetmilionový Twitter jsou pro komerční sektor neodolatelné lákadlo. Představa, co všechno by se s tak obrovským množstvím veřejně přístupných (více či méně osobních) dat dalo dělat, nedává spát spoustě lidí na hodně vysokých židlích ani mladým výzkumníkům na univerzitách. Obrovským tempem se proto rozvíjejí analytické nástroje a obor zvaný datamining. Jde stejně tak o akademickou záležitost, jako o zábavu pro kutily. Některé nástroje umožňují hrát si s analýzou dat i doma u kafíčka.

Díky šikovným analytickým nástrojům začíná vystrkovat růžky obor, který zvenku připomíná věštění z křišťálové koule: sociální predikce. Nesnaží se o nic menšího, než předvídat budoucnost na základě dat ze sociálních sítí. Je ukázkově multioborový – pomocí statistiky a matematických modelů získává data pro ekonomické nebo sociologické interpretace.

Jste v klidu? Trhy porostou

Předvídat lze prakticky cokoliv, od výsledků fotbalového zápasu po úder ekonomické krize. Stačí najít příbuzný ukazatel někde na internetu, nejčastěji v sociálních sítích, a správně ho interpretovat. Podmínkou je, aby zdrojová data vytvářeli uživatelé internetu ve velkém množství a nezávisle na ostatních. První pokusy se sociální predikcí vykazují překvapivě vysokou úspěšnost; dokonce i tehdy, kdy za jejich výsledky nestojí žádná složitá matematika. Výsledky senátních voleb ve Spojených státech odhadovali experimentátoři podle počtu fanoušků, které kandidáti nasbírali na Facebooku. Výsledek? Přesnost odhadu kolem 70 %.

datamining.png
Internet je na první pohled neuspořádaná hromada webů – databází. Pokud však data dokážete analyozvat a najdete jejich souvislosti a vazby, získáte možná netušené možnosti. Pokouší se o to třeba Google.

Velkými hráči v předvídání budoucnosti budou podle všeho vyhledávače. Google se snaží přijít se svou vlastní křišťálovou koulí – algoritmem, který nalezne souvislost mezi nárůstem nebo poklesem ve vyhledávání klíčového slova a tržbami. Logika je jasná: pokud se zvýší počet vyhledávání daného pojmu, je to proto, že je o něj větší zájem, a měly by se tedy zvýšit i tržby. Pozadu není ani Yahoo. V polovině letošního srpna si pro jistotu zažádalo o patent pod názvem Předvídání výsledků událostí založené na související internetové aktivitě. Smysl algoritmu je velmi podobný tomu konkurenčnímu: odhaduje se návštěvnost budoucích událostí a v důsledku jejich tržby. V žádosti o patent popisuje Yahoo algoritmus poměrně detailně a zdá se, že je o co stát – tržby filmů dovede s jeho pomocí uhádnout s přesností na miliony dolarů.

Svatý grál sociální predikce představuje vývoj trhu. Nástroj, který by dokázal odhadnout směr vývoje akcií daného titulu s přesností nad nějakých 60 %, by byl pro burzovní makléře k nezaplacení. Dosud se k podobným odhadům využívaly předpovědi počasí (bude hezky, trh poroste) nebo výsledky fotbalových zápasů.

Zdá se, že i tady existuje řešení. Vědci z univerzity v americké Indianě a britském Manchestru v polovině října představili mechanizmus, který využívá masivní analýzu účtů na Twitteru. Strojovou analýzou milionů tweetů získává něco jako globální náladu. Čím je klidnější, tím větší šance, že trh poroste. Celý model završuje neuronový počítač, využívající fuzzy logiku. Výsledek je ohromující – podle průzkumníků dokáže počítač odhadnout směr výkyvu trhu v horizontu až pěti dnů s přesností 87,6 procenta.

Jak to to funguje (a jak to rozbít)

Celou predikci pohání logika, kterou v roce 2004 popsal James Surowiecki v knize The Wisdom of Crowds (Moudrost davů). Podle ní dovede dav odhadnout některé záležitosti přesněji než většina jeho členů. Za určitých podmínek jsou jeho odhady dokonce přesnější než odhady sebelepšího odborníka. Aby chytrý dav mohl věštit, musí podle Surowieckiho splňovat čtyři podmínky – diverzita názorů (každá osoba v davu musí mít vlastní názor), nezávislost (každý svůj názor vytváří sám), decentralizace (každý má k dispozici vlastní znalosti a pracuje s nimi) a agregace (existuje mechanizmus, který z jednotlivých názorů vytváří názor kolektivní).

 

Dav dovede některé události odhadnout lépe než jeho jednotliví členové

 

Na stejném principu funguje také věštění ze sociálních sítí nebo třeba z výsledků vyhledávání. Skupina uživatelů Facebooku nebo Twitteru, dokonce i „skupina“ uživatelů vyhledávačů, se chová jako chytrý dav. První dvě vlastnosti – diverzita a nezávislost – mohou být v sociálních sítích diskutabilní. Jakmile si ale uvědomíte poměr provázanosti (průměrný počet přátel uživatele Facebooku je přibližně sto) k velikosti vzorku (statisíce až miliony angažovaných uživatelů), začne to zase fungovat. Decentralizace je téměř dokonalá. Agregace je vlastně hledání způsobu, jak z jednotlivých updatů zjistit něco smysluplného.

google flu trends.png
Příkladem prediktivní dataminingové analýzy je třeba Google Flu Trends – pokud se bavíte o chřipce a hledáte na webu léky, asi ve vaší oblasti panuje chřipka

Zajímavý je i pohled z druhé strany: okolnosti, kdy chytrý dav nebude dávat žádné rozumné odpovědi a přestanou fungovat i systémy sociální predikce. Chytrý dav můžete po libosti pozorovat, jakmile s ním ale začnete komunikovat, kontaminujete výsledky predikce. Můžete to udělat ze zištných důvodů a zkusit mu podsunout svoje názory. Pokud budete dostatečně úspěšní (a kontaminujete dostatečně velkou část vzorku), analýza vám bude nakloněná. Hrozí ale i nevědomá rizika – třeba zpětná vazba. Nastává tehdy, kdy výsledky analýzy unikají v masivní míře zpět do chytrého davu. Rezonují pak se zdroji a výsledkem je něco podobného, jako kvílení zesilovače na koncertě. Surowiecki přidává konkrétní společenské jevy, které chytrý dav kazí: tlak okolí, davový instinkt a kolektivní hysterie.

Nuda v Česku

Ať už se bude sociální predikce rozvíjet jakýmkoliv směrem, v českém prostředí se jí jen tak nedočkáme. Je částečně závislá na jazyce – algoritmy pro kvalitativní analýzu existují pouze pro největší světové řeči – a plně závislá na množství dat. U nás je pro nějakou komplexnější analýzu použitelný pouze Facebook s necelými třemi miliony uživatelů, patnáct tisíc uživatelů Twitteru je příliš málo.

Sociální predikce je každopádně mladičká disciplína, proto je těžké předvídat jí budoucnost. Pokud tedy nesedíte v křesílku v Googlu nebo v Yahoo a nesledujete výsledky vyhledávání.

 

Základ tohoto článku vyšel v časopisu Computer č. 24/10

Časopis Computer

V Computeru každý měsíc najdete nejdůležitější informace ze světa počítačů, technologií a internetu. Dva důkladné srovnávací testy odhalí a ocení ty nejlepší produkty na trhu. Praktické tipy a triky vyřeší nejčastější problémy s počítači i telefony. Podrobné návody a tipy vám pomohou využít technologie v každodenním životě.

001.jpg

Časopis za nejvýhodnější cenu získáte na iKiosku. Můžete si vybrat mezi tištěnou a elektronickou verzí.

Doporučujeme také speciální vydání Nejlepší návody, tipy a aplikace pro mobily. Jak si s Androidem usnadnit život.

Diskuze (9) Další článek: Microsoft ke kauze Bing: Google se pouze snaží odvést pozornost

Témata článku: , , , , , , , , , , , , , , , , , , , , , , , ,