Jak Češi dolují a rozpoznávají data a tvoří nový trh

Brand Embassy je další z mladých českých firem, které dolují data z internetu a sociálních sítí a analyzují je. Používané technologické zázemí je proto velmi zajímavé.

Pro rychle rostoucí českou společnost Brand Embassy je vývoj jejich softwaru cestou po polích neoraných. Startup, který analyzuje data z webu a sociálních sítí tak, aby díky nim šlo poskytovat rychlou zákaznickou podporu, v podstatě formuje zcela nový trh a naráží díky tomu na věci, na které ještě nikdo nenarazil. „Říká se, že na každý problém je odpověď na internetu. V našem případě to často není pravda,“ tvrdí v rozhovoru pro Connect.cz technologický šéf společnosti Damián Brhel.

„Zákaznická péče na sociálních sítích je oblast, která se teprve vytváří a formuje. To znamená, že spousty cest šlapeme jako první a různé problémy rovněž řešíme jako první,“ pokračuje Brhel. Technologie Brand Embassy, kterou je možné si pořídit jako cloudovou službu za pravidelný poplatek, umožňuje firmám a značkám monitorovat sociální sítě a web a rychle z jednoho místa odpovídat na případné dotazy a stížnosti zákazníků. Je to takové novodobé call centrum, se kterými se mimochodem Brand Embassy snaží postupně integrovat. Stejně tak postupně dochází k integraci sémantických nástrojů, jež firma získala po loňském odkupu startup Beepl.

Brand Embassy tak, podobně jako rovněž čeští Socialbakers, vysílají do internetového světa své vlastní „roboty“, kteří sbírají data pro jejich další zpracování. Tito roboti musí umět posbírat data v diskusních fórech, na blozích a sociálních sítích jako jsou Facebook či Twitter, a chytré mechanismy za nimi jim pak dají kontext. „K monitoringu sociálních sítí a internetových diskuzí využívá Brand Embassy také externí partnery, mimo jiné nástroje Ataxo Insider nebo Brandwatch.“

Jde o rychlost

„Rychle rosteme, takže se čísla postupně mění, nicméně v současné době každý den ze sociálních sítí nasbíráme kolem 30 GB dat,“ popisuje technologický šéf Brand Embassy. To je i v růstové fázi úctyhodné číslo. Je totiž nutné vzít v potaz, že takto nasbíraná data jsou v podstatě pouze text, který sám o sobě příliš velký není. I přesto ale objem přenesených dat nehraje tu zásadní roli.

Klepněte pro větší obrázek
Šlapeme novou cestu. Technologický šéf Brand Embassy Damián Brhel.

„Nás objem spočívá především v komunikaci,“ upřesňuje Damián Brhel. „Důležitá je v prvé řadě rychlost. Tedy to, jak rychle dokážeme daný vzkaz ze sociální sítě doručit. Záleží na sekundách a minutách, rychlost reakce je zásadní.“ Brand Embassy sleduje data z Facebooku a Twitteru prakticky v reálném čase, jen na Facebook se každý den odešlou 2 miliony dotazů. Dolování dat z obou sítí je ale trochu odlišné.

V případě Twitteru je možné se napojovat na veřejné aplikační rozhraní (API), které díky takzvané „push“ notifikaci doručuje data automaticky hned, jak se objeví. U Facebooku se pak monitoring nasazuje na stránky jednotlivých klientů. Brand Embassy si z Facebooku bere pouze veřejně dostupná data. „Problém je v tom, že Facebook umožňuje nastavení různých úrovní soukromí a s tím dost bojujeme,“ říká Brhel. Problém představuje i to, že obě sociální sítě jsou velké firmy a někdy je s nimi těžší komunikovat. „Mnohdy se dostáváme k problémům, které sami nemůžeme řešit a Facebook ani neoznámí, zda je to cíl, nebo zda jde o chybu.“ Český startup už nicméně pracuje na tom, aby se dostal, opět podobně jako Socialbakers, do užšího partnerství s Facebookem.

Aby bylo možné data rychle zpracovávat a doručovat, z velké části se s nimi pracuje v paměti. „Spoustu dat, které v následujících 3 hodinách použijeme, držíme v operační paměti,“ popisuje Brhel. Brand Embassy si tak částečně hraje s in-memory konceptem, i když to není tradiční pojetí, které je možné sledovat u Oraclu či SAPu. Jakmile se data posbírají, udělá se nad nimi analytika a následně jsou uloženy do paměti serverů a na storage. Nad samotnými daty je postavená „cache“ vrstva a hodně dat se pak distribuuje z ní.

Vyslanci z cloudu

Hlavním úložištěm pro velké množství získaných nestrukturovaných dat je Elasticsearch. V Brand Embassy se pro tento relativně mladý projekt, který používají například firmy jako Foursquare, GitHub či SoundCloud, rozhodli před půl rokem a technologické postupy konzultují přímo s tvůrci. Tradiční strukturovaná data se pak ukládají do MySQL.

Brand Embassy bylo od začátku postaveno pro chod na cloudové infrastruktuře. Firma si tak spouští virtuální servery (VPS) na cloudu společnosti GoGrid, přičemž těchto VPS v současné době provozuje už několik desítek. Na virtuálních strojích pak běží takzvaní „workeři“ – tedy zmiňovaní roboti, kteří „chodí do světa“ sbírat data. Provoz je v současné době obstaráván v datovém centru v Amsterodamu, ještě letos se má ale rozšířit také do Spojených států. „Je to mimo jiné kvůli tomu, že se tak lze lépe bránit DDoS útokům,“ vysvětluje Brhel.

Provoz v cloudu je podle technologického hlavouna Brand Embassy výhodný v tom, že je dynamický a je možné jednoduše získat výkon a nové systémové prostředky. O jednoznačné finanční výhodě, jak je často ve spojitosti s cloudy předkládána, ale úplně přesvědčený není. „Myslím, že bychom službu dokázali postavit také bez veřejného cloudu na vlastním hardwaru. Sice by tam byla počáteční investice do infrastruktury, ale ta by se mohla do 2 let vrátit.“

Úvahy o tom, že by nadějný český projekt přešel z cloudu na vlastní hardwarovou infrastrukturu, jsou tak na místě v případě, že by se provoz stal příliš drahým. „Technologicky nám cloud stačí. Moment, kdy bychom ho chtěli opustit, je ten, kdy už by stál prostě moc,“ říká Brhel. Firma zvolila GoGrid mimo jiné i díky doporučení dnes již koupeného Beeplu, dostává nicméně i další nabídky, například z české pobočky IBM.

Staré dobré PHP a Python

Novodobé internetové společnosti pracující s různými typy velkých dat často opouští tradiční zavedené technologie a využívají nové typu Node.js a podobně. V Brand Embassy však zůstávají i zavedeného PHP, jenž pohání jak front-end, tak back-end. Ve spodní části se k němu připojuje ještě Python, mimo jiné i kvůli dobrým knihovnám a podoře lingvistické analýzy, kterou společnost potřebuje kvůli postupnému zavádění sémantického rozpoznávání významu textů na webu.

„Python má, stejně jako PHP, spousty nedostatků dané tím, že obě technologie byly navrženy už docela dávno. Na druhou stranu už ale s oběma jazyky umíme už dlouho a umíme se přes ony nedostatky překlenout,“ komentuje Brhel. „Navíc je zde hodně lidí, kteří PHP a Python umí.“

PHP má ale také další výhodu – podporu Facebooku. „V tom vidíme vizi. Facebook bude pořád tlačit na PHP nástroje a na efektivitu tohoto jazyka. Musí to dělat, má v této infrastruktuře miliony až miliardy dolarů,“ nastiňuje mladý technologický šéf. Brand Embassy je navíc připraveno v případě nutnosti současný kód převést do jazyka C díky službě HipHop, jíž podporuje právě Facebook. „A v ten moment veškeré načítání a podobně spadne o 80 procent.“

Produktový tým Brand Embassy má v současné době 7 programátorů, postupně se ale budou nabírat další. S jejich sháněním údajně není problém. „Lidé dnes utíkají z korporací do menších firem. Navíc startupů v Česku je sice hodně, těch úspěšných jako my ale zase tolik ne,“ myslí se Brhel. Vývojářů, kteří by u nás uměli pracovat například se zmiňovaným Elasticsearchem prozatím tolik není, Brand Embassy ale nemá problém se zaučením.

Práce pro technologický tým rozjeté firmy bude v budoucnu dost. „Máme nápady minimálně na další rok a vývoj zdaleka nekončí,“ tvrdí Damián Brhel. Je to dané nejenom tím, že se oblast zákaznické podpory přes sociální sítě postupně standardizuje, ale rovněž tím, že nyní probíhá integrace s Beeplem a Brand Embassy rovněž pracuje na integraci se současnými systémy tradičních call center.

Právě Beepl a sémantika může představovat novou zajímavou výzvu. „Pracujeme na základě machine learningu, kdy stroj naučíme nějaké data sety,“ vysvětluje Brhel. „Druhý přístup je matematický. To se váží významy slov na základě údajů, které se dají získat třeba z internetu. Zatím jsme v experimentální fázi, ale brzy to chceme dotáhnout do konce.“

Diskuze (21) Další článek: MSI na Computexu: i nadupadné herní notebooky mohou být tenké

Témata článku: , , , , , , , , , , , , , , , , , , , , , , , ,