Český ajtík: Štěpán Škrob

Když se řekne Seznam, každého napadne Ivo Lukačovič. Za zmínku ale stojí také Štěpán Škrob, který stál společně s Ivem u zrodu české legendy. První Český ajtík a rozhovor s osobností.

V České republice žije deset milionů lidí, internetová populace je asi poloviční. Za posledních dvacet let jsme zažili stejný technologický boom, jako zbytek vyspělého světa, který postupně objevuje nový termín – „ajtík“. Zdrobnělina profese, kterou jednoduše zastává každý, kdo má v životopisu IT, možná před lety patřila několika zarostlým a trvale neupravovaným nadšencům, kteří svůj život trávili v zakouřených a potemnělých serverovnách před blikajícími monitory, časy se ale mění. Dnes těchto geeků po světě chodí mnohem více. Rozhodli jsme se, že tento tajuplný svět zmapujeme formou krátkých rozhovorů – medailonků, chcete-li.

stepanskrob.pngPostupně vás budeme seznamovat s IT profesemi od správců sítí, přes učitele, kteří se starají o pár školních počítačů, až po programátory a klíčové osobnosti českého internetu. A dokážeme vám, že někteří z nich už dávno nežijí v potemnělých místnostech a že je s nimi radost pohovořit.

Naší první obětí se stal Štěpán Škrob – „Seznamák“. Narodil se v roce 1974 a před čtrnácti lety stál po boku Iva Lukačoviče u zrodu vyhledávače, o kterém se v různých etapách říkávalo, že to je český Yahoo a posléze český Google. Štěpán Škrob se podílel na vzniku jednoho z prvních českých fulltextových vyhledávačů Kompas, vyvíjel současný vyhledávač Seznamu a dnes se o své technologické dítě stará v pozici „architekta“, který ladí jeho jádro a studuje, jak Češi hledají.

Se Štěpánem jsem strávil příjemnou hodinku v pražském sídle Seznamu na Radlické a z formálního rozhovoru se prakticky okamžitě stala zajímavá procházka zpět v čase až k samotným počátkům seznamáckého fulltextového vyhledávače. Materiálu jsem nakonec sesbíral takové množství, že jsem vybral alespoň to nejdůležitější. 

Začalo to v roce 1996 

Štěpán Škrob, 1974

  • s Ivem Lukačovičem se potkal už na škole
     
  • společně napsali fulltextový vyhledávač Kompas
     
  • podílel se na vývoji dalších služeb Seznamu
     
  • dnes působí jako architekt vyhledávacích technologií
     
  • najdete ho na blogu Seznam Fulltext Blog pod přezdívkou Solamyl
     
  • do práce se snaží jezdit na kole
     
  • v době digitálních fotoaparátů rád fotí na kinofilm

Kdy se poprvé střetl Váš osud se Seznamem?

To je zajímavá otázka. K Seznamu jsem se dostal v jeho velmi rané fázi – vlastně ještě na škole. Přivydělával jsem si jako programátor a při jednom cvičení z Unixu na ČVUT jsem se náhodou setkal s Ivem, který hledal člověka, který by mu napsal část softwaru pro vyhledávač. Takže takhle začala moje práce pro Seznam.

To byly dřevní doby českého internetu. Jaký že to byl rok?

Bylo to někdy na podzim roku 1996.

Mladším čtenářům bychom asi měli připomenout, jak tehdy vlastně vypadal český internet. Do jakého prostředí vstoupil Seznam?

Abych pravdu řekl, tak to nevím. Já jsem internet nepoužíval (smích). Bylo to pro mě něco natolik nového, že jsem to vlastně ignoroval.

To jste doma neměl ani vytáčenou linku, dial-up?

Ne, vůbec!

Takže ani „BBSky“?

Ale jo, „BBSky“ jo, chodil jsem na Fidonet do různých diskuzí, ale internet byl docela okrajovou záležitostí. Máte lidi, kteří musí mít vždy ten nejnovější telefon, a tohle byla svým rozsahem stejně velká skupina lidí, kteří se připojovali k českému internetu, na kterém skoro nikdo nebyl.

Zpět ale k Seznamu. Jak jste měli na začátku rozdělené role?

Tu úplně nejranější verzi katalogového Seznamu napsal prakticky celou Ivo. Ve stejné době ale přišla Altavista – první globální fulltextový vyhledávač. Zadal jste dotaz a Altavista vám vrátila relevantní stránky. To bylo tehdy něco úplně nového. Dnes je to samozřejmě běžné, ale tehdy to byl zázrak.

A kde je dneska Altavistě konec…

Znáte to, doba je pomíjivá. Za deset let tak může skončit Google nebo jakýkoliv jiný webový projekt.

Třeba Seznam…

No může, no (smích)

Ale zpátky k těm naším rolím. Ivo byl Altavistou uchvácen a ptal se mě, jestli neznám někoho, kdo by to uměl naprogramovat. No, nevěděl jsem, později jsem si to ale rozmyslel a domluvili jsme se, že to teda zkusím. Tak jsme to zkusili. A vznikl Kompas.

Seznam jako Yahoo a Google

Seznam tedy získal svůj vlastní fulltextový vyhledávač. Přesto jsme ho všichni deset let vnímali jako katalogový vyhledávač – byl to takový český Yahoo. Kdy se to vlastně zlomilo a řekli jste si, že katalog už pro vás není zajímavý a ze Seznamu se naopak stal český Google?

Nejprve jsme vedle katalogu používali Kompas, který běžel nějakou dobu – vlastně v devadesátých letech. Nicméně jsme ho moc nevyvíjeli, byl to prakticky hotový produkt a pomalu přestal stačit. Začali jsme hledat. Nějaký čas jsme používali vyhledávač Empyreum, pak přišlo na řadu Jyxo a někdy od března 2005 jsme začali používat náš vlastní fulltextový vyhledávač.

seznam 1996.png  seznam1998.png
Seznam ve svých počítacích a o něco později, kdy již obsahoval vlastní fulltextový vyhledávač Kompas

Nicméně otázka zněla, kdy se změnil náš přístup k vyhledávači a přešli jsme z katalogu na fulltext. Myslím, že to bylo právě někdy kolem toho roku 2005 a bylo to dáno hlavně tlakem uživatelů, kteří chtěli co nejrelevantnější výsledky. Český internet už byl natolik veliký, že ho nešlo spravovat skrze katalog, nehledě na problémy s jeho aktualizací. Bylo to tehdy docela bolestivé, protože na katalog byla navěšená hromada byznysu, která se prakticky ze dne na den odstřihla.

A nepřinutila vás k tomuto kroku konkurence? Češi začali objevovat Google, mnozí spoléhali právě na neotřelé Jyxo…

Pro Google tehdy byla ale Česká republika ještě velkou neznámou a my jsme zároveň mohli nabídnout mnohem lepší výsledky. Google na tom tehdy byl vlastně stejně jako je dnes pro české uživatele Bing. Překonat ho tedy na lokálním rybníku zase nebylo tak složité.

Seznam vznikl v době, kdy se začínalo v garážích s minimem prostředků. Tehdy to ale ještě bylo možné, internet byl prázdný a příležitost čekala na každém kroku. Patnáct let poté je už ale internet plně profesionalizovaný a saturovaný. Může se to „undergroundové“ období ještě vrátit? Může dnes někdo začínat byznys v garáži stejně jako Google, Apple a další?

U vyhledávání asi už ne, tady jsou karty rozdané, ale v jiných oblastech to možné určitě je. Garážově vznikl Facebook a to je teprve pár let nazpět.

Je ale ještě skutečně možné přijít na něco nového? V garáži už asi těžko někdo vymyslí lepší komunitní službu než Facebook, nehledě na to, že dnes nemůžete začít s jedním malým ručně poskládaným serverem.

V každé době je prostor začít garážově. Trh nebude nikdy úplně naplněný. Je tu spousta dalších garážových příležitostí, i když budete zpočátku možná paběrkovat.

Jak se dělá fulltextový vyhledávač

Jak jste vlastně psali fulltextový vyhledávač? To jste šli do knihovny pro knihu „Jak si napsat vlastní Altavistu“? Vždyť ten obor byl úplně nový. Podle jaké šablony jste ho vyvíjeli?

Ne ne, vznikalo to úplně jednoduše, fulltextové vyhledávací systémy tady jsou totiž už dlouho – prakticky od 60. let. Firmy jako IBM a další, které vyvíjely databázové systémy, k nim zpravidla dodávaly i fulltextový vyhledávač. V devadesátých letech se tato dobře dokumentovaná metoda vlastně jen přenesla na internet a rozvinula se v trochu jiném směru. Internetový vyhledávač není zase až tak složitý – průměrně nadaný vývojář to dokáže navrhnout.

 stepan skrob.png
Český ajtík Štěpán Škrob

Takhle to alespoň fungovalo na začátku a takový byl i Kompas. Tehdy to bylo vážně triviální. Dnes už to funguje úplně jinak. Už ani tak nejde o to, kolikrát se hledané slovo nachází v dokumentu, ale spíše o to, jak se vyhodnotí statistická data, která mluví ve prospěch nebo neprospěch stránky. Takže aby byl dnes vyhledávač úspěšný, je potřeba aby dokázal přijít na to, co člověk skutečně hledá a zjistit o čem stránky doopravdy jsou. Jestli obsahují hledané slovo, už vážně není tak důležité.

Takže pokud nemám ohromný balík testovacích dat, nemohu vyvinout kvalitní vyhledávač.

Přesně tak. Potřebujete nějaký minimální trh a dostatek uživatelů, od kterých budete získávat statistická data pro rozhodování algoritmů.

Další důkaz toho, že v garáži dnes už vyhledávač nevytvoříte, budou vám totiž chybět data pro analýzu.

Ano

Začali jste před bezmála patnácti lety s Kompasem, už nějakých pět let ale používáte mnohem pokročilejší fulltextový vyhledávač. Vychází z Kompasu, nebo jste ho vyvinuli na zelené louce?

Ne, ne, ne! To vážně ne (smích)

To byl Kompas tak špatný?

Současný vyhledávač je kompletně odlišný, to je rozdíl několika světelných let. Když bych řekl, že je dnešní fulltextový vyhledávač technologicky třeba spalovna odpadů, tak Kompas byl táborový ohýnek.

Tak jak to teda je?

Od doby, co jsme začali psát současný fulltextový vyhledávač, se prakticky vše tak dvakrát přepsalo.

A to bylo…

To bylo myslím v roce 2004.

A na něm jste se podílel, to se stalo vaší náplní na další dlouhé roky.

Ano, pro Seznam jsem vlastně dlouhá léta už od doby Kompasu pracoval jako živnostník, hlavní náplní práce se mi stal Seznam ale až někdy kolem roku 2002. A jak jsme začali dělat na novém fulltextu, zakotvil jsem tu už nadobro.

Jak to tehdy vlastně v Seznamu vypadalo?

Úplně jinak. Dnes jsme samozřejmě normální firma, která má své týmy a každý se věnuje něčemu jinému. Tehdy jsme programovali prostě to, co byl zrovna třeba. Potřebovalo se dělat na e-mailu? Tak se všichni vrhli na e-mail a dělali na něm, dokud nebyl hotový. No a pak se zase všichni přesunuli jinam. Dnes už to funguje úplně jinak.

Architekt vyhledávače

A jak? Co dnes vlastně dělá Štěpán Škrob?

Náš fulltextový tým má okolo třiceti lidí a já tam působím jako jeden z „architektů“ aplikace. To znamená, že testuji a porovnávám, jak si vyhledávací algoritmus poradí s nejrůznějšími výrazy, jak se stránky řadí a na základě toho navrhuji úpravy, aby systém podával lepší výsledky.

Takže to od rána do večera hledáte na Seznamu?

Máme samozřejmě i automatické testy, které měří kvalitu vyhledávače na základě většího množství klíčových slov, děláme to ale i ručně.

A to jsme už trochu nakousli tradiční otázku, jak vypadá váš pracovní den – ten kreativní!

(Následujících pět minut jsme se domlouvali, kdy asi tak Štěpán Škrob chodí do práce. Nakonec jsme se shodli, že by to mohlo být v průměru tak okolo desáté dopolední i v závislosti na tom, jestli zrovna přijel na kole)

No tak nejdříve si přečtu e-maily, které dorazily od snídaně, kdy jsem poštu kontroloval naposledy, a pak už jdu na oběd (smích – s elektronickou poštou mají problémy i někteří členové naší redakce). Pokud to je ale ten kreativní den, sedím u počítače, pitvám výsledky našeho hledání, porovnávám je s konkurencí a snažím se porozumět, proč se zrovna něco našlo tak, jak se našlo. Tím se odhalí slabá místa která pak řeším.

Řekl jste, že dnešní fulltextové vyhledávače už fungují úplně jinak, než ty od IBM z 60. let. Jak budou vypadat za dalších deset let?

Do deseti let by se nám možná mohlo podařit, aby vyhledávače lépe dokázaly odhadnout, co uživatel ve skutečnosti chtěl hledat – což nemusí přesně souviset s dotazem – a podle toho mu nabídnout výsledek. No možná je to jenom utopie, ke které se budeme blížit, ale jinak to asi nepůjde.

Za deset let se tu tedy opět setkáme. Děkuji za rozhovor a už Vás nebudu rušit od pronikání do hlubin fulltextového světa.

Takový byl tedy náš první „ajtík“. Programátor, architekt a jedna z klíčových osobností Seznamu. A Seznamem, který před čtrnácti lety otevřel trh českých webových vyhledávačů, otvíráme i náš seriál rozhovorů Český ajtík a štafetu předáváme dál. Možná to budete i vy.


Pohybuje se ve vašem okolí potenciální Český ajtík? Ozvěte se nám a my za ním vyrazíme. Posilejte své tipy na elektronickou adresu ajtik@cpress.cz.

Diskuze (42) Další článek: Nová Opera 10.53 opravuje kritickou bezpečnostní chybu

Témata článku: , , , , , , , , , , , , , , , , , , , , , ,