Google robot se učí chápat skutečný obsah webu

Jakub Čížek 27. května 2014

Další
článek Úprava registrů ve Windows XP může znovu spustit aktualizace SDÍLET NA FACEBOOKU TWEETNOUT

Robot Googlu, který den co den prochází miliony stránek po celém světě, se naučil nový kousek. Už nekouká pouze do zdrojového kódu, ale stránky opravdu interpretuje.

Před patnácti lety se Googlu indexovaly stránky jedna báseň. Nebylo jich tolik a měly primitivní kód s jednoduchou strukturou. Nějaký ten nadpis, pár paragrafů a konečně obrázky. Byla to brnkačka.

Časy se ale mění. Na scénu později nastoupil Flash Player a kód nejedné stránky začal připomínat nesrozumitelný guláš, indexovací robot totiž stáhl zdrojový kód, ve kterém ale nic nebylo – jen odkaz na jakýsi soubor s příponou SWF, tedy na samotný objekt Flashe, který teprve zobrazil vlastní obsah.

Robot už nemůže jen chroustat HTML kód

Programátoři Googlu správně vytušili, že pokud chtějí indexovat obsah na podobných webech, musí jejich robot rozumět i Flashi a musí tedy ze souborů SWF extrahovat přinejmenším text. To se nakonec skutečně podařilo, i když vlastně až v roce 2008, kdy se už technologie Adobu pomalu blížila svému zenitu a o své slovo se v následujících letech začalo hlásit masivní nasazování Javascriptu a nových technologií, kterým dnes souhrnně říkáme HTML5 – prostě to vše multimediální a dynamické na webu, ale Flash to není.

Mnohé dnešní weby už vlastně nejsou stránky v pravém slova smyslu. Už to nejsou jakési jednoduché nástěnky a letáčky, ale svou vnitřní strukturou aplikace, které fungují podobně jako každý jiný desktopový program. V okamžiku načtení v prohlížeči je spustíte, ony běží, a ukončíte je až po odchodu na jiný web, nebo zavření okna.

Podobné webové aplikace jsou zpravidla plně dynamické, což v praxi znamená, že nemají téměř žádný statický HTML kód, který by mohl navštívit robot a přečíst si jeho obsah, jak tomu bylo doposud, stránka se totiž z různých zdrojů interpretuje až v okamžiku, kdy ji zobrazuje prohlížeč.

Jeden obrázek s logem, pak formulář a pár tlačítek. Mělo by to být vlastně pár řádků HTML, ale moderní interaktivní weby dnes vypadají úplně jinak. Namísto jednoduché struktury z učebnice Začínáme vytvářet webové stránky objeví robot množství složitého Javascriptu.

Ostatně to samé platí i o tak zdánlivě jednoduchém webu, kterým je titulní stránka Googlu. Jenže teď si představte, že jste robot, který ji chce indexovat. Za starých časů by stačilo prostě stáhnout HTML kód, jenže… Jenže byste objevili jen kvanta Javascriptu, i tento jednoduchý web se totiž interpretuje až ve vašem prohlížeči, nikoliv pouze kdesi na serveru.

Takže aby indexovací robot mohl zjistit, co taková stránka vlastně obsahuje, musí ji také interpretovat. Musí ji spustit se vším všudy jako běžný prohlížeč a získat konečně hotový HTML kód, který nakonec vidíte v prohlížeči. No a přesně to nyní začne Google dělat, ačkoliv se jedná o velmi náročnou práci.

Extrémně primitivní statický zdrojový kód rozsáhlého webového fóra by mohl vypadat klidně i takto. Bez interpretace, tedy faktického spuštění webové aplikace v prohlížeči, robot vlastně nic neuvidí, mezi značkami <body></body> totiž nic není. Vše je skryto v externím javascriptovém skriptu application.js.

Jistě to sami dobře znáte, zobrazení webových stránek je totiž stále větší nápor na hardware. Zatímco klasické desktopové programy přeložené do strojového kódu může procesor zpracovat téměř ihned, v případě webových aplikací prohlížeč nejprve stáhne zdrojové kódy a poté vše teprve analyzuje, zpracuje, interpretuje a konečně spustí.

Robot nově vidí Javascript a CSS

Google své možnosti takové interpretace testuje už nějaký měsíc a nyní se pochlubil odborné komunitě a zejména webmasterům na svém blogu, že to konečně začne dělat ještě ve větším meřítku. Robot nově interpretuje javascriptovou aplikaci a také stále mocnější CSS a dozví se, jak asi tedy vypadá výsledek, který opravdu vidí surfař. Ten pak může dle svých pravidel řádně indexovat.

Nástroje pro webmastery od Googlu

Porozumění dynamicky generovanému obsahu sebou nese několik potenciálních překážek, Google tedy v blogovém zápisku radí, jak by se měli webmasteři připravit, a chystá také nový nástroj do balíku Webmaster Tools, kde se autoři webů dozvědí, jak je Google vlastně vidí. Google v blogovém zápisku varuje především před příliš agresivním nastavením robots.txt, ve kterém mohl autor v dobré víře robotům zakázat indexování externích skriptů JS a šablon stylů CSS. Jenže bez nich nemůže robot pochopitelně cokoliv interpretovat a taková stránka pro něj bude i nadále neviditelná.

Jednou pochopí webovou stránku stejně jako člověk

Google robot nicméně i nadále zůstává relativně hloupým přežvýkavcem, jehož nejsilnější zbraní je rychlost – během jediného dne dokáže díky své jednoduchosti analyzovat miliony webů. Jednoho dne však na scénu nastoupí chytří sémantičtí roboti, kteří nejen že dokážou analyzovat text a základní strukturu stránky, ale opravdu pochopí, jak stránku vidí člověk. Pochopí tedy, jak stránka opravdu vypadá, jakou má přidanou hodnotu, a podle toho jí přidělí skutečně relevantní PageRank. Dnes to stále zní trošku jako sci-fi, pro naše vnoučata to ale možná bude naprostá samozřejmost.

Diskuze (26) › Další článek: Úprava registrů ve Windows XP může znovu spustit aktualizace

Témata článku: Technologie, Google, Programování, Web, PageRank, Obsah, Robota, Báseň, SKU, Indexovací robot, Masivní nasazování, Naprostá samozřejmost, Blogspot, OBS, Zenit, Skutečný obsah, Webmaster, Titulní stránka, UCI, Starý čas, JavaScript a CSS, Google+, Brnkačka, Robot, Běžný prohlížeč