Google robot se učí chápat skutečný obsah webu

Robot Googlu, který den co den prochází miliony stránek po celém světě, se naučil nový kousek. Už nekouká pouze do zdrojového kódu, ale stránky opravdu interpretuje.
Google robot se učí chápat skutečný obsah webu

Před patnácti lety se Googlu indexovaly stránky jedna báseň. Nebylo jich tolik a měly primitivní kód s jednoduchou strukturou. Nějaký ten nadpis, pár paragrafů a konečně obrázky. Byla to brnkačka.

Časy se ale mění. Na scénu později nastoupil Flash Player a kód nejedné stránky začal připomínat nesrozumitelný guláš, indexovací robot totiž stáhl zdrojový kód, ve kterém ale nic nebylo – jen odkaz na jakýsi soubor s příponou SWF, tedy na samotný objekt Flashe, který teprve zobrazil vlastní obsah.

Robot už nemůže jen chroustat HTML kód

Programátoři Googlu správně vytušili, že pokud chtějí indexovat obsah na podobných webech, musí jejich robot rozumět i Flashi a musí tedy ze souborů SWF extrahovat přinejmenším text. To se nakonec skutečně podařilo, i když vlastně až v roce 2008, kdy se už technologie Adobu pomalu blížila svému zenitu a o své slovo se v následujících letech začalo hlásit masivní nasazování Javascriptu a nových technologií, kterým dnes souhrnně říkáme HTML5 – prostě to vše multimediální a dynamické na webu, ale Flash to není.

Mnohé dnešní weby už vlastně nejsou stránky v pravém slova smyslu. Už to nejsou jakési jednoduché nástěnky a letáčky, ale svou vnitřní strukturou aplikace, které fungují podobně jako každý jiný desktopový program. V okamžiku načtení v prohlížeči je spustíte, ony běží, a ukončíte je až po odchodu na jiný web, nebo zavření okna.

Podobné webové aplikace jsou zpravidla plně dynamické, což v praxi znamená, že nemají téměř žádný statický HTML kód, který by mohl navštívit robot a přečíst si jeho obsah, jak tomu bylo doposud, stránka se totiž z různých zdrojů interpretuje až v okamžiku, kdy ji zobrazuje prohlížeč.

Klepněte pro větší obrázek Klepněte pro větší obrázek
Jeden obrázek s logem, pak formulář a pár tlačítek. Mělo by to být vlastně pár řádků HTML, ale moderní interaktivní weby dnes vypadají úplně jinak. Namísto jednoduché struktury z učebnice Začínáme vytvářet webové stránky objeví robot množství složitého Javascriptu.

Ostatně to samé platí i o tak zdánlivě jednoduchém webu, kterým je titulní stránka Googlu. Jenže teď si představte, že jste robot, který ji chce indexovat. Za starých časů by stačilo prostě stáhnout HTML kód, jenže… Jenže byste objevili jen kvanta Javascriptu, i tento jednoduchý web se totiž interpretuje až ve vašem prohlížeči, nikoliv pouze kdesi na serveru.

Takže aby indexovací robot mohl zjistit, co taková stránka vlastně obsahuje, musí ji také interpretovat. Musí ji spustit se vším všudy jako běžný prohlížeč a získat konečně hotový HTML kód, který nakonec vidíte v prohlížeči. No a přesně to nyní začne Google dělat, ačkoliv se jedná o velmi náročnou práci.

Klepněte pro větší obrázek
Extrémně primitivní statický zdrojový kód rozsáhlého webového fóra by mohl vypadat klidně i takto. Bez interpretace, tedy faktického spuštění webové aplikace v prohlížeči, robot vlastně nic neuvidí, mezi značkami <body></body> totiž nic není. Vše je skryto v externím javascriptovém skriptu application.js.

Jistě to sami dobře znáte, zobrazení webových stránek je totiž stále větší nápor na hardware. Zatímco klasické desktopové programy přeložené do strojového kódu může procesor zpracovat téměř ihned, v případě webových aplikací prohlížeč nejprve stáhne zdrojové kódy a poté vše teprve analyzuje, zpracuje, interpretuje a konečně spustí.

Robot nově vidí Javascript a CSS

Google své možnosti takové interpretace testuje už nějaký měsíc a nyní se pochlubil odborné komunitě a zejména webmasterům na svém blogu, že to konečně začne dělat ještě ve větším meřítku. Robot nově interpretuje javascriptovou aplikaci a také stále mocnější CSS a dozví se, jak asi tedy vypadá výsledek, který opravdu vidí surfař. Ten pak může dle svých pravidel řádně indexovat.

Klepněte pro větší obrázek
Nástroje pro webmastery od Googlu

Porozumění dynamicky generovanému obsahu sebou nese několik potenciálních překážek, Google tedy v blogovém zápisku radí, jak by se měli webmasteři připravit, a chystá také nový nástroj do balíku Webmaster Tools, kde se autoři webů dozvědí, jak je Google vlastně vidí. Google v blogovém zápisku varuje především před příliš agresivním nastavením robots.txt, ve kterém mohl autor v dobré víře robotům zakázat indexování externích skriptů JS a šablon stylů CSS. Jenže bez nich nemůže robot pochopitelně cokoliv interpretovat a taková stránka pro něj bude i nadále neviditelná.

Jednou pochopí webovou stránku stejně jako člověk

Google robot nicméně i nadále zůstává relativně hloupým přežvýkavcem, jehož nejsilnější zbraní je rychlost – během jediného dne dokáže díky své jednoduchosti analyzovat miliony webů. Jednoho dne však na scénu nastoupí chytří sémantičtí roboti, kteří nejen že dokážou analyzovat text a základní strukturu stránky, ale opravdu pochopí, jak stránku vidí člověk. Pochopí tedy, jak stránka opravdu vypadá, jakou má přidanou hodnotu, a podle toho jí přidělí skutečně relevantní PageRank. Dnes to stále zní trošku jako sci-fi, pro naše vnoučata to ale možná bude naprostá samozřejmost.

Témata článku: Technologie, Google, Web, Programování, PageRank, Robota, Webmaster, Blogspot, Zenit

26 komentářů

Nejnovější komentáře

  • STROX 28. 5. 2014 14:08:57
    Pěkný článek. Konečně mě přiměl si založit google analytics pro web :)
  • Josef Řepil 28. 5. 2014 11:06:37
    Filozofická otázka: myslíte, že lidstvo někdy vymyslí jeden jediný systém...
  • penzionalenka 28. 5. 2014 7:33:17
    Nenašla jsem, kolik stojí? :-) P.
Určitě si přečtěte

Jak vybrat monitor k počítači: nenechte se zlákat nepodstatnými parametry

Jak vybrat monitor k počítači: nenechte se zlákat nepodstatnými parametry

** Na jaké parametry se zaměřit a kde vás výrobci chtějí nachytat ** Monitory se stále více specifikují pro konkrétní určení ** Náročný hráč nebo profesionální grafik mají různé požadavky

20.  6.  2017 | Tomáš Holčík | 32

Dlouhodobý test HTC Vive: co vám recenze o virtuální realitě neřeknou

Dlouhodobý test HTC Vive: co vám recenze o virtuální realitě neřeknou

** Ani hry se sebelepší grafikou vás nevtáhnou tolik, jako ve virtuální realitě ** Pro sledování filmů není VR ani zdaleka ideální ** I první generace je skvělá, stále však působí jako prototyp

20.  6.  2017 | Stanislav Janů | 22

Jak unikají informace o nových iPhonech? Třeba podprsenkami čínských pracovnic

Jak unikají informace o nových iPhonech? Třeba podprsenkami čínských pracovnic

** Na černém trhu mohou zaměstnanci továren za kradené součástky inkasovat částku ve výši ročního platu ** Velké množství informací je vyneseno i z centrály Applu ** Díly jsou pašovány v botách, podprsenkách i odpadem

21.  6.  2017 | Stanislav Janů | 24

11 tipů, jak efektivně a přesně sledovat počasí pomocí internetu

11 tipů, jak efektivně a přesně sledovat počasí pomocí internetu

** Sledujte počasí z více zdrojů a podrobněji, přesněji tak určíte, jaké počasí vás potká na dovolené ** Na webu najdete hromadu pokročilých předpovědí počasí, ale i specializované meteorologické služby ** Vybrali jsme 14 služeb na počasí, které se vám můžou hodit

23.  6.  2017 | Jakub Čížek | 18


Aktuální číslo časopisu Computer

Bojujeme proti Fake News

Dva velké testy: fotoaparáty a NASy

Co musíte vědět o změně evropského roamingu

Radíme s výběrem základní desky