Robots.txt letos slaví dvacáté výročí. Pokud netušíte, oč se jedná, nejspíše jste nikdy nespustili vlastní web, jednoduchý skript totiž dává vyhledávacím robotům najevo, co mají na daném webu indexovat a co mají naopak ignorovat.
Když tedy stránky navštíví robot Googlu, nejprve se podívá, jestli je v kořenovém adresáři webu kýžený textový soubor a případně si jej přečte.
Pokud v něm bude následující záznam, znamená to, že daný web může navštívit libovolný robot a indexovat vše, co najde:
User-agent: *
Disallow:
Následující záznam naopak všem robotům zakáže cokoliv indexovat, lomítko totiž označuje kořenový adresář webu:
User-agent: *
Disallow: /
Robots.txt toho samozřejmě umí mnohem více, takže můžete robotům omezit třeba indexování fotografií, vybraných složek apod. Rozsáhlejší dokumentaci najdete třeba na webu Jak psát web a k dispozici je i validátor.
Larryho a Sergeje nechte být!
Jeden takový robots.txt se nachází i v kořenovém adresáři samotného Googlu. Jmenuje se killer-robots.txt a je určen dvojici robotů T-1000 a T-800; tedy krvelačným terminátorům z budoucnosti. Skript vypadá takto:
User-Agent: T-1000
User-Agent: T-800
Disallow: /+LarryPage
Disallow: /+SergeyBrin
Skript tedy dává dvojici robotů na vědomí, aby „neindexovali“ (rozumějte nezabíjeli) zakladatele Googlu Larryho Page a Sergeje Brina. Nutno podotknout, že se jedná pouze o klasický easter egg věnovaný právě dvacátému výročí této techniky, nicméně člověk nikdy neví. Třeba se podobný skript bude za pár desítek let opravdu hodit.