Mno, ono se dá z hlediska jazyka dělat ledacos. Nemám nejmenší páru, jak to oddělují u Seznamu, ale namátkou mne napadá:
- třídění podle IP adres, tj. automaticky indexovat všechno, co hostuje v našich IP končinách
- podle domény: cokoli končící .cz
- podle jazyka: od accept-language, až po jazykovou analýzu obsahu stránky
Robot je samozřejmě "pažravý" (termín z dámy, tj. sleduje linky, dokud jsou splněny podmínky nahoře. Jakmile narazí na něco, co už není české, indexování zastaví. Tipuji, že ty podmínky nahoře v kombinaci s nějakým základním seznamem (např. seznam všech domén v TLD .cz) pokryjí velkou většinu českého webu. Obzvlášť, když se přidá ještě možnost ručního přidání do indexu...