Tak na tohle jsem čekal opravdu dlouho, doufám, že to bude dobře použitelné a co nejvíce rozšířené. Ono je bohužel často potřeba scanovat i klasické textové PDF soubory, protože text z nich nejde korektně vytáhnout (akcenty jsou dodělávané nějakým prapodivným způsobem). Je mi jasné, že záleží na tom, kdo a zejména čím PDF vytvářel, ale nejjednodušší způsob je u mnoha textů OCR. Nemluvím o uzamykání textu kvůli copyrightu, ale o tom, že text se z Readeru nepřenese v pořádku, ponejvíce to platí o českých znacích.
A co se týká trafficu, pak mi to přijde fakt úsměvné. Tak buď něco dávám k dispozici veřejně po internetu a chci, aby to ostatní stahovali, a mám holt traffic, a nebo to nehci, a přístup omezím přes práva, případně alespoň tím, že link na daný soubor není nikde veřejně k dispozici. Nemluvě samozřejmě o všemi nade mnou zmiňovaným robots.txt.
P.S. Stahuje google určitě všechny soubory znova? Není to spíš tak, že místo GET použije nejdříve HEAD, pomocí něhož se dá zjistit mimo jiné datum poslední změny? Nevíte to tu někdo?