Google začal indexovat PDF dokumenty a texty obrázků

Diskuze čtenářů k článku

Veolw  |  01. 11. 2008 09:35  |  Microsoft Windows Server 2003 Opera 9.60

Co kdyz mam na webu pdf soubory o velikosti napr. 100MB. Pokud mi to zacne nejaky vyhledavac stahovat tak se prece dost navysi traffic. Zajimalo by me jak casto to asi tak stahuje.

Souhlasím  |  Nesouhlasím  |  Odpovědět
vvessan  |  01. 11. 2008 11:00  |  Macintosh OS X AppleMAC-Safari 5.0

pomoci robots.txt na indexu, jde urcit, ktere soubory se maji a nemaji prochazet a googlebot to respektuje

Souhlasím  |  Nesouhlasím  |  Odpovědět
kemo3  |  01. 11. 2008 13:28  |  Macintosh OS X AppleMAC-Safari 5.0

presne, a tak pak zalezi pouze na vas, ktere soubory chcete indexovat = jak velky trafic objetujete..

Souhlasím  |  Nesouhlasím  |  Odpovědět
avatar
01. 11. 2008 16:11 | Linux Opera 9.52

ObĚtuju. A to co jsi psal si vydedukuje i opička

Souhlasím  |  Nesouhlasím  |  Odpovědět
nordic  |  01. 11. 2008 22:28  |  Microsoft Windows Vista Firefox 3.0.3

Skor by mal byt defaultne subor robots.txt nato, aby google vedel co ma scanovat, co ked si to nezelam ? aby to skenoval ???? Chapes, takto sa google hrabe v milionoch strankach, len tak,ako sa mu zapaci a je jedno, ci niekomu bude robit traffic.

Souhlasím  |  Nesouhlasím  |  Odpovědět
vvessan  |  01. 11. 2008 22:59  |  Macintosh OS X AppleMAC-Safari 5.0

v robots.txt se da specifikovat oboji ... dokonce muzete pouzit i wildcards, takze mimo jine zakazat scannovani souboru s urcitou priponou (pdf, logy) ... google to respektuje, takze pokud mate problem s trafficem, tak neni problem to google timhle zpusobem rict

Souhlasím  |  Nesouhlasím  |  Odpovědět
nordic  |  01. 11. 2008 23:03  |  Microsoft Windows Vista Firefox 3.0.3

Hmm, to je super.To som nevedel.
A iba tak osobny nazor, nevadi Vam, ze google sa zacina az moc zaujmat o to , aby mal veeeelmi velku cast internetu zoscanovanu u seba ? :)

Souhlasím  |  Nesouhlasím  |  Odpovědět
avatar
01. 11. 2008 23:07 | Linux Chrome 0.2.149.30

nevadi, ja jsem rad za lepsi vyhledavani

Souhlasím  |  Nesouhlasím  |  Odpovědět
vvessan  |  02. 11. 2008 00:14  |  Macintosh OS X AppleMAC-Safari 5.0

Tak jako Google si to muze oscanovat kazdy a nemusite o nem ani vedet. Tutiz mi to nevadi.

Souhlasím  |  Nesouhlasím  |  Odpovědět
avatar
03. 11. 2008 17:39 | Macintosh OS X Firefox 3.0.3

Dobrý den,
ten titulek článku není úplně přesný (v článku už je to správně). Goggle nově používá OCR na obrázky uvnitř PDF souborů - soubory jako takové indexuje už léta. Tj. traffic se vám nezmění.
Michal M. - Adobe
http://michalmetlicka.cz

Souhlasím  |  Nesouhlasím  |  Odpovědět
boban  |  01. 11. 2008 20:50  |  Microsoft Windows XP Firefox 3.0.3

A není to spíš nová zbraň vlád? Obrázkem šlo sdělit privátně info, které nešlo vyhledat googlem a teď to už neplatí.

Souhlasím  |  Nesouhlasím  |  Odpovědět
chmod777  |  01. 11. 2008 21:44  |  Microsoft Windows XP Mozilla 1.8.1.17

mozna je to nova zbran, ale na lidi ktery si to zaslouzi (skoda ze rovnou nedematerializuje).
Text na obrazku nikdy zadny security nebylo a popravde me dost vytaceli lidi, co po me chteli neco poslat jako scan strojopisu a tvarili se jak je to desne enhanced security.
Akorat prace navic.
Nebo kdyz nekdo neco vystiskne, aby mi to mohl s usmevem predat v papirove podobe ... bych zabijel. Jak kdybych sam tisknout neumel.
Security pres obrazky se dela bud vodotiskem (kdyz uz) nebo se k tomu pouziji specialni programy, kdy jde uz o regulerni sifru.
Ovsem pak je otazka, proc rovnou nepouzit pgp/gpg.
a googlem nepujde vyhledat ani tahle stranka, pokud si to admin zive nebude prat (viz. komentare vyse).

Souhlasím  |  Nesouhlasím  |  Odpovědět
snake  |  02. 11. 2008 00:34  |  Microsoft Windows XP IE 6.0

Tak na tohle jsem čekal opravdu dlouho, doufám, že to bude dobře použitelné a co nejvíce rozšířené. Ono je bohužel často potřeba scanovat i klasické textové PDF soubory, protože text z nich nejde korektně vytáhnout (akcenty jsou dodělávané nějakým prapodivným způsobem). Je mi jasné, že záleží na tom, kdo a zejména čím PDF vytvářel, ale nejjednodušší způsob je u mnoha textů OCR. Nemluvím o uzamykání textu kvůli copyrightu, ale o tom, že text se z Readeru nepřenese v pořádku, ponejvíce to platí o českých znacích.
A co se týká trafficu, pak mi to přijde fakt úsměvné. Tak buď něco dávám k dispozici veřejně po internetu a chci, aby to ostatní stahovali, a mám holt traffic, a nebo to nehci, a přístup omezím přes práva, případně alespoň tím, že link na daný soubor není nikde veřejně k dispozici. Nemluvě samozřejmě o všemi nade mnou zmiňovaným robots.txt.
P.S. Stahuje google určitě všechny soubory znova? Není to spíš tak, že místo GET použije nejdříve HEAD, pomocí něhož se dá zjistit mimo jiné datum poslední změny? Nevíte to tu někdo?

Souhlasím  |  Nesouhlasím  |  Odpovědět
02. 11. 2008 20:49 | Microsoft Windows XP Opera 9.62

Nejlepsi se bude podivat do logu.
Osobne si myslim ze jede rovnou na GET...

Souhlasím  |  Nesouhlasím  |  Odpovědět
snake  |  03. 11. 2008 00:24  |  Microsoft Windows XP IE 6.0

No to samozřejmě bude, a já bych se i rád podíval, ale posledních víc než 5 let už žádný webserver nespravuju, a tak se ptám aspoň tady...

Souhlasím  |  Nesouhlasím  |  Odpovědět
avatar
03. 11. 2008 15:29 | Microsoft Windows XP Firefox 3.0.3

Pouzije primo GET, ale zaroven s tim spravne posle hlavicku "If-modified-since", na kterou mu server odpovi "304 - not modified" pokud je to PDF porad stejne...

Souhlasím  |  Nesouhlasím  |  Odpovědět
snake  |  04. 11. 2008 05:58  |  Microsoft Windows XP IE 6.0

Díky, ani jsem netušil, že HTTP něco takového umí.

Souhlasím  |  Nesouhlasím  |  Odpovědět
avatar
04. 11. 2008 10:17 | Microsoft Windows XP Firefox 3.0.3

Za malo, viz http://thoughtpad.net/alan-dean/http-headers-status.html :)

Souhlasím  |  Nesouhlasím  |  Odpovědět
mandal  |  03. 11. 2008 06:51  |  Linux Mozilla 1.9.0.3

Bude to mít nějaký filtr na CAPTACH, nebo jen fláknu do klávesnice, dám entr a vyjede na mě 10 CAPTACHů?

Souhlasím  |  Nesouhlasím  |  Odpovědět
avatar
04. 11. 2008 13:41 | Microsoft Windows XP Firefox 3.0.3

Ach jo. Zkus se zamyslet nad tim k cemu je urcena CAPTCHA a co je jeji zakladni vlastnosti. Pak uz si odpovis sam.

Souhlasím  |  Nesouhlasím  |  Odpovědět
mandal  |  07. 11. 2008 17:12  |  Linux Mozilla 1.9.0.3

Například takovýto captach dokáže přečíst i mikrovlnka.
http://www.macro.org.il/captach.php

Souhlasím  |  Nesouhlasím  |  Odpovědět
avatar
07. 11. 2008 22:58 | Microsoft Windows XP Firefox 3.0.3

To ze se da najit spatne implementovana (nebo prehistoricka) CAPTCHA jeste neznamena ze jich bude Google indexovat nejak vyznamne mnozstvi. A mimochodem je to porad jeste CAPTCHA a ne captach

Souhlasím  |  Nesouhlasím  |  Odpovědět
Zasílat názory e-mailem: Zasílat názory Můj názor
Aktuální číslo časopisu Computer

Megatest 20 procesorů

Srovnání 15 True Wireless sluchátek

Vyplatí se tisknout fotografie doma?

Vybíráme nejlepší základní desky