Google začal indexovat PDF dokumenty a texty obrázků

Diskuze čtenářů k článku

03. 11. 2008 06:51

Bude to mít nějaký filtr na CAPTACH, nebo jen fláknu do klávesnice, dám entr a vyjede na mě 10 CAPTACHů?

Souhlasím  |  Nesouhlasím  |  Odpovědět
avatar
04. 11. 2008 13:41

Ach jo. Zkus se zamyslet nad tim k cemu je urcena CAPTCHA a co je jeji zakladni vlastnosti. Pak uz si odpovis sam.

Souhlasím  |  Nesouhlasím  |  Odpovědět
07. 11. 2008 17:12

Například takovýto captach dokáže přečíst i mikrovlnka.

http://www.macro.org.il/captach.php

Souhlasím  |  Nesouhlasím  |  Odpovědět
avatar
07. 11. 2008 22:58

To ze se da najit spatne implementovana (nebo prehistoricka) CAPTCHA jeste neznamena ze jich bude Google indexovat nejak vyznamne mnozstvi. A mimochodem je to porad jeste CAPTCHA a ne captach

Souhlasím  |  Nesouhlasím  |  Odpovědět
snake  |  02. 11. 2008 00:34

Tak na tohle jsem čekal opravdu dlouho, doufám, že to bude dobře použitelné a co nejvíce rozšířené. Ono je bohužel často potřeba scanovat i klasické textové PDF soubory, protože text z nich nejde korektně vytáhnout (akcenty jsou dodělávané nějakým prapodivným způsobem). Je mi jasné, že záleží na tom, kdo a zejména čím PDF vytvářel, ale nejjednodušší způsob je u mnoha textů OCR. Nemluvím o uzamykání textu kvůli copyrightu, ale o tom, že text se z Readeru nepřenese v pořádku, ponejvíce to platí o českých znacích.

A co se týká trafficu, pak mi to přijde fakt úsměvné. Tak buď něco dávám k dispozici veřejně po internetu a chci, aby to ostatní stahovali, a mám holt traffic, a nebo to nehci, a přístup omezím přes práva, případně alespoň tím, že link na daný soubor není nikde veřejně k dispozici. Nemluvě samozřejmě o všemi nade mnou zmiňovaným robots.txt.

P.S. Stahuje google určitě všechny soubory znova? Není to spíš tak, že místo GET použije nejdříve HEAD, pomocí něhož se dá zjistit mimo jiné datum poslední změny? Nevíte to tu někdo?

Souhlasím  |  Nesouhlasím  |  Odpovědět
02. 11. 2008 20:49

Nejlepsi se bude podivat do logu.

Osobne si myslim ze jede rovnou na GET...

Souhlasím  |  Nesouhlasím  |  Odpovědět
snake  |  03. 11. 2008 00:24

No to samozřejmě bude, a já bych se i rád podíval, ale posledních víc než 5 let už žádný webserver nespravuju, a tak se ptám aspoň tady...

Souhlasím  |  Nesouhlasím  |  Odpovědět
avatar
03. 11. 2008 15:29

Pouzije primo GET, ale zaroven s tim spravne posle hlavicku "If-modified-since", na kterou mu server odpovi "304 - not modified" pokud je to PDF porad stejne...

Souhlasím  |  Nesouhlasím  |  Odpovědět
snake  |  04. 11. 2008 05:58

Díky, ani jsem netušil, že HTTP něco takového umí.

Souhlasím  |  Nesouhlasím  |  Odpovědět
avatar
04. 11. 2008 10:17

Za malo, viz http://thoughtpad.net/alan-dean/http-headers-status.html :)

Souhlasím  |  Nesouhlasím  |  Odpovědět
01. 11. 2008 20:50

A není to spíš nová zbraň vlád? Obrázkem šlo sdělit privátně info, které nešlo vyhledat googlem a teď to už neplatí.

Souhlasím  |  Nesouhlasím  |  Odpovědět
01. 11. 2008 21:44

mozna je to nova zbran, ale na lidi ktery si to zaslouzi (skoda ze rovnou nedematerializuje).

Text na obrazku nikdy zadny security nebylo a popravde me dost vytaceli lidi, co po me chteli neco poslat jako scan strojopisu a tvarili se jak je to desne enhanced security.

Akorat prace navic.

Nebo kdyz nekdo neco vystiskne, aby mi to mohl s usmevem predat v papirove podobe ... bych zabijel. Jak kdybych sam tisknout neumel.

Security pres obrazky se dela bud vodotiskem (kdyz uz) nebo se k tomu pouziji specialni programy, kdy jde uz o regulerni sifru.

Ovsem pak je otazka, proc rovnou nepouzit pgp/gpg.

a googlem nepujde vyhledat ani tahle stranka, pokud si to admin zive nebude prat (viz. komentare vyse).

Souhlasím  |  Nesouhlasím  |  Odpovědět
01. 11. 2008 09:35

Co kdyz mam na webu pdf soubory o velikosti napr. 100MB. Pokud mi to zacne nejaky vyhledavac stahovat tak se prece dost navysi traffic. Zajimalo by me jak casto to asi tak stahuje.

Souhlasím  |  Nesouhlasím  |  Odpovědět
01. 11. 2008 11:00

pomoci robots.txt na indexu, jde urcit, ktere soubory se maji a nemaji prochazet a googlebot to respektuje

Souhlasím  |  Nesouhlasím  |  Odpovědět
avatar
01. 11. 2008 13:28

presne, a tak pak zalezi pouze na vas, ktere soubory chcete indexovat = jak velky trafic objetujete..

Souhlasím  |  Nesouhlasím  |  Odpovědět
avatar
01. 11. 2008 16:11

ObĚtuju. A to co jsi psal si vydedukuje i opička

Souhlasím  |  Nesouhlasím  |  Odpovědět
01. 11. 2008 22:28

Skor by mal byt defaultne subor robots.txt nato, aby google vedel co ma scanovat, co ked si to nezelam ? aby to skenoval ???? Chapes, takto sa google hrabe v milionoch strankach, len tak,ako sa mu zapaci a je jedno, ci niekomu bude robit traffic.

Souhlasím  |  Nesouhlasím  |  Odpovědět
01. 11. 2008 22:59

v robots.txt se da specifikovat oboji ... dokonce muzete pouzit i wildcards, takze mimo jine zakazat scannovani souboru s urcitou priponou (pdf, logy) ... google to respektuje, takze pokud mate problem s trafficem, tak neni problem to google timhle zpusobem rict

Souhlasím  |  Nesouhlasím  |  Odpovědět
01. 11. 2008 23:03

Hmm, to je super.To som nevedel.

A iba tak osobny nazor, nevadi Vam, ze google sa zacina az moc zaujmat o to , aby mal veeeelmi velku cast internetu zoscanovanu u seba ? :)

Souhlasím  |  Nesouhlasím  |  Odpovědět
avatar
01. 11. 2008 23:07

nevadi, ja jsem rad za lepsi vyhledavani

Souhlasím  |  Nesouhlasím  |  Odpovědět
02. 11. 2008 00:14

Tak jako Google si to muze oscanovat kazdy a nemusite o nem ani vedet. Tutiz mi to nevadi.

Souhlasím  |  Nesouhlasím  |  Odpovědět
avatar
03. 11. 2008 17:39

Dobrý den,

ten titulek článku není úplně přesný (v článku už je to správně). Goggle nově používá OCR na obrázky uvnitř PDF souborů - soubory jako takové indexuje už léta. Tj. traffic se vám nezmění.

Michal M. - Adobe

http://michalmetlicka.cz

Souhlasím  |  Nesouhlasím  |  Odpovědět
Zasílat názory e-mailem: Zasílat názory Můj názor