Srovnání českých vyhledávacích serverů (1) - Hledače

2. února 1999
Computer 2/99 SDÍLET NA FACEBOOKU TWEETNOUT
Podle průzkumu agentury Median využívají Češi pro vyhledávání nejvíce AltaVistu! Nejsou snad domácí hledače pro našince to pravé? Zkusme se blíže podívat na jejich vlastnosti a současný stav.
Podle průzkumu Market & Media & Lifestyle“ (ag. Median) využívají Češi pro vyhledávání na WWW podle klíčových slov nejvíce AltaVistu! Naproti tomu je mezi zástupci druhé kategorie – katalogů webstránek nejpoužívanější domácí server Seznam. Nejsou snad domácí hledače pro našince to pravé? Zkusme se blíže podívat na jejich vlastnosti a současný stav:

Budu srovnávat následující čtveřici serverů: Atlas jako první funkční hledač u nás a službu Kompas Seznamu (jako zástupce čistě komerčních projektů) s poměrně málo známým hledačem SPT Telecom - Search.CZ a studentským projektem vyhledávacího serveru Sherlock. Všechny zmíněné služby umožňují tzv. fulltextové hledání – čili fungují jako automaticky generované indexy sloužící k vyhledání stránek, v jejichž textu je obsažena požadovaná kombinace slov.

Kdo se moc ptá,
méně se dozví! Toto na první pohled převrácené rčení, platí u fulltextového hledání naprosto přesně. Čím více úsilí věnujete sestavení dotazu, tím dosáhnete lepšího (přesnějšího = méně obsáhlého) výsledku. Samozřejmě záleží také na možnostech použitého nástroje.

Mezi standardní výbavu fulltextového ‚enginu’ pro hledání dokumentů obsahujících určitou kombinaci slov, patří logický výraz typu: „(slovo1 nebo slovo1a) a zároveň slovo2 ale ne slovo3“. Logické spojky zpravidla reprezentují binární operátory AND, OR a NOT, kterými disponují všechny hledače vyjma Search.CZ, ochuzeného o možnost vyloučit stránky obsahující nežádoucí slova pomocí NOT. Protože jedním z největších problémů při hledání na WWW je příliš velké množství nalezených stránek, nejedná se o vadu nepodstatnou.

Mnohdy je také třeba zajistit, aby bylo slovo1 se slovo2 v kontextu (součástí sousloví reprezentujícího konkrétní pojem), nikoliv každé z jiné (nesouvisející) věty či odstavce. Tady patří k dobrým mravům možnost hledání tzv. frází (sekvencí po sobě jdoucích slov) a omezení podmínky AND z celého dokumentu na jeho menší část, zpravidla reprezentované operátorem NEAR (blízko). Tady boduje především Search.CZ, umožňující hledat fráze s omezením maximální vzdálenosti slov a určením, zda záleží na jejich pořadí v textu. Následuje Atlas disponující díky použití standardních nástrojů Microsoftu jak frázemi tak tradičním operátorem NEAR. Další dva účastníci nedisponují žádnou podporou pro hledání sousloví, což je v mnoha případech staví zcela mimo hru.

Protože formát HTML přeci jen zavádí určitou strukturu dokumentů (např. titulek, nadpisy různé úrovně atd.), která může být vítanou příležitostí k upřesnění dotazu, disponují mnohé známé hledače také škálou možností omezení dotazu pouze na část dokumentu (titulek, seznam klíčových slov v tagu META, ..). Jak jsou na tom naše hledače vidíte v tabulce (řádek „možnosti navíc“) – kvalit Altavisty však zatím nedosahuje žádný z nich.

Ach ta čeština,
co se nám již natropila počítačových problémů. A s hledáním na webu dokonce přibývají dva další!

Prvním z nich je velké množství různých kódování, které v začátcích českého webu vedlo k rozšíření používání skriptů pro automatickou konverzi kódování do požadované verze, včetně příslušných odkazů. Výsledek jejich činnosti je pro robota vytvářejícího indexy hledače nemalou katastrofou. Webu o několika desítkách stránek se totiž jejich prostřednictvím tváří jako košatina čtyř až desetinásobného rozsahu (podle počtu použitých kódování). To pak zejména při hledání slov, která neobsahují znaky s diakritikou, vede k několikanásobné duplicitě stejných stránek v seznamu výsledků hledání.

Snaha tvůrců hlavních domácích hledačů se proto ubírala směrem k automatickému rozpoznání různých verzí téhož dokumentu a odstranění těchto duplicit. Jako první nabídl řešení Kompas Seznamu, ovšem za nesmyslně vysokou a k tomu zcela zbytečnou cenu. Obsah stránek při indexaci a text dotazu před vyhledáním totiž zkonvertuje do ASCII, čímž sice odstraní duplicity, ale zároveň se nutně sníží přesnost hledání, když najde všechna slova složená ze stejné sekvence písmen bez ohledu na háčky a čárky! Jeho přímý konkurent Atlas si sice dal s odstraněním duplicit načas, ale zvládnul je v konečném výsledku podstatně lépe.

Další dva hledače tento problém neřeší – Sherlock patrně proto, že je koncipován jako středoevropský a tudíž vícejazyčný a autoři Search.CZ nejsou přímo zainteresovaní na jeho úspěšnosti.

Druhý problémem češtiny - bohaté tvarosloví můžete částečně vyřešit použitím zástupných znaků (wildcards), z nichž * podporuje Atlas a Kompas. Search.CZ má dokonce vestavěnou přímou podporu pro analýzu tvarosloví, takž automaticky najde hledaná slova bez ohledu na tvar, v němž byla zadána. Sherlock tento problém neřeší, takže například u podstatného jména byste do dotazu museli vypsat (oddělené OR) například všech 14 tvarů podstatného jména (jednotné a množné číslo ve všech pádech).

Komfort práce
respektive celkovou užitnou hodnotu hledače ovlivňuje kromě již zmíněných základních vlastností také stav (rozsah a aktuálnost) jeho indexů. Protože není možné provést objektivní srovnání (neexistuje statistika o skutečném počtu stránek na českém webu), lze pouze konstatovat, že indexy americké AltaVisty jsou o hodně čerstvější než indexy Kompasu a Search.CZ. O rozsahu indexů si můžete udělat představu z celkového počtu dokumentů nalezených na identický dotaz – v tabulce řádek „úplnost“.

Co se týče rychlosti je těžké ji odhadovat z odezvy serveru, kterou ovlivňuje i aktuální propustnost sítě (pouze Kompas vypisuje čas strávený samotným hledáním). V naprosté většině případů je však odezva všech serverů přijatelná. V komfortu ovládání a procházení seznamu výsledků jsou sice některé rozdíly, s výjimkou Sherlocka (nekonvenční zadávání dotazu) však nejsou podstatné.

Kdo je lepší?
Přehled základních vlastností jednotlivých hledačů je uveden ve srovnávací tabulce, podle níž si snad lze udělat alespoň základní představu která ze služeb vyhoví vašim potřebám.

Pokud budu srovnávat celkovou užitnou hodnotu, dopadne nejlépe průkopník v této oblasti – server Atlas. Nedisponuje sice žádnou převratnou technickou vymožeností ani nevídaným komfortem, nicméně se zbavil většiny dětských nemocí a disponuje poměrně rozsáhlými i celkem aktuálními indexy.

Ostatní tři služby mají každá nějaký výrazný handicap, takže většinou lépe uspějete s AltaVistou a omezením hledání na doménu cz. Kompas má neaktuální indexy a především vůbec nepodporuje hledání sousloví – jeho návštěvnost je spíše výsledkem masivní propagace na Seznamu než samotných kvalit hledače. Search.CZ nemá ošetřené duplicity vlivem různého kódování stejných stránek, neumožňuje vyloučení nežádoucích stránek (operátor NOT) a navíc indexy nejsou rozhodně z největších ani nejčerstvějších. Poslední Sherlock má sice aktuální indexy, ale diskvalifikují jej slabé možnosti hledání a omezená funkčnost (často odmítá dokončit hledání pro zahlcení mezivýsledky).

Bohužel v současnosti ani jedna ze služeb nenabízí možnost prohledávání archivu českých news (elektronických konferencí), přestože v minulosti to Atlas umožňoval. Český uživatel tak přichází o velmi cenný zdroj vysoce aktuálních informací.

Tabulka vlastností jednotlivých hledačů:

Možnosti hledání: Atlas Kompas Seznamu Search.cz Sherlock
Operátory + wildcard AND, OR, NOT, * AND, OR, NOT, * AND, OR AND, OR, NOT, ANY?
Hledání sousloví fráze, NEAR nepodporuje! lze určit vzdálenost a pořadí hledaných slov nepodporuje!
Podpora češtiny odstranění duplicit odstranění duplicit za cenu ztráty diakritiky! možnost doplnění diakritiky, podpora tvarosloví není přímo řešena
Možnosti navíc hledání v nadpisech, URL, klíčových slovech, jen české/anglické stránky, jen určité domény hledání v určitých doménách, * i zleva a obou stran hledání v nadpisech dokumentu, nadpisech odstavců, URL nemá
Výsledky hledání: Atlas Kompas Seznamu Search.cz Sherlock
Třídění výsledků dle relevance, počtu výskytů slov, data modifikace, nadpisu relevance počtu výskytů slov, počtu výskytů pojmů, nadpisu, URL relevance
Aktuálnost přiměřená obsahuje již měsíce neplatné odkazy obsahuje již měsíce neplatné odkazy přiměřená
Úplnost - 1 slovo

2 slova zároveň

> 300 dokumentů

176 dokumentů

15568 dokumentů

165 dokumentů

> 200 dokumentů

118 dokumentů

13809 dokumentů

151 dokumentů

Váš názor Další článek: Computer 2/99

Témata článku: Různá omezení, Hledač, Relevance, Počítačový problém, Klíčová vlastnost, Omezená funkčnost, Množné číslo, Lifestyle, Handicap, Stejný problém, Index, Median, Nota, Omezená možnost, Sherlock, Různé znaky, Domácí použití, Stejný dotaz, Požadovaná vzdálenost, Stejný stav, Použitý kód, Srovnání, Atlas, Objektivní srovnání


Určitě si přečtěte

Je ta fotka černobílá, nebo barevná? Náš mozek realitu pouze odhaduje a vymýšlí si

Je ta fotka černobílá, nebo barevná? Náš mozek realitu pouze odhaduje a vymýšlí si

** Klasický počítač bezchybně zpracuje bit po bitu dat ** Mozek si realitu naopak spíše představuje a chybuje ** Teď se tím baví internet u další optické iluze

Jakub Čížek | 33

Podívejte se, jak vypadá mikrofon nebo blecha pod elektronovým mikroskopem

Podívejte se, jak vypadá mikrofon nebo blecha pod elektronovým mikroskopem

** Z Brna pochází třetina světové produkce elektronových mikroskopů ** První československý kus vyrobila Tesla už v 50. letech ** Dnes na ni navazuje třeba brněnský Tescan

Jakub Čížek | 19


Aktuální číslo časopisu Computer

Megatest 20 procesorů

Srovnání 15 True Wireless sluchátek

Vyplatí se tisknout fotografie doma?

Vybíráme nejlepší základní desky