Seznam.cz má problémy s hledáním. Známe důvody (oživeno)

Seznam.cz má problémy s hledáním. Známe důvody (oživeno)

Tuzemský vyhledávač Seznam.cz dal tento měsíc o sobě již potřetí vědět. Naposled se tak stalo ve středu večer, kdy přestal hledat některá slovní spojení. Dovolenou na slovní spojení „last minute“ u Seznamu nenaleznete. Dotaz „autopůjčovna“ vám k půjčení auta také nepomůže.

Klepněte pro větší obrázek Klepněte pro větší obrázek
 Odpověď na spojení „autopůjčovna“ a „last minute“ nečekejte

Chyba byla způsobena aktualizací slovníků, jak se můžete dočíst níže z vyjádření Dušana Janovského.

Nejedná se ale o jedinou zajímavost. V prvním týdnu listopadu Seznam spustil již zmíněnou testovací verzi vyhledávače. Seznam u ní sliboval především vyšší relevanci, což mělo nabídnout kvalitnější výsledky na dotazy, které zadáváte do vyhledávání.

Další událost se odehrála před pěti dny v oblasti hodnocení webů, tzv. S-ranku. Každému webu Seznam přiděluje pomocí algoritmu určité číslo S-rank. Jedná se o veličinu, která vyjadřuje důležitost každé webové stránky na českém internetu. S-rank například zohledňuje počet odkazů, které vedou na váš web, ale i kam vedou ze stránky.

Seznam doposud využíval stupnici v rozsahu 0 – 100. Před pěti dny ale všechny hodnoty zaokrouhlil na celé desítky. Omezil se tedy prakticky na deset hodnot (10, 20, ... , 100) a nulu. Podoba s Googlem není jen zdánlivá, i ten využívá pro svůj PageRank stupnici o deseti hodnotách, akorát v rozsahu 1 – 10.


Oživeno

K situaci se nám ochotně vyjádřil Dušan Janovský, vedoucí projektového týmu vyhledávání. Říká: „Čas od času se na každé aplikaci, která pracuje s češtinou, aktualizují slovníky na skloňování (takovému slovníku říkáme lemmatizátor). Fulltext si z lemmatizátoru tvoří víc datových struktur, hlavně lexikon a index. Včera se dělalo standardní nasazování, které samozřejmě počítá i s možností, že se něco nepovede, a má připravené downgrady na předchozí verze. Index se nevytvořil správně a byl tedy administrátory vrácen na předchozí verzi. Chyba byla v tom, že v tu chvíli nebyl vrácen do předchozí verze i nový lexikon, který tak zůstal v novější verzi ve vyhledávání přes noc. Mylnou úvahou jsme dospěli k závěru, že jeho rozdílná verze nebude vadit. Ráno byl lexikon také vrácen do předchozí verze, aby souhlasil s verzí indexu.“.

Protože se různé verze používaných lemmatizátorů neliší zas tolik, problém dělalo jenom několik málo slov, které se v obou lemmatizátorech ohýbaly jinak. Například předchozí verze slovníku jinak ohýbá novotvar autopůjčovna, kdežto nová verze lemmatizátoru to bude dělat jinak. Slovo autopůjčovna se nedalo vyhledat, protože lexikon i index toto lemma identifikovaly rozdílně. Chybu jsme neodhalili automaticky, protože naše standardní sada testovacích výrazů naneštěstí žádné takové slovo, které se dnes v noci nedalo najít, neobsahuje. Chyba nás samozřejmě mrzí.

Dušan Janovský nás dále ubezpečil, že nová relevance výsledků ve vyhledávání, kterou připravují na adrese searchtest.seznam.cz, nemá se současným výpadkem nic společného. Obě záležitosti se totiž týkají jiných datových struktur. Za vyjádření k celé situaci děkujeme.

Témata článku: Web, Last, Index, Relevance

37 komentářů

Nejnovější komentáře

  • Zdeněk Havlín 21. 11. 2008 9:26:26
    seznam je dobry snad jen jako katalog. obcas trosku vazne proklikavani se,...
  • a.malotka 20. 11. 2008 21:32:41
    tuzemsky uzivatel pouziva, div se svete, Seznam. Proc? Protoze tu byl...
  • Andrews13 20. 11. 2008 21:07:28
    Seznam nikdy nic nenajde, podle mě nejhorší vyhledávač.
Určitě si přečtěte

To tu ještě nebylo. Specialisté ukázali, že zavirované mohou být i titulky SRT

To tu ještě nebylo. Specialisté ukázali, že zavirované mohou být i titulky SRT

** Stáhnete si film a titulky třeba z OpenSubtitles.org ** A osud vás za ten warez záhy potrestá ** Specialisté totiž ukázali, že i v titulcích může být schovaný virus

24.  5.  2017 | Jakub Čížek | 58

WannaCry se neměl vůbec rozšířit. Stačilo, abychom používali Windows Update

WannaCry se neměl vůbec rozšířit. Stačilo, abychom používali Windows Update

** WannaCry se masivně rozšířil kvůli zranitelnosti ve Windows ** Ta mu umožnila, aby se pokusil sám napadnout další počítače ** Jenže ta chyba už je dva měsíce opravená!

22.  5.  2017 | Jakub Čížek | 97


Aktuální číslo časopisu Computer

Bojujeme proti Fake News

Dva velké testy: fotoaparáty a NASy

Co musíte vědět o změně evropského roamingu

Radíme s výběrem základní desky