reklama

Seznam.cz má problémy s hledáním. Známe důvody (oživeno)

Tuzemský vyhledávač Seznam.cz dal tento měsíc o sobě již potřetí vědět. Naposled se tak stalo ve středu večer, kdy přestal hledat některá slovní spojení. Dovolenou na slovní spojení „last minute“ u Seznamu nenaleznete. Dotaz „autopůjčovna“ vám k půjčení auta také nepomůže.

Klepněte pro větší obrázek Klepněte pro větší obrázek
 Odpověď na spojení „autopůjčovna“ a „last minute“ nečekejte

Chyba byla způsobena aktualizací slovníků, jak se můžete dočíst níže z vyjádření Dušana Janovského.

Nejedná se ale o jedinou zajímavost. V prvním týdnu listopadu Seznam spustil již zmíněnou testovací verzi vyhledávače. Seznam u ní sliboval především vyšší relevanci, což mělo nabídnout kvalitnější výsledky na dotazy, které zadáváte do vyhledávání.

Další událost se odehrála před pěti dny v oblasti hodnocení webů, tzv. S-ranku. Každému webu Seznam přiděluje pomocí algoritmu určité číslo S-rank. Jedná se o veličinu, která vyjadřuje důležitost každé webové stránky na českém internetu. S-rank například zohledňuje počet odkazů, které vedou na váš web, ale i kam vedou ze stránky.

Seznam doposud využíval stupnici v rozsahu 0 – 100. Před pěti dny ale všechny hodnoty zaokrouhlil na celé desítky. Omezil se tedy prakticky na deset hodnot (10, 20, ... , 100) a nulu. Podoba s Googlem není jen zdánlivá, i ten využívá pro svůj PageRank stupnici o deseti hodnotách, akorát v rozsahu 1 – 10.


Oživeno

K situaci se nám ochotně vyjádřil Dušan Janovský, vedoucí projektového týmu vyhledávání. Říká: „Čas od času se na každé aplikaci, která pracuje s češtinou, aktualizují slovníky na skloňování (takovému slovníku říkáme lemmatizátor). Fulltext si z lemmatizátoru tvoří víc datových struktur, hlavně lexikon a index. Včera se dělalo standardní nasazování, které samozřejmě počítá i s možností, že se něco nepovede, a má připravené downgrady na předchozí verze. Index se nevytvořil správně a byl tedy administrátory vrácen na předchozí verzi. Chyba byla v tom, že v tu chvíli nebyl vrácen do předchozí verze i nový lexikon, který tak zůstal v novější verzi ve vyhledávání přes noc. Mylnou úvahou jsme dospěli k závěru, že jeho rozdílná verze nebude vadit. Ráno byl lexikon také vrácen do předchozí verze, aby souhlasil s verzí indexu.“.

Protože se různé verze používaných lemmatizátorů neliší zas tolik, problém dělalo jenom několik málo slov, které se v obou lemmatizátorech ohýbaly jinak. Například předchozí verze slovníku jinak ohýbá novotvar autopůjčovna, kdežto nová verze lemmatizátoru to bude dělat jinak. Slovo autopůjčovna se nedalo vyhledat, protože lexikon i index toto lemma identifikovaly rozdílně. Chybu jsme neodhalili automaticky, protože naše standardní sada testovacích výrazů naneštěstí žádné takové slovo, které se dnes v noci nedalo najít, neobsahuje. Chyba nás samozřejmě mrzí.

Dušan Janovský nás dále ubezpečil, že nová relevance výsledků ve vyhledávání, kterou připravují na adrese searchtest.seznam.cz, nemá se současným výpadkem nic společného. Obě záležitosti se totiž týkají jiných datových struktur. Za vyjádření k celé situaci děkujeme.

Témata článku: Web, Last, Index, Relevance

37 komentářů

Nejnovější komentáře

  • Zdeněk Havlín 21. 11. 2008 9:26:26
    seznam je dobry snad jen jako katalog. obcas trosku vazne proklikavani se,...
  • a.malotka 20. 11. 2008 21:32:41
    tuzemsky uzivatel pouziva, div se svete, Seznam. Proc? Protoze tu byl...
  • Andrews13 20. 11. 2008 21:07:28
    Seznam nikdy nic nenajde, podle mě nejhorší vyhledávač.
reklama
Určitě si přečtěte

AMD oficiálně představilo procesory Ryzen. Známe i jejich české ceny

AMD oficiálně představilo procesory Ryzen. Známe i jejich české ceny

** AMD uvedlo první tři procesory Ryzen 7 ** Všechny budou pracovat s osmi jádry a šestnácti vlákny ** Na pulty obchodů se dostanou už za týden

22.  2.  2017 | Stanislav Janů | 134

5 specialit, které budou v příštím Firefoxu. Ale musí vás nejprve nadchnout

5 specialit, které budou v příštím Firefoxu. Ale musí vás nejprve nadchnout

** Vyzkoušejte si speciality, na kterých pracuje Mozilla ** Vývojáři se podle vás rozhodnou, jestli to má smysl ** Nově přibyl skvělý experiment Snooze Tabs

26.  2.  2017 | Jakub Čížek | 47

Remix Singularity: Microsoft si na tom vylámal zuby. Jak dopadne Android?

Remix Singularity: Microsoft si na tom vylámal zuby. Jak dopadne Android?

** Microsoft do svých telefonů integroval desktopové prostředí ** Moc to ale nevyšlo, chyběl pořádný výkon ** Teď to zkoušejí ex-googleři s Remix Singularity

23.  2.  2017 | Jakub Čížek | 74

Nejbizarnější virus pro Android? Falešný Avast obalený falešným PornHubem, za který zaplatíte 100 dolarů

Nejbizarnější virus pro Android? Falešný Avast obalený falešným PornHubem, za který zaplatíte 100 dolarů

** Autorům ransomwaru pro Android se nedá upřít jedna věc ** Mají zvrácený smysl pro humor ** Vydávají se za Avast, FBI nebo třeba NSA

24.  2.  2017 | Jakub Čížek | 8


Aktuální číslo časopisu Computer

Supertéma o počítačové bezpečnosti

AMD Ryzen přichází

Velké testy kinoprojektorů a levných špuntových sluchátek

Příslušenství do USB-C

reklama
reklama