Seznam.cz má problémy s hledáním. Známe důvody (oživeno)

Tuzemský vyhledávač Seznam.cz dal tento měsíc o sobě již potřetí vědět. Naposled se tak stalo ve středu večer, kdy přestal hledat některá slovní spojení. Dovolenou na slovní spojení „last minute“ u Seznamu nenaleznete. Dotaz „autopůjčovna“ vám k půjčení auta také nepomůže.

Klepněte pro větší obrázek Klepněte pro větší obrázek
 Odpověď na spojení „autopůjčovna“ a „last minute“ nečekejte

Chyba byla způsobena aktualizací slovníků, jak se můžete dočíst níže z vyjádření Dušana Janovského.

Nejedná se ale o jedinou zajímavost. V prvním týdnu listopadu Seznam spustil již zmíněnou testovací verzi vyhledávače. Seznam u ní sliboval především vyšší relevanci, což mělo nabídnout kvalitnější výsledky na dotazy, které zadáváte do vyhledávání.

Další událost se odehrála před pěti dny v oblasti hodnocení webů, tzv. S-ranku. Každému webu Seznam přiděluje pomocí algoritmu určité číslo S-rank. Jedná se o veličinu, která vyjadřuje důležitost každé webové stránky na českém internetu. S-rank například zohledňuje počet odkazů, které vedou na váš web, ale i kam vedou ze stránky.

Seznam doposud využíval stupnici v rozsahu 0 – 100. Před pěti dny ale všechny hodnoty zaokrouhlil na celé desítky. Omezil se tedy prakticky na deset hodnot (10, 20, ... , 100) a nulu. Podoba s Googlem není jen zdánlivá, i ten využívá pro svůj PageRank stupnici o deseti hodnotách, akorát v rozsahu 1 – 10.


Oživeno

K situaci se nám ochotně vyjádřil Dušan Janovský, vedoucí projektového týmu vyhledávání. Říká: „Čas od času se na každé aplikaci, která pracuje s češtinou, aktualizují slovníky na skloňování (takovému slovníku říkáme lemmatizátor). Fulltext si z lemmatizátoru tvoří víc datových struktur, hlavně lexikon a index. Včera se dělalo standardní nasazování, které samozřejmě počítá i s možností, že se něco nepovede, a má připravené downgrady na předchozí verze. Index se nevytvořil správně a byl tedy administrátory vrácen na předchozí verzi. Chyba byla v tom, že v tu chvíli nebyl vrácen do předchozí verze i nový lexikon, který tak zůstal v novější verzi ve vyhledávání přes noc. Mylnou úvahou jsme dospěli k závěru, že jeho rozdílná verze nebude vadit. Ráno byl lexikon také vrácen do předchozí verze, aby souhlasil s verzí indexu.“.

Protože se různé verze používaných lemmatizátorů neliší zas tolik, problém dělalo jenom několik málo slov, které se v obou lemmatizátorech ohýbaly jinak. Například předchozí verze slovníku jinak ohýbá novotvar autopůjčovna, kdežto nová verze lemmatizátoru to bude dělat jinak. Slovo autopůjčovna se nedalo vyhledat, protože lexikon i index toto lemma identifikovaly rozdílně. Chybu jsme neodhalili automaticky, protože naše standardní sada testovacích výrazů naneštěstí žádné takové slovo, které se dnes v noci nedalo najít, neobsahuje. Chyba nás samozřejmě mrzí.

Dušan Janovský nás dále ubezpečil, že nová relevance výsledků ve vyhledávání, kterou připravují na adrese searchtest.seznam.cz, nemá se současným výpadkem nic společného. Obě záležitosti se totiž týkají jiných datových struktur. Za vyjádření k celé situaci děkujeme.

Témata článku: Web, Last, Index, Relevance

37 komentářů

Nejnovější komentáře

  • Zdeněk Havlín 21. 11. 2008 9:26:26
    seznam je dobry snad jen jako katalog. obcas trosku vazne proklikavani se,...
  • a.malotka 20. 11. 2008 21:32:41
    tuzemsky uzivatel pouziva, div se svete, Seznam. Proc? Protoze tu byl...
  • Andrews13 20. 11. 2008 21:07:28
    Seznam nikdy nic nenajde, podle mě nejhorší vyhledávač.
Určitě si přečtěte

Operační systém běžným počítačům nedal Bill Gates, ale Gary Kildall

Operační systém běžným počítačům nedal Bill Gates, ale Gary Kildall

** Gary Kildall pochopil, že levné výpočetní čipy mohou posloužit jako univerzální počítače pro všechny ** Připravil pro ně proto první operační systém ** Později mu systém vyfoukl Microsoft a nazval ho MS DOS

23.  4.  2017 | Pavel Tronner | 51

Umělá inteligence je sice v plenkách, už teď ale přestáváme rozumět, jak vlastně funguje. To je problém

Umělá inteligence je sice v plenkách, už teď ale přestáváme rozumět, jak vlastně funguje. To je problém

** Už je to tady, lidé přestávají chápat počítače ** Systémy neuronových sítí začínají pracovat tak, že ani jejich tvůrci přesně neví, co se uvnitř děje ** Do budoucna to může být závažný problém

24.  4.  2017 | Jakub Čížek | 111

Před 35 lety měl premiéru legendární počítač ZX Spectrum. Připomeňte si „Gumáka“

Před 35 lety měl premiéru legendární počítač ZX Spectrum. Připomeňte si „Gumáka“

** Slavný osmibitový počítač Sinclair ZX Spectrum byl uveden právě před 35 lety ** Připomeňte si tento průkopnický počítač v tematických článcích ** Podívejte se, jak funguje dnes

23.  4.  2017 | Pavel Tronner | 13

Správný počítač má alespoň dva monitory. Anebo je to jinak?

Správný počítač má alespoň dva monitory. Anebo je to jinak?

** David si nedokáže představit práci bez dvou a více monitorů ** Kubovi naopak stačí jeden a ve více displejích se ztrácí ** Jaký přístup je lepší?

23.  4.  2017 | Jakub Čížek | 59

Český Google Překladač začal používat umělou inteligenci. Konec „drahoušků zákazníků“

Český Google Překladač začal používat umělou inteligenci. Konec „drahoušků zákazníků“

** Google ve svém překladači roky používal statistickou technologii ** Nyní zavádí strojové učení a neuronové sítě ** Rozdíl by měl být zvláště na větších textech patrný už nyní

20.  4.  2017 | Jakub Čížek | 31

Brno otevřelo největší českou dílnu pro bastlíře. Kladívka, vrtačky, 3D tiskárny, laserové řezačky. Je tu vše

Brno otevřelo největší českou dílnu pro bastlíře. Kladívka, vrtačky, 3D tiskárny, laserové řezačky. Je tu vše

** Máte nápad, ale chybí vám stroje a pořádná dílna? ** Chcete postavit ptačí budku, nebo krabičku pro Arduino? ** Brno otevřelo svůj FabLab – laboratoř pro bastlíře

19.  4.  2017 | Jakub Čížek | 31


Aktuální číslo časopisu Computer

První test AMD Ryzen

Velké testy: 22 powerbank a 8 bezdrátových setů

Radíme s koupí Wi-Fi routeru

Co dokáží inteligentní domy?