Seznam.cz má problémy s hledáním. Známe důvody (oživeno)

Seznam.cz má problémy s hledáním. Známe důvody (oživeno)

Tuzemský vyhledávač Seznam.cz dal tento měsíc o sobě již potřetí vědět. Naposled se tak stalo ve středu večer, kdy přestal hledat některá slovní spojení. Dovolenou na slovní spojení „last minute“ u Seznamu nenaleznete. Dotaz „autopůjčovna“ vám k půjčení auta také nepomůže.

Klepněte pro větší obrázek Klepněte pro větší obrázek
 Odpověď na spojení „autopůjčovna“ a „last minute“ nečekejte

Chyba byla způsobena aktualizací slovníků, jak se můžete dočíst níže z vyjádření Dušana Janovského.

Nejedná se ale o jedinou zajímavost. V prvním týdnu listopadu Seznam spustil již zmíněnou testovací verzi vyhledávače. Seznam u ní sliboval především vyšší relevanci, což mělo nabídnout kvalitnější výsledky na dotazy, které zadáváte do vyhledávání.

Další událost se odehrála před pěti dny v oblasti hodnocení webů, tzv. S-ranku. Každému webu Seznam přiděluje pomocí algoritmu určité číslo S-rank. Jedná se o veličinu, která vyjadřuje důležitost každé webové stránky na českém internetu. S-rank například zohledňuje počet odkazů, které vedou na váš web, ale i kam vedou ze stránky.

Seznam doposud využíval stupnici v rozsahu 0 – 100. Před pěti dny ale všechny hodnoty zaokrouhlil na celé desítky. Omezil se tedy prakticky na deset hodnot (10, 20, ... , 100) a nulu. Podoba s Googlem není jen zdánlivá, i ten využívá pro svůj PageRank stupnici o deseti hodnotách, akorát v rozsahu 1 – 10.


Oživeno

K situaci se nám ochotně vyjádřil Dušan Janovský, vedoucí projektového týmu vyhledávání. Říká: „Čas od času se na každé aplikaci, která pracuje s češtinou, aktualizují slovníky na skloňování (takovému slovníku říkáme lemmatizátor). Fulltext si z lemmatizátoru tvoří víc datových struktur, hlavně lexikon a index. Včera se dělalo standardní nasazování, které samozřejmě počítá i s možností, že se něco nepovede, a má připravené downgrady na předchozí verze. Index se nevytvořil správně a byl tedy administrátory vrácen na předchozí verzi. Chyba byla v tom, že v tu chvíli nebyl vrácen do předchozí verze i nový lexikon, který tak zůstal v novější verzi ve vyhledávání přes noc. Mylnou úvahou jsme dospěli k závěru, že jeho rozdílná verze nebude vadit. Ráno byl lexikon také vrácen do předchozí verze, aby souhlasil s verzí indexu.“.

Protože se různé verze používaných lemmatizátorů neliší zas tolik, problém dělalo jenom několik málo slov, které se v obou lemmatizátorech ohýbaly jinak. Například předchozí verze slovníku jinak ohýbá novotvar autopůjčovna, kdežto nová verze lemmatizátoru to bude dělat jinak. Slovo autopůjčovna se nedalo vyhledat, protože lexikon i index toto lemma identifikovaly rozdílně. Chybu jsme neodhalili automaticky, protože naše standardní sada testovacích výrazů naneštěstí žádné takové slovo, které se dnes v noci nedalo najít, neobsahuje. Chyba nás samozřejmě mrzí.

Dušan Janovský nás dále ubezpečil, že nová relevance výsledků ve vyhledávání, kterou připravují na adrese searchtest.seznam.cz, nemá se současným výpadkem nic společného. Obě záležitosti se totiž týkají jiných datových struktur. Za vyjádření k celé situaci děkujeme.

Diskuze (37) Další článek: Microsoft nabídne antivir Live OneCare zdarma

Témata článku: Web, Standardní verze, Janov, Předchozí den, Problém, Last, Hledání, Index, Problemy, Důvod, Relevance


Určitě si přečtěte

Modelářský zázrak: Maketa raketoplánu Columbia, která létá jako skutečná raketa

Modelářský zázrak: Maketa raketoplánu Columbia, která létá jako skutečná raketa

** Model raketoplánu Columbia od českého konstruktéra umí i létat ** Obdivuhodný model si vzal 1600 hodin práce ** Podívejte se na fotografie ze stavby a prvního letu

Karel Jeřábek | 25

Co je to 5G a proč technický šéf T-Mobile US varuje před přílišným optimismem

Co je to 5G a proč technický šéf T-Mobile US varuje před přílišným optimismem

** Občas to vypadá, že 5G vyřeší úplně všechny problémy světa ** Zrychlí internet, pokryje venkov, umožní svět IoT ** Technický šéf amerického T-Mobilu před tímto pohledem varuje

Jakub Čížek | 29

Windows 10 budou mít kompletní linuxové jádro. Zatím jen pro vývojáře

Windows 10 budou mít kompletní linuxové jádro. Zatím jen pro vývojáře

** Desítky si budou ještě více rozumět s Linuxem ** V létě získají jeho jádro pro vývojáře ** Microsoft představí také Windows Terminal

Jakub Čížek | 86



Aktuální číslo časopisu Computer

Velký test fotolabů

Oklamali jsme rozpoznání obličeje

13 tipů pro rychlejší Wi-Fi

Test NVMe SSD 500 GB