Konečně „české“ hledání na Internetu

Fulltextové vyhledávání na českém Internetu s inteligentním rozpoznáváním tvarosloví uvádí známý Microton na serveru Megatext.cz.
Server Megatext.cz byl spuštěn 1. prosince v beta provozu, nicméně přes jisté nedostatky v komfortu vyhledávání a překlepům na titulní straně je vidět, že technologicky je zvládnut velmi dobře. Megatext přináší proti doposud existujícím fultextům dvě hlavní novinky. Tomu nedůležitější je podpora českého tvarosloví. Řekněme, že hledáte tvarůžkovou pomazánku, do vyhledávače tedy zadáte "tvarůžková pomazánka" a ten vám vypíše všechny stránky, kde se vyskytují slova "tvarůžkovou pomazánku", "tvarůžkové pomazánky" a podobně (tuhle pomazánku nicméně přes Megatext nenajdete). Konečně tedy byla překonána jedna z bariér při hledání výrazů v českém jazyce. Druhou novinkou je vypisování relevantních textů ze stránky. Není tedy vypsán jen nadpis a pár prvních slov, ale ze stránky jsou vypíchnuty ty věty, kde se hledaná slova vyskytují.

Serveru lze ještě ledascos vytknout, není zobrazován počet nalezených stránek, není zobrazováno datum, kdy byla stránka naposledy indexována, není tam možnost zařadit vlastní stránku k indexaci, stejně jako jiné indexéry se nedokáže prochroustat dynamickými stránkami, a tak většina zpravodajských webů indexována není. Celý web je vystavěn jen okolo jednoho políčka s hledáním a samotného hledacího enginu.

Buď půjde Megatext cestou postupného doplňování funkcí okolo základního vyhledávání, nebo toto vyhledávací jádro adaptuje některý z již velkých vyhledávacích serverů je ještě otázkou. Zatím je Megatext jen ukázkou možností, komfort vyhledávání je minimální a je opravdu co zlepšovat. Megatext by se ale mohl stát předstupněm k vyhledávacímu serveru používajícím pro dotazy přirozený jazyk, jako například: "Kde najdu recepty na tvarůžkovou pomazánku?". Zatím to vypadalo, že zorganizovat v českých podmínkách něco jako je oblíbený Ask.com, je čirou fantazií. S Megatextem jsme této fantazii blíže.

Zeptal jsem se pana Šusteka z Microtonu na nějaké další informace ohledně Megatextu:

Kolik celkem indexujete serverů a stránek?

Přesný počet serverů nesledujeme, stránek je zatím asi 150 tisíc. Při načítání stránek jsme narazili na několik chyb ve sběrači dat a museli jsme jej zatím odstavit. Projektovaná kapacita vyhledávače je ale 2-3 miliony stránek při době odezvy cca 1 sec.

Kdy to půjde do ostrého provozu?

Pokud stihneme opravit ten sběrač dat, tak na začátku ledna.

Jaké je vybavení serveru, na kterém běží aplikace?

PIII 500MHz 128MB RAM 15GB HD Win2000 Adv. Server RC2.

Budete to tlačit samostatnou cestou, nebo budete tuto technologii nabízet?

Jsme technologická firma, nechceme fušovat do řemesla poskytovatelům obsahu. Budeme se tedy určitě snažit o partnerskou spolupráci s některým významným hráčem na našem Internetu.

Váš názor Další článek: Windows 2000 – reparácia (keby náhodou...)

Témata článku: Hledání, Existující obsah, Přirozený jazyk, Základní vyhledávání, Ostrý provoz


Určitě si přečtěte

Co je to 5G a proč technický šéf T-Mobile US varuje před přílišným optimismem

Co je to 5G a proč technický šéf T-Mobile US varuje před přílišným optimismem

** Občas to vypadá, že 5G vyřeší úplně všechny problémy světa ** Zrychlí internet, pokryje venkov, umožní svět IoT ** Technický šéf amerického T-Mobilu před tímto pohledem varuje

Jakub Čížek | 29

Raspberry Pi 4 Model B: Raketa za tisícikorunu, která utáhne dva monitory

Raspberry Pi 4 Model B: Raketa za tisícikorunu, která utáhne dva monitory

** Britové před pár dny představili nové Raspberry Pi 4 Model B ** Nový čipset má dost výkonu na dva HDMI monitory ** Za tisícovku získáte počítač na základní práci

Jakub Čížek | 75



Aktuální číslo časopisu Computer

Velký test Wi-Fi mesh

Nejlepší hodinky pro všechny aktivity

Důležité aplikace na cesty

Jak streamovat video na Twitch