Porazí IBM a open source komunita současné vyhledávače?

Klasické vyhledávače fungující na principu klíčových slov jsou v řadě případů jen těžko použitelné a jejich výsledky nedostačující. Je potřeba data analyzovat i podle jejich obsahu a vzájemných vztahů. IBM dává k dispozici technologii, která slibuje, že to dokáže. Bude to revoluce ve vyhledávání?

Klíčová slova jsou málo

Vyhledávání podle klíčových slov je zastaralé a neefektivní. I když vyhledávače indexují stále více dokumentů, jediným výsledkem je to, že uživatel získá větší množství potenciálních zdrojů, ale stejně nepozná, který je ten pravý. Jen ho to zmate a naštve. Nejlepší odkazy (ve smyslu relevance) nemusí být díky chybnému SEO na prvním místě.

Tohle všechno jsou možná trošku kacířské věty, ale každý určitě zažil situaci, kdy nemohl i přes sebevětší snahu najít požadovaný dokument.  Že by mezi těmi miliardami stránek nebyl? Kdepak, pravděpodobně tam je, ale nejspíš se špatně ptáme a nebo je hledaný odkaz až na 30 stránce v nalezených výsledcích. Hledání informací je umění a obživa a zadat jedno či několik klíčových slov do Googlu nemá se skutečným vyhledáváním mnoho společného. Nicméně i obyčejný člověk si chce najít zajímavé informace a dobrý nástroj mu je musí umět najít i bez znalosti speciálních technik. A tím se dostáváme zpět k primitivnímu hledání pomocí klíčových slov. Začarovaný kruh.

Analýza obsahu dat

Tohle všechno se snaží změnit IBM. Konvenční vyhledávače už zkrátka nestačí, je potřeba něco daleko sofistikovanějšího. Odpovědí možná může být UIMA neboli Unstructured Information Management Architecture. UIM aplikace nebudou jen hledat klíčová slova v petabajtech dat, ale tento systém umožní analyzovat nestrukturovaná data (nejen text, ale i zvuk, obrázky či video) i co se jejich obsahu týče. S trochou nadsázky se tedy dá říct, že se bude systém snažit porozumět obsahu dat, rozpoznat vztahy mezi nimi a vystihnout fakta. Vyhledáváním tedy nezískáte jen tuny dat (ve smyslu nalezených odkazů), ale mnohem cennější výsledek - informace.

K tomu je zapotřebí řada různých metod a jejich kombinací. Podrobný popis, jak celá věc funguje, asi nelze napsat do jednoho článku, to by spíše vystačilo na samostatný seriál. Zahrnuje analytické i statistické metody, analýzu jazyka i ontologii. Zájemcům ale doporučuji navštívit uvedený odkaz.

Je ale třeba si uvědomit, že UIMA není žádný nový internetový vyhledávač. Je to mnohem víc, je to celá informační architektura, kterou lze implementovat v řadě různých aplikací a lepší vyhledávání je jenom jednou z možností, které nabízí. Záleží na tom, v jaké oblasti se tato technologie použije. Informace, které jsou dostupné na Internetu, to je jen pouhá špička ledovce v obrovském množství dat.

Podniková sféra

V podnikové sféře existují často problémy s vhodným ukládáním informací, jejich kategorizací a následným vyhledáváním. Každé oddělení pracuje s jinými daty a často neexistuje jednotná politika v práci s nimi. Klasické databázové metody již přestávají stačit. Implementace UIMA do podnikových informačních systémů tak může vyřešit řadu problémů v těchto oblastech. Mezi uváděnými příklady použití jsou například analýzy a vyhledávání v technické dokumentaci, v reportech, je uváděn i příklad prohledávání abstraktů léků při vývoji nových látek k zamezení jejich vedlejších účinků a řada dalších aplikací. Tady všude nestačí jen hledání klíčových slov, ale je potřeba chápat celý obsah a vzájemné vazby.

Spojení s open source komunitou

Jedná se o velmi zajímavou technologii s velkým potenciálem, je nezávislá na platformě a co je asi nejhlavnější - jedná se o technologii otevřenou. Je dostupná všem jako open source software, kdokoliv se může přidat a spolupracovat, čímž by se měl zrychlit a zkvalitnit vývoj. IBM samozřejmě není jediná společnost, která uvolňuje občas své zdrojové kódy veřejnosti, ale zde je důležité především to, že se nejedná o žádný "odpad".

Jaká tedy může být budoucnost projektu či vyhledávání dat obecně? Těžko odhadovat, zda zrovna tato technologie je ta správná, její efektivitu ukáže až čas, i když možná můj popis vyzněl příliš nadšeně. Není tomu tak, je třeba zachovávat zdravou skepsi. Ale jisté je to, že klasické hledání už zkrátka nestačí. Klíčová je zde analýza dat. Možná se tedy v budoucnu už nebude používat termín vyhledávač - search engine, ale spíše analyzátor - analysis engine.

Je tedy zatím předčasné hovořit o tomto projektu v superlativech. Objevit nový způsob vyhledávání informací se snaží kde kdo, někdy s většími, ale většinou s menšími úspěchy. Firma jako IBM by však mohla být poměrně slušnou zárukou, že podobný projekt nezapadne a v kombinaci s open source komunitou se třeba časem dočkáme nové generace vyhledávače.

Diskuze (12) Další článek: Velký zájem o živý přenos přístání raketoplánu odstavil internetové vysílání ČT24

Témata článku: , , , , , , , , , , , , , , ,