Když něco nevím, zabrouzdám na Wikipedii. Brzy možná ale i na Pivot, který funguje trochu jinak. Řadí a filtruje fotografie a kartičky. Nechápete? Nebojte, princip je jednoduchý.
Jak vypadá současná webová stránka? V drtivé většině případů je to jen složitá změť HTML, CSS a JS kódu s důrazem na jedině – grafický výstup. Stroj, třeba vyhledávač, se však v něm vyzná jen s velkými obtížemi, netuší totiž, která část webové stránky obsahuje úvod, která tělo dokumentu – třeba článku – a kde se v textu nachází další logické celky. Čtenář toto všechno ví, jelikož vidí hotový grafický výsledek.
Web je plný dat, jak je ale vydolovat?
Touha po vnitřní logické srozumitelnosti internetové stránky je stará jako web samotný, doslova palčivá je však až od příchodu fulltextových vyhledávačů, které na přelomu století začaly nahrazovat staré katalogové vyhledávače (americké Yahoo, český Seznam). Robot, který prochází webovou stránkou a hodnotí její obsah pro vyhledávač, totiž potřebuje znát její strukturu, potřebuje vědět, jakou část stránky může použít třeba při výpisu výsledků, kde je na stránce ten nejdůležitější obsah a kde navigace, třeba rubriky nebo navigační menu..
V současné době takový robot s jistotou porozumí pouze nadpisům, názvům kapitol a odkazům, jak se ale vyznat v textu a doprovodných informacích. Jak se vyznat v tom, kam patří obrázky, vložené video, grafy a jiná multimédia. Řešením by mohly být takzvané mikroformáty, tedy několik technik, které v kódu stránky například popíšou, co obsahuje každý z odstavců. Pro čtenáře se tím nic nemění, jsou totiž neviditelné, dataminigový nebo vyhledávací robot ale přesně ví, že v této části stránky se nachází mapa, tady obrázky k článku, tady reklama a zde třeba seznam kapitol.
Různí hráči na trhu zkouší různé dataminingové metody. Dolují z webu data stejným způsobem jako horníci v patnáctém století, každý z nich ale používá cepín s trošku jinými parametry. Fulltextové vyhledávače do toho jdou po hlavě a s využitím složité analýzy webové stránky se pokouší odhadnout její strukturu. Celkem slušné to umí Google, učí se to Microsoft a také Seznam. Ten prostřední, Microsoft, ale zkouší ještě trošku jinou cestu, jak se vyznat v datech na webové stránce. Jedná se o projekt Live Labs Pivot.
Live Labs Pivot – webové kontingenční tabulky
Live Labs Pivot na první pohled vypadá jako jakýsi minimalistický webový prohlížeč. Ačkoliv jej napsali a navrhli lidé z Microsoftu, s Internet Explorerem má společně skutečně jen to vykreslovací jádro Trident. Pivot používá Direct3D, respektive technologii Seadragon (Deep Zoom) pro zobrazování náročné grafiky a neobejde se bez zapnutého akcelerovaného prostředí Windows Aero. Na Windows XP a nejnižších verzích Windows Vista si jej tedy nevyzkoušíte.
Na první pohled vypadá Pivot jako běžný webový prohlížeč – že by takto jednou vypadal Internet Explorer?
Pivot ale není pouze prohlížeč webových stránek, ale i jakýchsi informačních databází – katalogů obrázků a textových informací. Tyto se na první pohled jeví jako běžné webové stránky s příponou CXML dostupné skrze webovou adresu, jedná se ale o speciální XML soubory, které obsahují samotnou databázi.
Tak trošku jiná galerie
Takovou databází může být třeba seznam amerických prezidentů. Pokud ji v Pivotu otevřete, zobrazí se šachovnice fotografií a postranní panel, ve kterém můžete výsledky snadno filtrovat a přeskupovat podle nejrůznějších parametrů jako věk, vzdělání nebo politická příslušnost. Pivotová webová tabulka má tedy stejné rysy jako kontingenční tabulky z Excelu. Vše je zároveň hardwarově akcelerované, program si ale řekne o podstatnou část systémových prostředků – 2 GB operační paměti je vážně minimum.
Autoři připravili několik kolekcí – databází, na druhém obrázku je tak galerie světových vůdců, kterou můžete fitrovat a různě řadit
Wikipedie jako kartotéka kartiček
Pivotová databáze může být statická, obsahuje tedy vše v jednom souboru, nebo složitější a dynamická, kdy se data generují na základě vašeho dotazu. A mezi tyto dynamické databáze patří i Pivot, který pracuje s databází anglické Wikipedie. Pivot tedy může zobrazovat a analyzovat i mnohem složitější data, než pouhopouhý seznam prezidentů. A právě napojení na Wikipedii už trošku připomíná dataminingové praktiky z úvodu. Vrcholem by totiž bylo, kdyby program uměl vytvářet podobné kontingenční tabulky i z dat dostupných na běžné webové stránce.. Ostatně i ta je založenána jazyku XML. V takovém případě by program rozluštil její obsah a vytvořil by podobnou galerii nebo mapu informací, které by pomocí postranního filtrovacího panelu uvedl do kontextu.
Databáze amerických prezidentů a tatáž data omezená na ty, kteří jsou ńaživu
Na druhém obrázku pak rozcestník pro používání Wikipedie uvnitř Pivotu
Na Wikipedii si budete muset v Pivotu chvíli zvykat. Představte si ji jako obrovské množství kartotékových lístečků. Na každém z nich je určitá samostatná informace, encyklopedický záznam. A každá z těchto kartiček je zařazena v odpovídající kartotéce. Filtorvání a řazení v Pivotu pak vlastně funguje stejným způsobem, jako byste vybírali z kartotéky pouze ty správné kartičky. Na prvním obrázku tedy najdete všechny kartičky na dotaz „Prague“ v anglické Wikipedii. Na druhém obrázku jsou pak vyfiltrované pouze ty kartičky, které odpovídají pražským městským částem a na třetím ty kartičky, na kterých je zmínka o uzavírání míru v Praze
Live Labs Pivot je v současné době pouze technologický experiment, který si v našich podmínkách vyzkoušíte jedině v rámci několika předpřipravených databází – chytrých katalogů fotografií a konektoru pro Wikipedii. Autoři ale připravili i detailní dokumentaci, jendoduché pivotové galerie, databáze, či katalogy (nazývejte to dle chuti) si tedy můžete vytvořt i vy. K těm nejjednodušším vám přitom bude stačit Excel a speciální aplikace.
Má technologie Live Labs Pivot šanci? Nebo se naopak hodí jen na tak úzký okruh dat, že ji užije jen zanedbatelné množství uživatelů? Podělte se se svým názorem v diskuzi pod článkem.
Live Labs Pivot 1.0.6000.1
Licence: freeware (pro nekomerční použití), 28 MB
Autor: Microsoft Live Labs
Web programu: getpivot.com