Postup při tvorbě multimediálních titulů

7. července 2001
Zločin a trest SDÍLET NA FACEBOOKU TWEETNOUT
Za poslední léta mi díky recenzím prošlo rukama mnoho cédéček se slovníky nebo encyklopediemi. Připutovaly ke mně hotové a o způsobu jejich tvorby jsem se mohl jen dohadovat při výskytu nějaké nesnáze či nelogičnosti. Není proto divu, že když jsem narazil na příležitost podívat se „pod pokličku“ kompletního výrobního procesu zpracování databází publikovaných na cédéčkách, chopil jsem se jí.
Tento článek vyšel v časopise Computer 12/01 dne 28. června 2001

Miroslav Herold: Společnost AiP Beroun (dceřiná společnost Albertiny Icome Praha) se již řadu let zabývá vývojem programového vybavení zaměřeného na publikování rozsáhlých dat. Po verzi WiniFreTt (DOS) a po WiniFreT (Windows 3.x) je nyní používán plně 32bitový systém Tornado. Jedná se o modulární systém, který do konkrétní aplikace implementuje pouze moduly, jež jsou vzhledem k požadovaným vlastnostem vyhledávání zapotřebí.

Při diskusi, jak tak rozsáhlý systém popsat, jsme se nakonec shodli na postupu, že se stanu virtuálním klientem, který přichází s velkým balíkem dat, který chce prezentovat odběratelům. Maje za léta recenzí slovníků a referenčních příruček nastřádány stesky, co v tom či onom chybělo, nebo bylo dobré a zůstalo nevyužito, přišel jsem se „slovníkem snů“ – produktem, který dnes ani pro nejpoužívanější angličtinu neexistuje a kvůli roztříštěnosti trhu asi dlouho existovat nebude. Sen se rozplývá v autorských právech ke klíčovým dílům oboru, která jsou rozdělena mezi mnoho nakladatelství.

Co bych měl jako klient vědět

Je sice teoreticky možné přijít do truhlářství a objednat zakázkovou vestavěnou skříň, ale nikdy není od věci, chci-li být spokojen s výsledkem, vědět něco o tom, jak se bude dělat. Zejména proto, abych nechtěl nemožné (sice mi to slíbí, ale je to výklad dodavatele, nikoli moje potřeba), nebo zadal pokud možno vše hned na začátku. Nedojde tak k nejasnostem a nutnosti řešení za pochodu se všemi negativními důsledky. Ve srovnání se skříní je referenční cédéčko o několik řádů složitější, takže uvedené pravidlo platí o to silněji.

Klepněte pro větší obrázek

V první fázi (předzpracování dat) se z nashromážděných dat a scénáře produktu vytváří struktura odkazů a de facto pracovní postup. Tato fáze ovlivňuje databázový soubor, což je soubor ve vnitřním formátu Tornada, v němž jsou sloučeny veškeré dodané zdroje spolu s jejich popisem. Ovlivněno je i indexování dat – fáze, která rozhodujícím způsobem určuje výkonnost databáze a tedy i spokojenost konečného uživatele s relevancí výsledků. Do předzpracování dat se počítá i archivace a komprese dat – uložení do podoby, ve které budou na cílovém médiu. Cílovým médiem může být jak cédéčko nebo dévédéčko, tak i web, případně jejich kombinace. Samostatnost databázových souborů dovoluje například zveřejnit komplet na internetové stránce a indexové soubory s pohodlným uživatelským rozhraním dodávat za úplatu na cédéčku.

Předzpracování dat probíhá bez účasti klienta, ale autor scénáře by o všech fázích měl vědět. Podívejme se nyní na problematická místa:

Formáty dat

Fáze předzpracování převádí veškerá donesená textová data na vnitřní formát, který se dále zpracovává. Zvládá několik kódových stránek najednou. Odpadají tak dětské nemoci slovníků (česko-ruský na webu), kdy uživatel bez nainstalované ruštiny dostane v Internet Exploreru místo ruštiny shluky písmen. Elektronické slovníky, jež jsou v současnosti na trhu, se dělí v podstatě na dva druhy. Prvním druhem jsou slovníky překladové, jejichž základem je databázový soubor a uživatel na dotaz dostává seznam dvojic splňující zadání. Při větším počtu překladů je orientace, zejména pro začátečníka, velmi obtížná – chybí totiž vysvětlující příklady, idiomatické vazby … Druhým typem slovníků jsou ty, které vznikly fulltextovým indexováním tištěné verze či jejího elektronického ekvivalentu; zde uživatel najde základní heslo a také některá sousloví; dohledávání je již pomalé.

Klepněte pro větší obrázek

Tornado při projektu slovníku nabízí celkem tři možné formáty, které v následné indexaci a dotazech spolupracují: databázový soubor (např. mdb, dbf), nestrukturované soubory (doc, txt, htm) a s oběma spolupracují hypertextové odkazy. Tím lze propojit slovník s dalšími zdroji – mluvnicí, idiomatikou popisovanou v prostém textu či příručkou stylistiky.

Podporovány jsou všechny běžně známé formáty rastrových obrazových dat.

Indexace/vyhledávání

Indexování probíhá jak textově, tak číselně/datově. Tím lze velmi efektivně zužovat dotazy. Zkusme v MS Encartě položit dotaz na spisovatele narozené mezi léty 1900 a 1930 – nelze. Přitom jedna položka – např. 30. 4. 1900 – se může v Tornadu indexovat jak textově, tak datově, nebo jako interval dat.

Indexování může zahrnovat i znaky, které u klasických produktů nefungují. Zkusme tedy najít v Dictionary of Mathematical Programming vzorce. Při indexaci lze filtrovat – v češtině vynechávat v plném textu předložky nebo částice. Naopak lze indexovat jen vybraná slova daná seznamem – tím je možné vynechávat v mluvnici výklad a indexovat pouze slova ze slovníku, k nimž se výklad váže.

Vyhledávání je extrémně rychlé. I na obstarožní Toshibě s Pentiem II 233 probíhalo vyhledávání v největší databázi ČNB (přes 600 000 záznamů) velmi svižně.

Multimédia

Při tvorbě scénáře je nutné si ujasnit, jaké největší rozlišení obrazových dat si přejeme koncovému uživateli poskytnout. Je to rozhodující pro poslední fázi přípravy dat, protože komprese dat jsou buď ztrátové nebo bezztrátové. Za bezztrátovou kompresi se pochopitelně platí podstatně větší spotřebou prostoru na cílovém médiu. Měli bychom uložit co největší rozlišení, protože rychlé náhledy se vždy dají programově ošetřit, ale pro opačný přístup, tj. z nižšího rozlišení dopočítávat mezilehlé pixely, Tornado vybaveno zatím není.

Pokud obrazová data obsahují texty (snímky starých archivních článků/rukopisů), které chceme zohlednit jako text, převod se musí provést předem. Tornado neobsahuje moduly OCR (byl by to ostatně logický nesmysl).

Uživatelské rozhraní

Rozhraní se navrhuje metodou, která je velmi podobná například vývojovému nástroji Delphi. K dispozici je velké množství stavebních kamenů, díky objektovému přístupu a dědičnosti je návrh upravených prvků velmi rychlý. Výstup dotazu lze rozšiřovat či zužovat. Můžete použít také šablony, které umožňují odlišný formát výstupu, například podle dotazovaného slovního druhu. Množství informací, které se váží s frázovým slovesem, nebude zdržovat při dotazu na přídavné jméno či předložku.

Klepněte pro větší obrázek

Rád bych se zmínil o dvou OCX blocích (komponentách, modulech), které mne velmi zaujaly a rád bych se s nimi setkával i u jiných produktů. První je vlastnost zadání v okně dotazu – vyhledávání startuje okamžitě a v kterémkoli okamžiku dostanu klepnutím na tlačítko seznam slov a hesel, která splňují zadávaný požadavek, spolu s uvedením počtu výskytů. V případě velmi rozsáhlých databází je na první pohled vidět, zda ještě dále zužovat buď prodlužováním řetězce nebo přidáním dalšího parametru.

Druhý je velmi jednoduchý ovládací prvek velikosti obrazu – posuvný jezdec podobně jako například u hlasitosti. Změna velikosti obrázku je tak mnohem pohodlnější než klasickým dialogovým oknem s řadou číselných zvětšení.

Dobré, nebo drahé?

Torndo poskytuje vydavateli databáze širokou paletu nástrojů umožňující prezentaci dat konečnému uživateli z velkého množství pohledů. Lze jen doufat, že více vydavatelů se soustředí na svoji hlavní činnost – tedy data. Prezentaci pak vyřeší spoluprací. Tak snad v budoucnosti odpadnou situace, kdy recenzovaný německo-český slovník jsem sice mohl pochválit po stránce obsahové, ale nezbylo než konstatovat, že oproti tištěné formě neposkytoval skoro nic navíc. Přitom elektronický formát nabízí tolik možností… Na druhou stranu tomuto novému, kooperativnímu přístupu musí vyjít vstříc výrobce rozhraní rozumnou cenovou politikou.

Vybraná cédéčka napsaná v Tornadu

Česká národní bibliografie (ČNB) – Společný projekt Národní knihovny ČR a AiPAiP Beroun od roku 1993. V současné verzi obsahuje celkem 7 databází:
  • České knihy – počet záznamů >530 000. Data odvozena převážně z povinných výtisků, které vydavatelé zasílají ČNK ČR.
  • Bohemica vydaná v cizině, disertace – 2 databáze určené hlavně specialistům.
  • Jmenná databáze autorů – cca 68 000 záznamů. U většiny hesel základní data (narození, úmrtí, oblast činnosti). Vhodný výchozí bod, než začneme hledat v podrobnějších referenčních zdrojích.
  • Periodika vydávaná v ČR od 11/89 – uváděna i zaniklá.
  • Speciální materiály – databáze zvukových nahrávek, tištěných hudebnin, kartografických dokumentů. Pro širší publikum jsou nejzajímavější zvukové nahrávky. Obsahují i doplňující informace, jako např. datum narození (úmrtí autorů/interpretů). Při zvětšení počtu parametrů dotazu lze vyhledávat i takové speciality jako: kolikrát spolu nahrávali v letech 1995–97 Jiří Suchý a Jitka Molavcová.
  • Články v českých periodikách od r. 1989 – počtem záznamů nejrozsáhlejší databáze (>630 000). Užitečnost této databáze není třeba rozebírat, měla by se postupně rozšiřovat.
Mezinárodní desetinné třídění - Cédéčko ve dvojjazyčném provedení sestaveno podle dat ČNK ČR a British Standard Institution. Obsahuje více než 61 000 hesel.

J. A. Comenius: Orbis Sensualium Pictus - CD-ROM vznikl v návaznosti na projekt „Memoriae Mundi Series Bohemica“ v rámci programu UNESCO Paměť světa. Je krásnou ukázkou spojení databázového přístupu s obrazovými informacemi.

Diskuze (5) Další článek: Zločin a trest

Témata článku: Multimédia, Maja, Roztříštěnost, Rozsáhlý systém, Přídavné jméno, Dětská nemoc, Obrazová vlastnost, Uvedené pravidlo, První druh, Konečná fáze, Archivní materiál, Vybraný specialista, Modulární návrh, Opačný přístup, Titul, Postup, Vybraný formát, Jednoduchý vzorec, Fáze, Základní heslo, Multimediální, Elektronický formát, První parametr, Unesco, Tornado


Určitě si přečtěte

Velká datová loupež. Proč mají disky nižší kapacitu, než uvádějí?

Velká datová loupež. Proč mají disky nižší kapacitu, než uvádějí?

** Na disk nikdy neuložíte tolik dat, jak tvrdí výrobce ** Ajťáci si vymysleli vlastní jednotky jako mebibajt ** Zmatky vznikají i kvůli různým výjimkám

Lukáš Václavík | 110

Nejlepší programy z roku 2000: Podívejte se, bez čeho jste tehdy vůbec nemohli fungovat!

Nejlepší programy z roku 2000: Podívejte se, bez čeho jste tehdy vůbec nemohli fungovat!

** Dnes už skoro všechno uděláte ve webovém prohlížeči a na mobilu ** Před dvaceti lety to ale bylo jiné ** Zavzpomínejte na legendy, které jste pravděpodobně také používali

Jakub Čížek | 128

Na měsíc jsem opustil Google a potupně se zase vrátil zpět (komentář)

Na měsíc jsem opustil Google a potupně se zase vrátil zpět (komentář)

** Zkusil jsem se zbavit závislosti na vyhledávači od Googlu ** Jako alternativy posloužily Bing, Seznam a DuckDuckGo ** Mají své silné stránky, ale i nepřekonatelná negativa

Lukáš Václavík | 61

Jak odposlouchávat sousedy: Bizarní Lamphone a další netušené techniky

Jak odposlouchávat sousedy: Bizarní Lamphone a další netušené techniky

** Lamphone je další bizarní technika odposlechu ** Zneužívá obyčejnou stropní lampu ** Podívejte se na další bizarní experimenty

Jakub Čížek | 17

WindowsFX: Nainstalujte to mamce a taťkovi. Ani nepoznají, že to je Linux

WindowsFX: Nainstalujte to mamce a taťkovi. Ani nepoznají, že to je Linux

** Po dvou měsících tu máme další linuxovou kopii ** Tentokrát jde o imitaci Desítek ** Sestavili ji brazilští geekové nad Ubuntu

Jakub Čížek | 135


Aktuální číslo časopisu Computer

Megatest: nejlepší notebooky do 20 000 Kč

Test 8 levných IP kamer

Jak vybrat bezdrátová sluchátka

Testujeme Android 11