Objevte bohatství

V oblasti zpracování dat se často vyskytuje pojem data mining. Vysvětlíme vám, o co se jedná a jaké metody se při získávání dat používají.
Tento článek vyšel v časopise Computer 23/01

Petr Klímek

Na počátku nového tisíciletí se svět potýká s problémem obrovské produkce dat. Každý telefonát, nákup v supermarketu, přístup k Internetu nebo návštěva u lékaře vytvářejí údaje, které vstupují do transakčních systémů výrobních firem neziskových organizací i do státního sektoru. Jak tedy získat z údajů to důležité a aktuální? Tradiční cesta statistické analýzy je dnes zařazována do mnohem širší souvislosti dalších metod, pro které již zdomácněl název data mining – do češtiny přeloženo jako získávání nebo dolování dat.

Data mining můžeme popsat jako proces výběru, prohledávání a modelování ve velkých objemech dat. Ten slouží k odhalení dříve neznámých vztahů mezi daty. Velmi těžko bychom přitom mohli postrádat nástroje, které disponují pokročilými analytickými technikami, mezi něž bezesporu patří rozhodovací stromy, analýza asociací, vyhledávání shluků, umělé neuronové sítě a mnoho dalších.

Statistika je vám k službám

Při získávání dosud neobjevených znalostí se neobejdeme bez využití dvou typů statistických modelů. První z nich je založen na předpovídání hodnot neznámých veličin, druhý z nich pak popisuje chování dat, jejichž existence nám nezůstala utajena. Jako praktický příklad popisu chování můžeme uvést přehled četnosti kontaktů, které má naše firma s určitou skupinou zákazníků. Z ní – a samozřejmě i z dalších shromážděných dat – pak lze předpovědět, kdy a z jakého důvodu nás budou zákazníci opět kontaktovat. Statistické metody, bez nichž bychom se zaručeně neobešli, jsou při takové analýze nepostradatelnou součástí modulů CRM.

Data mining nestojí pouze na statistice. Významným pomocníkem při získávání a objevování dat jsou také neuronové sítě, které simulují proces učení lidského mozku. Mnoho významných firem ze světa informačních systémů, např. společnost Computer Associates, doplňuje prvky umělé inteligence do aplikací elektronického obchodování (e-byznys), které pak v součinnosti s klasickými statistickými metodami umožňují nalézt nové trhy, zdroje příjmů, popř. automatizovat obchodní funkce. Mimo jiné také usnadňují rozpoznání měnících se obchodních podmínek, předvídání výsledků a výběr vhodných způsobů jednání se zákazníky. To je přesně záležitost pokročilého získávání dat a vlastně také znalostí, které jsou dnes neoddělitelnou součástí moderních informačních systémů.

Softwaroví analytici

Při použití náročných technik se neobejdeme bez vhodného programového vybavení. Jde přitom o velmi lukrativní a rychle se rozvíjející oblast, do níž v současné době investuje mnoho softwarových firem (Silicon Graphics, IBM a další). Nejčastěji používanými aplikacemi pro dolování dat jsou systémy fungující nad relačními databázemi postavenými na architektuře klient/server.

Vyhodnocení kvality a použitelnosti celé škály nabízených produktů se opírá především o analytické schopnosti softwaru. Kromě zakomponování nejvíce využívaných metod, jako jsou rozhodovací stromy, a modelování s využitím neuronových sítí, je velmi důležitá šíře a možnosti nastavení parametrů a v neposlední řadě vytváření vlastních modelů podle aktuálních potřeb firmy. Výhradně na osvědčené statistické metody vsadil např. jeden z úspěšných produktů na trhu, Mine Set od Silicon Graphics, a modelování pomocí neuronových sítí do aplikace vůbec nezařadil.

Jednoduchost zrychluje práci

Pokud chceme vytvořit k získávání dat určitý model, musíme počítat s tím, že jeho postupné vylepšování zabere mnoho času. Při shlukové analýze je např. obvyklé zkoušení optimální metody i následné testování nejvýhodnějšího počtu shluků. Do časových obtíží se můžeme dostat také při aplikaci neuronových sítí, které může způsobit např. radikální změna chování na základě proměny počtu neuronů nebo způsob normalizace vstupních dat. Tyto operace pak mohou při průmyslovém využití trvat i několik hodin (samozřejmě v závislosti na výkonu hardwaru). Z těchto a dalších důvodů je zásadním požadavkem, aby uživatelské prostředí pro vytváření, správu a průběžné vyhodnocování modelů bylo maximálně přívětivé a jednoduché pro ovládání. Samozřejmostí pro nabízené aplikace je také profilování, vizualizace a statistické zpracování vstupních dat i výsledků analýz.

Nepostradatelnou vlastností je import vstupních dat s využitím různých metod vzorkování a jejich pružnou manipulací. Data je rovněž možno transformovat filtrováním, normalizací, náhradou hodnot, změnou distribučních vlastností a množstvím dalších funkcí.

Drahé, ale užitečné

Pořízení softwaru pro získávání dat je velmi nákladnou záležitostí. Ceny takových aplikací se pohybují v řádech desítek tisíc dolarů. Proto je velmi důležité soustředit se na užitečnost a kvalitu objevených znalostí, jejichž využití je cenné zejména v oblasti rozhodování a řízení firmy. Pro uživatele by nově získaná data měla být doprovázena informacemi o míře nejistoty, nepřesnosti nebo spolehlivosti, k čemuž slouží celá řada statistických, analytických či simulačních nástrojů.

Řada investičních společností využívá metody získávání dat k analýze finančních a akciových trhů. Ty se uplatňují také při detekci a prevenci pojišťovacích a daňových podvodů. Své nezastupitelné místo má dolování dat i v řadě vědeckých oborů. Za všechny můžeme jmenovat např. astronomii (automatická identifikace hvězd a galaxií), biologii (vyhledávání molekulových struktur) nebo meteorologii (předpověď a modelování globálních klimatických změn).

Ve světě obchodu je nejvyužívanější aplikací získávání dat, tzv. databázový marketing. Jedná se o způsob analýzy zákaznických databází, který dovoluje vyhledávat současné i budoucí preference zákazníků. Uvádí se, že jejím použitím lze zvýšit prodej až o 20 %. Databázový marketing, který v podstatě zpracovává osobní údaje, se choulostivě dotýká bezpečnosti a možného zneužití osobních dat. Proto je důležité zabývat se studiem, kdy může objevování znalostí narušit soukromí a jaká pravidla vůbec při zacházení s osobními daty aplikovat.

Diskuze (3) Další článek: CRM - Investice do budoucna

Témata článku: Byznys, Osobní údaj, Rozhodovací proces, Pokročilá předpověď, Určitý model, Strom, Průmyslové využití, Tradiční cesta, Bohatství, Využití, Automatická identifikace, Neznámá aplikace, Globální klima, Rozvíjející oblast, Lidský mozek, Důležitý údaj, Neuron, Znalost, Klasická předpověď, Objev, Analytická firma, Vědecký obor, Postupné vylepšování, Klimatická změna


Určitě si přečtěte

Pozor na tyto doplňky pro Chrome a Edge. Mohou obsahovat malware, varuje Avast
Jakub Čížek
MalwareProhlížeče
AMD uvádí grafické karty Radeon RX 6800, 6800 XT a 6900 XT. Útočí přímo na modely od Nvidie

AMD uvádí grafické karty Radeon RX 6800, 6800 XT a 6900 XT. Útočí přímo na modely od Nvidie

** AMD představilo tři nové grafické karty ** Všechny s architekturou RDNA2, kterou používají i PS5 a Xbox Series ** Karty útočí přímo na GeForce RTX 3000

Karel Javůrek | 78

Karel Javůrek
Radeon RX 6000Grafické kartyAMD
Zapomeňte na destičky. Raspberry Pi 400 je nový počítač zabudovaný do klávesnice
Lukáš Václavík
Raspberry PiPočítače
Uživatelé hlásí problémy s jednou z listopadových záplat pro Windows 10
Karel Kilián
Windows UpdateAktualizaceWindows 10
Šéf Spotify: Budeme zdražovat. Náš obsah se zlepšil
Markéta Mikešová
PředplatnéSpotify
Nejlepší notebooky do 20 000 Kč. Tipy, co se dnes vyplatí koupit

Nejlepší notebooky do 20 000 Kč. Tipy, co se dnes vyplatí koupit

** S cenou do 20 tisíc lze vybrat solidní notebook na práci i hry ** Přenosné notebooky nabídnou i kovová těla a rychlý hardware ** Možná největší problém je nedostupnost, nejžádanější kusy jsou vyprodané

David Polesný | 33

David Polesný
VánoceNotebooky

Aktuální číslo časopisu Computer

Jak prodloužit výdrž notebooku

Velké testy: gamepady a inkoustové tiskárny

Důkladný test Sony Playstation 5