Datamining - dolování dat
2. 5. 2007
Už jste někdy nakupovali zboží přes internet? Máte konto u banky, účet u spořitelny? Používáte mobilní telefon? Nakupujete v supermarketu? Pak byste měli vědět, co je „data mining“ – dolování dat. Předmětem jeho zájmu jsme totiž téměř neustále … Datamining je velmi propracovaná metoda, která pomocí matematických funkcí analyzuje velké objemy dat a hledá v nich skryté souvislosti. Nejčastěji se používá v marketingu a její výsledky slouží velkým pojišťovnám, supermarketům nebo mobilním operátorům. Datamineři například sledují databáze klientů mobilního operátora a na základě informací o hovorech zkoumají, jaké chování vykazoval klient půl roku před svým odchodem k jinému operátorovi. Analytici pak mezi současnými klienty vytipují ty, kteří se chovají podobně a kteří tedy mají tendenci odejít. Operátoři pak klienty s touto tendencí mohou oslovit se speciální nabídkou. Datamining slouží také velkým obchodním řetězcům. Z dat pocházejících z pokladen nebo ze zákaznických karet lze vyčíst, kdo, jaké zboží a v jaké kombinaci nejčastěji kupuje a jaká nabízená kombinace by se setkala s velkým ohlasem. Datamining se také používá při luštění genomu. Umí například z DNA člověka vyčíst, jestli má dědičné předpoklady pro nějakou nemoc. Datamining je tedy matematická disciplína z oblasti statistiky, která má desítky různých aplikací.

Datamining – nebo také dobývání dat – je matematická metoda, jak získávat skryté, ale užitečné informace z obrovského množství údajů. Dobývání dat se používá v mnoha oblastech a nastoupilo s rozvojem počítačové techniky, která zpracování obrovských databází umožnila. Tak třeba nákup knihy. Tereza si vybrala titul. Systém prohledal záznamy z nákupů milionů svých zákazníků a zjistil, jakou další knihu si zároveň zákazníci nejčastěji objednali. Tereza tak získala další cennou informaci.
Na začátku 20. století bylo na světě jen málo firem, které měly desítky tisíc klientů. Dnes není neobvyklé, že firma má desítky milionů klientů. A pokud každého z nich chce oslovovat s nabídkou šitou na míru, musí pracovat s obrovským množstvím dat. Data mining se používá v nejrůznějších odvětvích. Například i v bioinformatice nebo v telekomunikacích.
Na začátku se nejprve zastavíme u jednoho základního pojmu. A tím je gen. Je to v podstatě neměnná informace, jakýsi kód. S jeho pomocí se vytvářejí v buňce nové proteiny, které se pak podílejí na stavbě různých tkání v našem těle. Gen zůstává stále stejný. Co se ale liší, je množství proteinu, které se podle téhož genu připraví. Procesu, který takové množství ovlivňuje, se říká genová exprese.
Při porovnání tkáně zdravého člověka s tkání postiženou nějakou poruchou zjistíme, že obě tkáně mají stejné geny, přesto se liší jejich genová exprese. Znamená to, že ve tkáni s poruchou se podle téhož genu vytvořilo jiné množství proteinů, než ve zdravé tkáni. Pro člověka trpícího poruchou bylo by užitečné zjistit, které geny se na této poruše podílejí, a napravit jejich činnost. Jak takové geny najít?
Ing. Stanislav Kmoch, Ústav dědičných metabolických poruch 1. LF UK: Musíme studovat genovou expresi v příslušné tkáni skupiny pacientů a porovnat genovou expresi, ke které dochází ve stejné tkáni u skupiny pacientů zdravých.
Zatím známe v naší DNA zhruba 30 000 genů a musíme hledat změny genové exprese u každého z nich. Abychom dostali věrohodná data, nemůžeme se spoléhat jen na jeden vzorek zdravé a nemocné tkáně, ale potřebujeme jich alespoň deset. Zkoumáme tedy změny genové exprese 30 000 genů ve 20 vzorcích. Dostaneme tak asi 600 000 údajů, které je třeba porovnat.
Ing. Stanislav Kmoch, Ústav dědičných metabolických poruch 1. LF UK: Tím prvním výsledkem, který získáme analýzou tohoto množství dat, je nalezení genů, jejichž exprese se liší ve skupině pacientů oproti té kontrolní skupině. Ten gen samozřejmě není jeden, je jich celá řada. Jsou to stovky až tisíce genů. Jejich exprese se v těchto dvou skupinách liší.
Hledání podezřelých genů ale komplikuje ještě jedna skutečnost. Mezi geny totiž existuje jistá souhra. Jeden gen může řídit funkci skupiny třeba patnácti jiných genů. Proto hledání genů zodpovědných například za růst nádorové buňky je extrémně složité. Pomocí data miningu se tyto skryté souvislosti postupně daří odhalovat. Data miningový program vezme jeden gen, zjistí, jestli byl aktivní při tvorbě zdravé nebo nemocné tkáně, a pak zkontroluje, jestli s jeho aktivitou souvisí činnost i jiného genu z celkových třiceti tisíc. Představuje to asi milion matematických operací. A jestliže program posuzuje dvacet vzorků, pak je to dvacet milionů operací. Program pak odhalí geny zodpovědné za špatnou činnost jiných genů. Bez data miningových nástrojů by se taková hierarchie jen těžko odhalila.
Jak ale vyrobit lék, který by ovlivnil činnost právě jen těch odhalených poruchových genů a žádných jiných? Dejme tomu, že farmaceutická firma zná skupinu padesáti genů, jejichž činnost chce omezit. Má totiž podezření, že se tato skupina podílí na růstu nádorových buněk. Laboratoř má k dispozici 100 000 organických látek, které může použít pro testování, a může mezi nimi hledat ty látky, které účinkují právě jen na vybrané geny. V laboratoři se připraví 100 000 jamek s rostoucí nádorovou buňkou a do každé z nich se přidá jedna látka. Vzorky se vyhodnocují pomocí data miningových programů a hledá se, která látka zasáhla ty pravé geny a omezila růst nádorových buněk.
Ing. Stanislav Kmoch, Ústav dědičných metabolických poruch 1. LF UK: Samozřejmě ty látky mají široký efekt. A potom pomocí stejných technik, pomocí genové exprese se farmaceutické firmy snaží analyzovat a odhalit celkové dopady této látky na metabolismus dané buňky.
U každého ze 30 000 genů dostaneme například 20 různých informací. Vědci se pomocí dobývání dat do těchto dat podívají a zjistí, jak a u kterých genů se změnila genová exprese a které z 100 000 látek by mohly být použitelné. Zjistí, že například 150 látek je zajímavých, protože omezují růst nádoru. Z toho 120 látek je pro člověka nebezpečných, protože ovlivňují základní biologické funkce. Zbude 30, z nich se vybere 5 a ty se již testují klinicky. Jedna z nich pak vyhoví všem požadavkům a po uvedení do prodejní sítě zaplatí celý výzkum.
Data mining se rozvíjí nejintenzivněji v obchodování. Představme si, že firma má 2,5 milionů zákazníků. Nové zákazníky je možné získat už jen na úkor konkurence, protože každý má svůj mobil. A je třeba udržet ty současné. I ty, kteří mají tendenci odejít. Jak je ale poznat? Operátor si vede záznamy o tom, jak klienti využívají jeho služeb, například jaké mají tarify, kolik posílají textových zpráv a v jakou denní dobu volají. Takovým informacím se říká provozní data. Důležité je uchovávat i provozní data klientů, kteří od operátora odešli.
Monika Čížková, oddělení marketingu, Vodafone: My se samozřejmě díváme do historických dat, které máme a díváme se na klienty, kteří odešli, jaké měli charakteristiky a podle toho se snažíme určit klienty, kteří mají větší pravděpodobnost, že by mohli odejít. Těch charakteristik významných, které na to působí, je třeba 5 až 10.
Operátor má řekněme 2,5 milionů zákazníků. Každému z nich přiřaďme asi 200 různých charakteristik, například jaký má tarif nebo jak často dobíjí svůj kredit. U každého z těchto 2,5 milionů zákazníků data miningový program posoudí, jestli se některé z jeho 200 charakteristik podobají znakům odešlých klientů. Program dovede operátora k vytipování skupiny například sta tisíc klientů, a ty se pak operátor rozhodne oslovit s nějakou velmi lákavou nabídkou, aby si je udržel.
Dobývání dat je důležitý marketingový nástroj. Představme si situaci, kdy operátor usiluje o to, aby některou z jeho zavedených nabídek využívalo více klientů. Jde například o nabídku, která má podle operátora větší potenciál a zákazníci ji zatím příliš nevyužívají. Pomocí data miningových programů se proto specialisté podívají na provozní data klientů, kteří už takovou nabídku používají. Může jít třeba o 100 000 klientů. Operátor určí skupinu znaků, které tyto klienty charakterizují.
Mezi zbylými 2 400 000 klienty – opět pomocí dobývání dat – hledá takové, kteří se svými charakteristikami podobají těm, kdo už nabídku využívají. Vytipovaným klientům pak přijde třeba SMS, že si mohou za výhodných podmínek nabídku objednat. Asi bychom měli přijít s něčím, co dobyvatelům dat pořádně zamotá hlavu.