Ťažba údajov

Data mining (DM), známy aj ako Knowledge-Discovery in Databases (KDD) alebo Knowledge-Discovery and Data Mining (KDD), je proces automatického vyhľadávania vzorov vo veľkých objemoch údajov. Data mining je pomerne nová a súčasná téma v informatike. Data mining však uplatňuje mnohé staršie výpočtové techniky zo štatistiky, vyhľadávania informácií, strojového učenia a rozpoznávania vzorov.

Data mining možno definovať ako „netriviálne získavanie implicitných, predtým neznámych a potenciálne užitočných informácií z údajov“ a „vedu o získavaní užitočných informácií z veľkých súborov údajov alebo databáz“ . Hoci sa zvyčajne používa v súvislosti s analýzou údajov, dolovanie údajov, podobne ako umelá inteligencia, je zastrešujúci pojem a používa sa s rôznym významom v širokej škále kontextov. Zvyčajne sa spája s potrebou podniku alebo inej organizácie identifikovať trendy.

Dolovanie údajov zahŕňa proces analýzy údajov s cieľom ukázať vzory alebo vzťahy; triedenie veľkého množstva údajov a vyberanie častí relatívnych informácií alebo vzorov, ktoré sa vyskytujú, napr. vyberanie štatistických informácií z niektorých údajov.

Jednoduchým príkladom dolovania údajov je jeho využitie v maloobchodnom predajnom oddelení. Ak obchod sleduje nákupy zákazníkov a všimne si, že zákazník kupuje veľa hodvábnych košieľ, systém dolovania údajov vytvorí koreláciu medzi týmto zákazníkom a hodvábnymi košeľami. Predajné oddelenie sa pozrie na túto informáciu a môže začať priamy poštový marketing hodvábnych košieľ pre tohto zákazníka, alebo sa môže pokúsiť získať zákazníka na nákup širšieho sortimentu výrobkov. V tomto prípade systém dolovania údajov, ktorý používa maloobchodná predajňa, objavil nové informácie o zákazníkovi, ktoré predtým spoločnosť nepoznala. Ďalším široko používaným (hoci hypotetickým) príkladom je veľmi veľký severoamerický reťazec supermarketov. Intenzívnou analýzou transakcií a nakúpeného tovaru za určité obdobie analytici zistili, že pivo a plienky sa často kupujú spolu. Hoci vysvetliť túto vzájomnú súvislosť môže byť ťažké, na druhej strane by nemalo byť ťažké ju využiť (napr. umiestniť vysokoziskové plienky vedľa vysokoziskových pív). Táto technika sa často označuje ako analýza trhového koša.

V štatistických analýzach, v ktorých neexistuje základný teoretický model, sa dolovanie údajov často aproximuje prostredníctvom metód postupnej regresie, pri ktorých sa inteligentne prehľadáva priestor 2k možných vzťahov medzi jednou výslednou premennou a k potenciálnymi vysvetľujúcimi premennými. S príchodom paralelných výpočtových systémov bolo možné (ak je k menšie ako približne 40) preskúmať všetkých 2k modelov. Tento postup sa nazýva všetky podmnožiny alebo vyčerpávajúca regresia. Niektoré z prvých aplikácií vyčerpávajúcej regresie sa týkali skúmania údajov o rastlinách.

Doporučujeme:  Scholastické zručnosti

Vo všeobecnosti je data mining (nazývaný aj data alebo knowledge discovery) proces analýzy údajov z rôznych hľadísk a ich sumarizácie do užitočných informácií – informácií, ktoré sa dajú využiť na zvýšenie príjmov, zníženie nákladov alebo na oboje. Softvér na dolovanie údajov je jedným z mnohých analytických nástrojov na analýzu údajov. Umožňuje používateľom analyzovať údaje z mnohých rôznych dimenzií alebo uhlov pohľadu, kategorizovať ich a sumarizovať zistené vzťahy. Z technického hľadiska je data mining proces hľadania korelácií alebo vzorov medzi desiatkami polí vo veľkých relačných databázach.

Hoci je dolovanie údajov relatívne nový pojem, táto technológia nie je. Spoločnosti už dlho používajú výkonné počítače na prezeranie objemov údajov zo skenerov supermarketov a analýzu správ o prieskume trhu. Neustále inovácie v oblasti výpočtového výkonu počítačov, diskových úložísk a štatistického softvéru však dramaticky zvyšujú presnosť analýzy a zároveň znižujú náklady.

Napríklad jeden mýtický reťazec potravín na Stredozápade využil možnosti dolovania údajov softvéru Oracle na analýzu miestnych nákupných vzorcov. Zistili, že keď muži kupovali plienky vo štvrtok a v sobotu, mali tendenciu kupovať aj pivo. Ďalšia analýza ukázala, že títo kupujúci zvyčajne nakupovali potraviny každý týždeň v sobotu. Vo štvrtok však nakupovali len niekoľko položiek. Predajca dospel k záveru, že pivo kupovali preto, aby ho mali k dispozícii na nadchádzajúci víkend. Obchodný reťazec mohol tieto novo zistené informácie využiť rôznymi spôsobmi na zvýšenie tržieb. Mohli by napríklad presunúť výstavku piva bližšie k výstavke plienok. A mohli by zabezpečiť, aby sa pivo a plienky vo štvrtok predávali za plnú cenu.

V technickom kontexte dátových skladov a analýzy je pojem „dolovanie údajov“ neutrálny. Niekedy sa však používa v pejoratívnejšom zmysle, ktorý naznačuje vnucovanie vzorov (a najmä príčinných vzťahov) údajom, ktoré neexistujú. Toto vnucovanie irelevantných, zavádzajúcich alebo triviálnych atribútových korelácií je v štatistickej literatúre správnejšie kritizované ako „bagrovanie údajov“. Iný termín pre toto nesprávne používanie štatistiky je „lovenie údajov“ (data fishing).

Doporučujeme:  Prípadová kontrola

V tomto druhom význame znamená hĺbenie údajov hľadanie akýchkoľvek vzťahov v údajoch, a keď sa nájdu, tak sa nájde zaujímavé vysvetlenie. Problémom je, že veľké súbory údajov vždy obsahujú nejaké zaujímavé vzťahy, ktoré sú pre tieto údaje špecifické. Preto sú všetky vyvodené závery pravdepodobne veľmi podozrivé. Napriek tomu sa pri každej aplikovanej štatistickej analýze vždy vyžaduje určitá prieskumná práca s údajmi, aby sa získal cit pre údaje, takže niekedy je hranica medzi dobrou štatistickou praxou a bagrovaním údajov menej ako jasná.

Jeden z bežných prístupov k hodnoteniu vhodnosti modelu vytvoreného pomocou techník dolovania údajov sa nazýva krížová validácia. Krížová validácia je technika, ktorá vytvára odhad generalizačnej chyby na základe opakovaného výberu. Zjednodušene povedané, všeobecná myšlienka krížovej validácie spočíva v tom, že rozdelenie údajov na dve alebo viac samostatných podmnožín údajov umožňuje použiť jednu podmnožinu na vyhodnotenie zovšeobecniteľnosti modelu naučeného z druhej(-ých) podmnožiny(-ín) údajov. Podskupina údajov použitá na vytvorenie modelu sa nazýva trénujúca množina; hodnotiaca podmnožina údajov sa nazýva testovacia množina. Medzi bežné techniky krížového overovania patrí metóda vyčkávania, k-násobné krížové overovanie a metóda vynechania.

Ďalším úskalím používania data miningu je, že môže viesť k odhaleniu korelácií, ktoré existujú skôr vďaka náhode ako vďaka základnému vzťahu. „Vždy existoval značný počet ľudí, ktorí sa zaoberali skúmaním posledných tisíc čísel, ktoré sa objavili na rulete, a hľadali nejaký opakujúci sa vzorec. Bohužiaľ, väčšinou ho našli.“ . Ak sa však určovanie korelácií pri investičnej analýze vykonáva správne, ukázalo sa, že je veľmi výhodné pre štatistické arbitrážne operácie (napríklad stratégie obchodovania s pármi), a okrem toho sa korelačná analýza ukázala ako veľmi užitočná pri riadení rizík. Zisťovanie korelácií na finančných trhoch, ak sa vykonáva správne, skutočne nie je to isté ako hľadanie falošných vzorov v rulete.

Väčšina úsilia v oblasti dolovania údajov sa zameriava na vývoj veľmi podrobných modelov nejakého veľkého súboru údajov. Iní výskumníci opísali alternatívnu metódu, ktorá zahŕňa hľadanie minimálnych rozdielov medzi prvkami v súbore údajov s cieľom vyvinúť jednoduchšie modely, ktoré reprezentujú relevantné údaje.

Doporučujeme:  Náhradní rodičia (ľudia)

Získavanie údajov z vládnych alebo komerčných súborov údajov na účely národnej bezpečnosti alebo presadzovania práva tiež vyvoláva obavy o ochranu súkromia.

Existuje mnoho legitímnych spôsobov využitia dolovania údajov. Napríklad databáza liekov na predpis, ktoré užíva skupina ľudí, by sa mohla použiť na nájdenie kombinácií liekov, ktoré vykazujú škodlivé interakcie. Keďže každá konkrétna kombinácia sa môže vyskytnúť len u 1 z 1000 ľudí, na odhalenie takejto interakcie by bolo potrebné preskúmať veľké množstvo údajov. Projekt, do ktorého by boli zapojené lekárne, by mohol znížiť počet liekových reakcií a potenciálne zachrániť životy. Bohužiaľ, existuje aj obrovský potenciál zneužitia takejto databázy.

Dolovanie údajov v podstate poskytuje informácie, ktoré by inak neboli k dispozícii. Aby boli užitočné, musia byť správne interpretované. Ak sa zozbierané údaje týkajú jednotlivých osôb, vzniká mnoho otázok týkajúcich sa súkromia, zákonnosti a etiky.

Kombinatorické dolovanie údajov z hier

Od začiatku 90. rokov 20. storočia sa s dostupnosťou veštíc pre niektoré kombinatorické hry, nazývané aj stolové hry (napr. pre 3×3-šach) s ľubovoľnou počiatočnou konfiguráciou, malé šachovnice bodky a políčka, malé šachovnice hex a niektoré koncové hry v šachu, bodky a políčka a hex, otvorila nová oblasť pre dolovanie údajov. Ide o extrakciu stratégií použiteľných pre človeka z týchto veštíc. Ide o rozpoznávanie vzorov na príliš vysokej abstrakcii na to, aby sa tu dali použiť známe algoritmy štatistického rozpoznávania vzorov alebo iné algoritmické prístupy: aspoň zatiaľ nikto nevie, ako to urobiť (k januáru 2005). Použitá metóda je plnou silou vedeckej metódy: rozsiahle experimentovanie s databázami tabuliek v kombinácii s intenzívnym štúdiom odpovedí na dobre navrhnuté problémy v kombinácii so znalosťou predchádzajúcich poznatkov, t. j. poznatkov pred databázami tabuliek, ktoré vedú k zábleskom pochopenia. Berlekamp v bodových a krabicových úlohách atď. a John Nunn v šachových endgames sú pozoruhodnými príkladmi ľudí, ktorí robia túto prácu, hoci neboli a nie sú zapojení do tvorby tabuliek.

Významné použitia dolovania údajov

zodpovedajúci online tutoriál)