Studijní materiály

Zpět

Hromadně přidat materiály

Výtah z přednášek

DS_2 - Datové sklady

Hodnocení materiálu:

Zjednodušená ukázka:

Stáhnout celý tento materiál

dat
Typy znalostí
Asociační pravidla
Shlukování
Klasifikace
Predikce
Asociační pravidla
Původně pro transakční data
Pravidlo ve tvaru A ( B
A, B … množiny položek
s … podpora
c … spolehlivost
Interpretace asociačního pravidla:
„Jestliže transakce obsahuje položky z množiny A, pak také pravděpodobně obsahuje položky z B“
Zajímavost pravidla A(B určují tyto ukazatele:
podpora (support) - pravděpodobnost, že se vyskytují v databázi položky z obou stran asociačního pravidla
spolehlivost (confidence) - podmíněná pravděpodobnost, že se vyskytuje v transakci množina položek B, za předpokladu, že se tam vyskytují položky z A
Pravidlo, které má podporu a spolehlivost vyšší než je uživatelem zadaná hodnota, nazveme silné asociační pravidlo.
Množina položek, která má podporu vyšší než minimální hodnota, se nazývá frekventovaná množina.
Metriky zajímavosti
Jednoduchost – počet prvků pravidla, velikost rozhodovacího stromu
Použitelnost – např. podpora a spolehlivost
Jedinečnost – odstranění podobných znalostí
Shlukování – některé metody
Rozdělovací metody
Rozdělení objektů na předem daný počet shluků
Např. algoritmus K-means, který optimalizuje těžiště jednotlivých shluků a dané prvky pak přiřadí k nejbližšímu těžišti
V každé iteraci se počítají vzdálenosti prvků od těžiště. Tato hodnota musí pro každý shluk (těžiště) minimální
Hierarchické metody
Postupné rozdělování velkých shluků nebo postupné slučování malých shluků
Vzniká tím hierarchická struktura shluků
Ukončení procesu rozdělování (slučování) při splnění určité podmínky (např. určitý minimální počet shluků)
Další metody (neuronové sítě, mřížky apod.)
Klasifikace
Rozdělování objektů do předem známých skupin
Nejčastěji se využívají rozhodovací stromy
1. krok: konstrukce rozhodovacího stromu na základě vzorku dat
2. krok: klasifikace objektů na základě vytvořeného rozhodovacího stromu
Úspěšnost se měří procentem úspěšně klasifikovaných objektů
Klasifikátory (modely)
Pravidla
Ve tvaru: if (podmínka atributu) then result = …
Lze je převést na rozhodovací strom
Rozhodovací stromy
Vnitřní uzel – test hodnoty jistého atributu
Koncový uzel – třída, do které je objekt klasifikován
Neuronové sítě
Etapa ETL
Extrakce – výběr dat různými metodami
Transformace – ověření, čištění, integrace a časové označení dat
Loading – přesun dat do datového skladu
Hlavní cíl: centralizace údajů
Nutné především proto, aby v datovém skladu byla dostatečně kvalitní data
Nikdy nekončící proces (neustále nutnost aktualizovat).
Hlavní úkoly ETL procesu
Určit data, která mají být uložena v datovém skladu
Určit zdroje dat, interní i externí
Příprava mapování mezi zdrojovými a cílovými daty
Stanovení pravidel pro extrakci dat
Určit pravidla pro transformaci a čištění dat
Oblast přípravy dat
Mezistupeň mezi vstupní databází a datovým skladem
Dvě možnosti, kde provádět etapu ETL
Lokální vynášení: Transformace se provádí ve vstupní databázi a pak se data přenáší do cílové databáze
Vzdálené vynášení: Původní data se nejprve přenesou a jsou transformována v oblasti přípravy dat
Extrakce – metody extrakce
Metoda extrakce statických dat
Vytvoření obrazu zdrojové databáze na výstupu
Používá se při iniciálním nahrávání dat do skladu
Metody extrakce při aktualizaci dat
Metody přímé extrakce
Metody odložené extrakce
Extrakce – metody přímé extrakce
Liší se způsobem zachycení změn v DB od posledního nahrání
Zachycení pomocí log souborů (vytvořených databází)
Zachycení pomocí databázových triggerů
Při každé změně se spustí trigger, který zapíše změnu do souboru
Zachycení pomocí samotných databázových aplikací
Editace aplikace tak, aby ukládala záznamy o provedených změnách v DB
Metody odložené extrakce
Nezachycují změny při jejich vzniku, ale až při nahrávání se porovnává zdrojová a cílová DB
Zachycení pomocí časových razítek
Razítky jsou označeny záznamy, které byly přidány nebo editovány – ty se pak při nahrávání dat naleznou (problém s mazáním)
Zachycení pomocí porovnávání souborů
Vytvoří se soubor s kopií dat ve stavu současném a včerejším, pak se soubory porovnají (velmi neefektivní)
Transformace
Cílem je zvýšit kvalitu vstupních dat a zvýšit jejich použitelnost pro cílového uživatele
Někdy je kvalita vstupních dat velmi proměnlivá -> čištění dat (odstranění nekvalitních dat)
Např. atribut Adresa – 3 vs. 1 hodnota
Často je potřeba odstranit tzv. „anomálie“, které v klasických databázích běžně vznikají
Transformace – časté problémy
Nejednoznačnost údajů
Např. různě uložená informace o pohlaví zákazníka (M, muž, Muž atd…)
Chybějící hodnoty
Tyto hodnoty je potřeba doplnit, popř. ignorovat nebo označit nějakým příznakem
Duplicitní hodnoty
Většinou není příliš velký problém je odstranit, někdy je to však časově náročné
Transformace dat – typické úkoly
Selekce
Výběr vhodných atributů pro cílový sklad
Rozdělování/spojování
Rozdělení záznamu (datum…), spojování více záznamů z různých zdrojů
Konverze
konverze záznamů (standardizace různých zdrojů, lepší použitelnost a srozumitelnost)
Sumarizace
místo detailních dat je vhodnější je sumarizovat
Obohacení
vytvoření lepšího pohledu na data na základě různých zdrojů
Přenos dat
Přesun údajů a jejich uložení do tabulek datového skladu
Pokud možno by měl probíhat automatizovaně
Rozlišujeme podle periody přesunů…
to závisí především na požadavcích aplikace
většinou jde o časově náročnou operaci, především u iniciálního přenosu
Tři typy nahrávání dat
Iniciální nahrávání
Nahrávání všech dat do prázdného skladu
Inkrementální nahrávání
promítnutí změn v DB do datového skladu (provádí se periodicky)
Přepis dat
kompletní smazání obsahu skladu a nahrání aktuálních dat
Módy nahrávání dat
Nahrání (Load)
Pokud cílová tabulka obsahuje data, pak jsou smazána a nahrazena aktuálními
Přidání (Append)
Přidání nových dat ke stávajícím, při duplicitě může uživatel zvolit další postup
Destruktivní sloučení
Stejné jako přidání, při stejných klíčích se přepíše hodnota daného řádku
Konstruktivní sloučení
Při stejných klíčích se přidá nový prvek a označí se jako nový, starý v datovém skladu zůstane
Problémy fáze ETL
Je nutné zkontrolovat správnost dat v datovém skladu
Dochází k chybám na HDD, výpadkům spojení
Problémy mohou vzniknout při změně formátu vstupních dat

Stáhnout celý tento materiál

Předchozí

1 2 3

Vloženo: 28.04.2009

Velikost: 154,50 kB

Stáhnout celý tento materiál

Komentáře

Tento materiál neobsahuje žádné komentáře.

Mohlo by tě zajímat:

Skupina předmětu DS_2 - Datové sklady
Reference vyučujících předmětu DS_2 - Datové sklady

Podobné materiály