- Stahuj zápisky z přednášek a ostatní studijní materiály
- Zapisuj si jen kvalitní vyučující (obsáhlá databáze referencí)
- Nastav si své předměty a buď stále v obraze
- Zapoj se svojí aktivitou do soutěže o ceny
- Založ si svůj profil, aby tě tví spolužáci mohli najít
- Najdi své přátele podle místa kde bydlíš nebo školy kterou studuješ
- Diskutuj ve skupinách o tématech, které tě zajímají
Studijní materiály
Zjednodušená ukázka:
Stáhnout celý tento materiáli sám SQL příkazy
s využitím nástrojů
Frekvence extrakcí pro každý zdroj – většinou se liší pro různé zdroje
Stanovení časového okna pro extrakci – kdy ji provádět
Paralelní vs. sériová extrakce pro jednotlivé zdroje dat
Zpracování výjimek při extrakci
Extrakce – identifikace zdrojů (postup)
Výpis všech datových položek potřebných v tabulce faktů
Výpis všech dimenzí
Pro každou cílovou položku najdi zdroj a jeho položku
Je-li více zdrojů pro jednu cílovou položku, vyber preferovaný zdroj
Identifikace vícenásobných zdrojů pro jeden cíl – stanovení konsolidačních pravidel
Identifikace vícenásobných cílů na jeden zdroj – stanovení dělících pravidel
Určení implicitních hodnot
Zjištění chybějících hodnot ve zdrojových datech
Extrakce – metody extrakce
Metoda extrakce statických dat
Vytvoření obrazu zdrojové databáze na výstupu
Používá se při iniciálním nahrávání dat do skladu
Metody extrakce při aktualizaci dat
Metody přímé extrakce
Metody odložené extrakce
Extrakce – metody přímé extrakce
Liší se způsobem zachycení změn v DB od posledního nahrání
Zachycení pomocí log souborů (vytvořených databází)
Zachycení pomocí databázových triggerů
Při každé změně se spustí trigger, který zapíše změnu do souboru
Zachycení pomocí samotných databázových aplikací
Editace aplikace tak, aby ukládala záznamy o provedených změnách DB
Extrakce – metody přímé extrakce
Extrakce – metody odložené extrakce
Nezachycují změny při jejich vzniku, ale až při nahrávání se porovnává zdrojová a cílová DB
Zachycení pomocí časových razítek
Razítky jsou označeny záznamy, které byly přidány nebo editovány – ty se pak při nahrávání dat naleznou (problém s mazáním)
Zachycení pomocí porovnávání souborů
Vytvoří se soubor s kopií dat ve stavu současném a včerejším, pak se soubory porovnají (velmi neefektivní)
Transformace
Cílem je zvýšit kvalitu vstupních dat a zvýšit jejich použitelnost pro cílového uživatele
Někdy je kvalita vstupních dat velmi proměnlivá -> čištění dat (odstranění nekvalitních dat)
Např. atribut Adresa – 3 vs. 1 hodnota
Často je potřeba odstranit tzv. „anomálie“, které v klasických databázích běžně vznikají
Příklady anomálií:
Přechod z MS-DOSu na Windows – např. kódování češtiny
Lidský faktor – různé překlepy, pravopisné chyby
Potřeba rozdělení složených atributů na atomické
Transformace – časté problémy
Nejednoznačnost údajů
Např. různě uložená informace o pohlaví zákazníka (M, muž, Muž atd…)
Chybějící hodnoty
Tyto hodnoty je potřeba doplnit, popř. ignorovat nebo označit nějakým příznakem
Duplicitní hodnoty
Většinou není příliš velký problém je odstranit, někdy je to však časově náročné
Konvence názvů pojmů a objektů
je nutné sjednotit terminologii požívanou různými zdroji dat
Různé peněžní měny
problém vznikne např. při přechodu z CZK na Euro
Formáty čísel a textových řetězců
použití různých datových typů pro ukládání čísel (např. řetězce)
Referenční integrita
Neustálé změny v reálném světě zkreslují data – např. i po zrušení oddělení firmy zůstanou v DB údaje o jeho zaměstnancích
Chybějící datum
Časový aspekt je v datových skladech velmi důležitý, ve vstupních datech však čas často chybí – často je nutné jej doplnit
Transformace dat – typické úkoly
Selekce
Výběr vhodných atributů pro cílový sklad
Rozdělování/spojování
Rozdělení záznamu (datum…), spojování více záznamů z různých zdrojů
Konverze
konverze záznamů (standardizace různých zdrojů, lepší použitelnost a srozumitelnost)
Sumarizace
místo detailních dat je vhodnější je sumarizovat
Obohacení
vytvoření lepšího pohledu na data na základě různých zdrojů
Hlavní typy transformace
Revize formátu dat
Pro tentýž atribut mohou být hodnoty např. ukládány numericky nebo jako řetězce
Dekódování polí
Různé kódování např. pohlaví…
Výpočet odvozených polí (sumarizace)
Rozdělení polí na části
datum, jméno a příjmení
Sloučení informací
Informace o jednom produktu mohou být ve více zdrojových tabulkách
Konverze znakových sad
Konverze měrných jednotek
Konverze formátu data/času
Sumarizace
Restrukturalizace klíčů
V rámci datového skladu musí být jednotné
Deduplikace
Odstranění duplicitních řádků v tabulce způsobených především chybami…
Přenos dat
Přesun údajů a jejich uložení do tabulek datového skladu
Pokud možno by měl probíhat automatizovaně
Rozlišujeme podle periody přesunů…
to závisí především na požadavcích aplikace
většinou jde o časově náročnou operaci, především u iniciálního přenosu
Přenos dat do datového skladu
Tři typy nahrávání dat
Iniciální nahrávání
Nahrávání všech dat do prázdného skladu
Inkrementální nahrávání
promítnutí změn v DB do datového skladu (provádí se periodicky)
Přepis dat
kompletní smazání obsahu skladu a nahrání aktuálních dat
Módy nahrávání dat
Nahrání (Load)
Pokud cílová tabulka obsahuje data, pak jsou smazána a nahrazena aktuálními
Přidání (Append)
Přidání nových dat ke stávajícím, při duplicitě může uživatel zvolit další postup
Destruktivní sloučení
Stejné jako přidání, při stejných klíčích se přepíše hodnota daného řádku
Konstruktivní sloučení
Při stejných klíčích se přidá nový prvek a označí se jako nový, starý v datovém skladu zůstane
Refresh vs. Update
Problémy fáze ETL
Je nutné zkontrolovat správnost dat v datovém skladu
Dochází k chybám na HDD, výpadkům spojení
Problémy mohou vzniknout při změně formátu vstupních dat
Shrnutí fáze ETL
Indexování multidimenzionálních dat
Jeden index pro každou tabulku
Každá hodnota atributu má bitový vektor: bitové operace jsou rychlé
Délka bitového vektoru: počet záznamů v základní tabulce
i-tý bit je nastaven,jestliže i-tý řádek základní tabulky má hodnotu indexovaného sloupce
Není vhodné pro domény s vysokou kardinalitou
Příklad
Návrh datového skladu
Volba schématu datového skladu
Návrh celkové struktury datového skladu
Návrh dimenzí
Návrh tabulky faktů
Návrh transformací vstupních dat na data výstupního datového skladu
Volba schématu datového skladu
Schéma hvězdy
x schéma sněhové vločky
Návrh celkové struktury datového skladu
Návrh jednotlivých dimenzí
Dimenze zákazníků
Dimenze produktů
Časová dimenze
Návrh tabulky faktů
Měrné jednotky
Množství
Cena
Cizí klíče odkazující se do dimenzí
Produkt
Čas
Zákazník
Návrh transformací vstupních dat na data výstupního datového skladu
Hodnota
Sloupec
Řádek
Tabulka
Databáze
Analýza údajů podle
regionálních kritérií
Analýza pro určité
časové období
Produkt
Produkt
Analýza údajů
pro určitý produkt
Čas
Region
Čas
Region
Čas
Region
Produkt
Moudrost
Informace
Znalosti
Údaje
Integrace, čištění
Data
z
různých
aplikací
Úvěrový účet
Běžné účty
Spořící účty
Subjekt datového
skladu = ÚČET
LOADS
Read
Add/Change/Del
Read
Systém pro podporu rozhodování
Aplikace nad operační DB
Datový
sklad
Operační
DB
a
metadat
Správa dat
Datové
modelování
Administrace
Analýza dat
Získání údajů -> úprava a zavedení do datového skladu
-> analýza -> zpřístupnění uživatelům
DATOVÝ SKLAD
Extrakce
Transformace
Zavedení
OLAP
Uživatelé
Operační prostředí
Metadata
Místo
přípravy dat
Předání informace
Uložení dat
Reports/Dotazy
OLAP
Data Mining
Datové trhy
Multi-
dimenz.
DB
(DBMS)
Datový
sklad
Management & Správa
Archivní
Interní
Produkční
Externí
Zdrojová data
Data Mining
Naplnění EIS
Statistická an.
MD analýza
Složité dotazy
Tisk. sestavy
ONLINE
INTERNET
INTRANET
Modul předání informace
Datové trhy
Dat. sklad
Rok
…Kvartál
……Měsíc
………Týden
Druh produktu
…Kategorie
……Subkategorie
………Název prod.
Kontinent
…Země
……Územní celek
………Město
Management & Správa
Místo
přípravy dat
Archivní
Interní
Produkční
Externí
Zdrojová data
ZÍSKÁNÍ INFORMACÍ
ULOŽENÍ DAT
ZÍSKÁNÍ DAT
Metadata
Místo
přípravy dat
Předání informace
Uložení dat
Reports/Dotazy
OLAP
Data Mining
Datové trhy
Multi-
dimenz.
DB
DBMS
Datový
sklad
Management & Správa
Archivní
Interní
Produkční
Externí
Zdrojová data
branch
branch_key
branch_name
branch_type
Tue
item
item_key
item_name
brand
type
supplier_type
Metriky
avg_sales
dollars_sold
units_sold
location_key
branch_key
item_key
time_key
Tabulka faktů: Prodeje
location
location_key
street
city
state_or_province
country
time
time_key
day
day_of_the_week
month
quarter
year
Zřídka přenos do aplikací pro
podporu rozhodování.
Pouze do jiných
DB systémů.
Běžný přenos dat do aplikací pro podporu rozhodování.
Žádné složité dotazy, žádná interaktivní analýza.
Komplexní dotazy, dlouhé interaktivní analýzy. Ukládání result sets. Rychlé zpracování.
Kontrolované, velmi omezené předdefinované dotazy. Žádné ad hoc dotazy.
Uživatelem řízené dotazy. Lehce dostupné šablony dotazů.
Uživatelem řízené sestavy.
Lehce dostupné formáty sestav.
Předdefinované
sestavy v aplikaci. Pouze zřídka uživatelské sestavy.
KONTROLA BEZPEČNOSTI
PROCHÁZENÍ OBSAHU
OPTIMALIZACE DOTAZŮ
ZPRACOVÁNÍ DOTAZŮ
Standardní
uložení
sestav
Dočasné
„Result
sets“
Multi-
dimenz.
DB
Předání informace
Reports/Dotazy
OLAP
Data Mining
Multi-
dimenz.
DB
INKREMENTÁLNÍ /
INICIÁLNÍ NAHRÁVÁNÍ
ZÁLOHA/
ZOTAVENÍ
ARCHIVACE DAT
BEZPEČNOST
Relační DB
(dimenzionální
model)
Relační DB
(E-R model)
Metadata
Metadata
Místo
přípravy dat
Uložení dat
Datové trhy
DBMS
Datový
sklad
Management & Správa
Metadata
PŘÍPRAVA DAT
EXTRAKCE DAT
TRANSFORMACE DAT
Relační DB,
soubory
Dočasné
soubory
Datové
sklady
Klasické DB
Aplikace
Analýza
Dotazy
Sestavy
Správa propojení
Správa datového skladu
Aplikace pro podporu
rozhodování
Upozorňování
Data Mining
Tvorba
sestav
OLAP
Nahrávání obrazu dat
Nahrávání dat
Datové modelování
Zajištění kvality
Transformace
Extrakce
Zdrojové
systémy
Získání informací
Uložení dat
Získání dat
DATOVÝ SKLAD
Extrakce
Transformace
Zavedení
OLAP
Uživatelé
Operační prostředí
Soubory
generované
aplikací
Zachycení
pomocí
DB aplikací
Zachycení
pomocí
DB triggerů
Zachycení
pomocí
log souborů
SŘBD
Triggery
Zdrojová data
Zdrojová DB
Oblast přípravy dat
log
soubory
Výstupní
soubory
triggerů
OPERAČNÍ
SYSTÉM
Soubory
získané
porovnáním
Programy pro
porovnání
Včerejší
stav
Programy pro
extrakci
Soubory
získané z
razítek
Zachycení
pomocí
časových razítek
Zachycení
pomocí
porovnávání souborů
SŘBD
Zdrojová data
Zdrojová DB
Oblast přípravy dat
Dnešní
stav
OPERAČNÍ
SYSTÉM
Iniciální přenos dat
Denní aktualizace
Měsíční aktualizace
Čtvrtletní aktualizace
Roční aktualizace
Zdroje dat
DATOVÝ
SKLAD
AKTUALIZACE METADAT
Ukládání a používání metadat
při každé z fází ETL
DALŠÍ NAHRÁVÁNÍ
Periodická aktualizace dat
v datovém skladu
INICIÁLNÍ NAHRÁNÍ DAT
Natáhnutí velkého objemu
vstupních dat do datového
skladu
SUMARIZACE DAT
Vytvoření agregací dat,
založeno na předdefinovaných
procedurách
ČIŠTĚNÍ DAT
Zlepšení kvality dat na základě
čistících pravidel
INTEGRACE DAT
Kombinace dat z různých
zdrojů, založeno na principu
mapování zdrojů a cílů
TRANSFORMACE DAT
Konverze a změna struktury
dat, podle transformačních
pravidel
EXTRAKCE DAT
Extrakce z heterogenních
a vnějších zdrojů dat
Index pro Typ
Index pro Region
Základní tabulka
Produkt
Čas
Zákazník
city
Olomouc
Passau
region
customer
country
all
...
...
Prostějov
...
...
...
L. Müller
M. Werner
München
OL kraj
JM kraj
Bayern
Německo
Česká rep.
all
all
Product
Category
...
...
...
TV
DVD Rec.
Židle
Nábytek
Elektronika
all
den.měsíc.rok
Month
Quarter
Day
Year
all
31.3.
1.3.
Leden
Březen
...
...
Březen
...
...
...
Leden
1.Q.
4.Q
1.Q.
2006
2001
all
Vloženo: 28.04.2009
Velikost: 1,02 MB
Komentáře
Tento materiál neobsahuje žádné komentáře.
Mohlo by tě zajímat:
Skupina předmětu DS_2 - Datové sklady
Reference vyučujících předmětu DS_2 - Datové sklady
Podobné materiály
- ZF - Základy financování - Přednáška 1
- ZF - Základy financování - Přednáška 2 a 3
- ZM - Základy marketingu - Přednáška 1
- ZM - Základy marketingu - Přednáška 2
- VF - Veřejné finance - 1. přednáška - Úvod, Výklad základních pojmů
- VF - Veřejné finance - 2. přednáška - Specifikum rozhodován ve veřejném sektoru, Veřejná volba
- VF - Veřejné finance - 3. přednáška - Kořeny a vývoj teorie veřejných financí
- VF - Veřejné finance - 4.přednáška - Příjmy veřejných rozpočtů
- VF - Veřejné finance - 5. přednáška - Veřejné výdaje
- VF - Veřejné finance - 6. přednáška - Základy daňové teorie
- VF - Veřejné finance - 7. přednáška - Sociální politika a sociální zabezpečení
- VF - Veřejné finance - 8. přednáška - Fiskální federalismus
- VF - Veřejné finance - 9. přednáška - Rozpočtová soustava v ČR, Státní rozpočet ČR
- VF - Veřejné finance - 10. přednáška - Fiskální politika státu
- VF - Veřejné finance - 11. přednáška - Rozpočtový deficit a veřejný dluh
- VF - Veřejné finance - 12. přednáška - Etika veřejných financí, Etika ve veřejném sektoru
- I1 - Informatika 1 - přednáška - Důležité funkce v excelu
- I1 - Informatika 1 - Úvodní přednáška
- ZK - Základy komunikace - 1. a 2. přednáška
- I1 - Informatika 1 - přednáška
- I1 - Informatika 1 - přednáška
- I1 - Informatika 1 - přednáška
- I1 - Informatika 1 - přednáška
- I1 - Informatika 1 - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - ppřednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- MAK - Makroekonomie - přednáška
- MAK - Makroekonomie - přednáška
- MAK - Makroekonomie - přednáška
- MAK - Makroekonomie - přednáška
- MAK - Makroekonomie - přednáška
- OOPP - Občanské, obchodní a pracovní právo - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- ZK - Základy komunikace - přednáška
- ZK - Základy komunikace - přednáška
- VF - Veřejné finance - přednáška
- ZK - Základy komunikace - přednáška
- ZK - Základy komunikace - přednáška
- Bep1P - Ekonomika podniku 1 - přednáška
- Bep1P - Ekonomika podniku 1 - přednáška 2
- Bep1P - Ekonomika podniku 1 - přednáška 3
- Bep1P - Ekonomika podniku 1 - přednáška 4
- Bep1P - Ekonomika podniku 1 - přednáška 7
- Bep1P - Ekonomika podniku 1 - přednáška 8
- Bep1P - Ekonomika podniku 1 - přednáška 2
- Bep1P - Ekonomika podniku 1 - přednáška číslo 1
- Bep1P - Ekonomika podniku 1 - přednáška č.2
- Bep1P - Ekonomika podniku 1 - přednáška č. 3
- Bep1P - Ekonomika podniku 1 - přednáška č. 4
- KipeP - Informatika pro ekonomy - přednáška č. 1
- Kep1P - Ekonomika Podniku - přednáška 1
- Kep1P - Ekonomika Podniku - přednáška 2
- Kep1P - Ekonomika Podniku - Přednáška 3
- Kep1P - Ekonomika Podniku - přednáška 4
- Kep1P - Ekonomika Podniku - přednáška 5
- Kep1P - Ekonomika Podniku - přednáška 7
- Kep1P - Ekonomika Podniku - přednáška 6
- Kspkm - Sociálně-psychologické kompetence manažera - přednáška
- Kspkm - Sociálně-psychologické kompetence manažera - přednáška
- Kspkm - Sociálně-psychologické kompetence manažera - přednáška
- Kspkm - Sociálně-psychologické kompetence manažera - přednáška
- KfpP - Finance podniku - přednáška 1
- KfpP - Finance podniku - přednáška 2
- KfpP - Finance podniku - přednáška 3
- KfpP - Finance podniku - přednáška 4
- KfpP - Finance podniku - přednáška 5
- KfpP - Finance podniku - přednáška 7
- KfpP - Finance podniku - přednáška 8
- KfpP - Finance podniku - přednáška 9
- KstatP - Statistika - 1. přednáška
- KstatP - Statistika - 2. přednáška
- KstatP - Statistika - 3. přednáška
- KstatP - Statistika - 4.přednáška
- KstatP - Statistika - 5. přednáška
- KstatP - Statistika - 6. přednáška
- KstatP - Statistika - 7.přednáška
- KstatP - Statistika - 8.přednáška
- ZF - Základy financování - Všechny přednášky ve wordu
- RPV - Řízení projektů vývoje IT/IS - Přednášky předělané do wordu
Copyright 2024 unium.cz