- Stahuj zápisky z přednášek a ostatní studijní materiály
- Zapisuj si jen kvalitní vyučující (obsáhlá databáze referencí)
- Nastav si své předměty a buď stále v obraze
- Zapoj se svojí aktivitou do soutěže o ceny
- Založ si svůj profil, aby tě tví spolužáci mohli najít
- Najdi své přátele podle místa kde bydlíš nebo školy kterou studuješ
- Diskutuj ve skupinách o tématech, které tě zajímají
Studijní materiály
Hromadně přidat materiály
Soubor přednášek co bdue na testu
DS_2 - Datové sklady
Hodnocení materiálu:
Zjednodušená ukázka:
Stáhnout celý tento materiálDatové sklady2. Architektura, etapa ETL
Ing. Vladimír Bartík, Ph.D. Zdrojová data Externí
Archivní Interní Produkční Management & Správa Datový
sklad (DBMS)
Multi-
dimenz.
DB
Datové trhy Data Mining OLAP Reports/Dotazy Uložení dat Předání informace Místo
přípravy dat Metadata ZÍSKÁNÍ DAT ULOŽENÍ DAT ZÍSKÁNÍ INFORMACÍ Celková architektura – Tři hlavní oblasti Celková architektura – Tři hlavní oblasti Získání dat
Zdrojová data + místo přípravy dat
Uložení dat
Datový sklad + datové trhy + uložení metadat
Získání informací
Multidimenzionální databáze + samotné získání informací (OLAP, data mining, tiskové sestavy atd.) Získání dat – technická architektura Zdroje dat
většinou relační DB, pro přenos do místa přípravy nutno konvertovat na dočasný soubor
Dočasné soubory
pro každý zdroj dat je jeden soubor, tyto soubory se poté slučují do jednoho
Místo přípravy dat
soubory ve formátu vhodném pro nahrávání do datového skladu
relační DB (jednodušší manipulace s daty) Zdrojová data Externí
Archivní Interní Produkční Místo
přípravy dat Management & Správa Dočasné
soubory Relační DB,
soubory TRANSFORMACE DAT EXTRAKCE DAT PŘÍPRAVA DAT Metadata Získání dat – technická architektura Získání dat – funkce a služby Extrakce dat
nalezení zdrojů dat, „filtrování“ jednotlivých zdrojů
generování dočasných souborů s daty
transport souborů z různých platforem
přeformátování vstupů z vnějších zdrojů, popř. z jednotlivých databází v rámci podniku
generování aplikačního kódu pro extrakci dat
řešení nekonzistencí mezi jednotlivými zdroji dat Získání dat – funkce a služby Transformace dat
mapování vstupních dat na data v datovém skladu
čištění dat, odstranění duplicit, sloučení dat
denormalizace dat ze vstupních relačních DB, dle požadavků datového skladu
konverze datových typů
výpočet a odvození hodnot atributů
kontrola referenční integrity
shromažďování dat dle potřeby
vyřešení chybějících hodnot Získání dat – funkce a služby Příprava dat
záloha dat a zotavení z chyb databáze
řazení a slučování souborů
vytvoření nového souboru při změně dimenzí
vytvoření záznamu o přiřazení jednotlivých datových položek datového skladu k souboru
vytvoření primárních a cizích klíčů pro nahrávaná data Uložení dat – technická architektura Uložení dat
většinou se využívá relačních databází
datový sklad
většinou se vychází z E-R modelu
datové trhy
většinou se vychází z dimenzionálního modelu
Data z místa přípravy dat
soubory nebo tabulky pro iniciální, popř. inkrementální nahrávání dat Management & Správa Datový
sklad (DBMS) Datové trhy Uložení dat Místo
přípravy dat Metadata Metadata Relační DB
(E-R model) Relační DB
(dimenzionální
model) BEZPEČNOST ARCHIVACE DAT ZÁLOHA/
ZOTAVENÍ INKREMENTÁLNÍ /
INICIÁLNÍ NAHRÁVÁNÍ Uložení dat – technická architektura Uložení dat – funkce a služby Mnohé funkce z oblasti získání dat
Nahrání dat pro iniciální naplnění datového skladu
Podpora nahrávání dat do více tabulek na detailní a sumarizační úrovni
Optimalizace procesu nahrávání dat
Záloha dat a zotavení při chybách
Bezpečnost dat
Monitorování a nastavování databáze
Periodická archivace dat v databázi na základě nastavení Získání informací – technická architektura Dočasné uložení dat
dočasné úložiště pro uložení výsledků dotazů a sestav pro pozdější užití
uložení dat pro standardní sestavy
účelová vícedimenzionální databáze
Umístění služeb
na serveru
na uživatelských PC
na straně databázového serveru
Multi-
dimenz.
DB
Data Mining OLAP Reports/Dotazy Předání informace Multi-
dimenz.
DB Dočasné
„Result
sets“ Standardní
uložení
sestav ZPRACOVÁNÍ DOTAZŮ OPTIMALIZACE DOTAZŮ PROCHÁZENÍ OBSAHU KONTROLA BEZPEČNOSTI Získání informací – technická architektura Získání informací – funkce a služby Poskytnutí bezpečnosti přístupu k informacím
Monitorování přístupu uživatelů pro účely budoucího vylepšování
Umožnění uživateli procházet data datového skladu
Zjednodušení přístupu skrytím interních záležitostí
Automatické přeformátování dotazů pro optimální spuštění
Možnost uložení získaných dat pro pozdější užití
Možnost triggerů pro monitorování získávání dat
Poskytnutí komplexní analýzy OLAP
Umožnění přenosu dat pro systémy marketingového rozhodování a data mining
Zpracování uživatelských dotazů Sestavy Dotazy Analýza Aplikace Klasické DB Datové sklady Předdefinované
sestavy v aplikaci. Pouze zřídka uživatelské sestavy. Uživatelem řízené sestavy.
Lehce dostupné formáty sestav. Uživatelem řízené dotazy. Lehce dostupné šablony dotazů. Kontrolované, velmi omezené předdefinované dotazy. Žádné ad hoc dotazy. Komplexní dotazy, dlouhé interaktivní analýzy. Ukládání result sets. Rychlé zpracování. Žádné složité dotazy, žádná interaktivní analýza. Běžný přenos dat do aplikací pro podporu rozhodování. Zřídka přenos do aplikací pro
podporu rozhodování.
Pouze do jiných
DB systémů. Nástroje pro zobrazení informací Nástroje pro zobrazení informací – Dotazy Formulace dotazu a jeho výsledky jsou poskytovány na klientském počítači
Definice dotazu (obchodní požadavky -> syntax dotazu)
Zjednodušení dotazu (pro uživatele…)
Přepracování dotazu (z hlediska efektivity)
Infrastruktura Zahrnuje funkční elementy potřebné k tomu, aby byla architektura implementována
Operační infrastruktura
Lidé potřební pro údržbu datového skladu, procedury, školení, SW pro správu
Fyzická infrastruktura
HW prostředky, operační systémy, databázové systémy, síťový software Získání dat Uložení dat Získání informací Zdrojové
systémy Extrakce Transformace Zajištění kvality Datové modelování Nahrávání dat Nahrávání obrazu dat OLAP Tvorba
sestav Data Mining Upozorňování Aplikace pro podporu
rozhodování Správa datového skladu Správa propojení SW nástroje pro datový sklad SW nástroje pro datový sklad Datové modelování
vytvoření a správa datových modelů pro zdrojová data, datový sklad, popř. místo přípravy dat
podpora pro generování kódu schématu databáze
generování datového modelu ze slovníku dat zdrojové databáze
dimenzionální modelování pro hvězdicové schéma
Extrakce dat
extrakce dat pro iniciální nebo inkrementální nahrávání dat
výběr nástroje závisí především na vstupních datech SW nástroje pro datový sklad Transformace dat
transformace dat do požadované formy
poskytnutí implicitních hodnot dle specifikace
operace: rozdělení polí, standardizace, zrušení duplicit...
Nahrávání dat
nahrání upravených dat do datového skladu ve formě datových obrázků
Vytvoření primárních klíčů pro přenášené tabulky
Zajištění kvality dat
asistence při nalezení a odstranění chyb
řešení datových nekonzistencí v datových obrázcích
lze použít v místě přípravy dat nebo ve zdrojových datech SW nástroje pro datový sklad Dotazy a sestavy
vytvoření grafických a sofistikovaných sestav
pomoc při vytváření a spouštění dotazů
OLAP
spuštění komplexních dimenzionálních dotazů
umožnění vytvořit připravené dotazy
MOLAP/ROLAP
Systémy pro upozorňování
zpracování uživatelských upozornění založených na definovaných výjimkách
upozornění z datového skladu pro potřeby rozhodování SW nástroje pro datový sklad Správa propojení
transparentní přístup ke zdrojovým datům v heterogenním prostředí
transparentní přístup k různým typům dat
spravuje propojení všech částí datového skladu
Správa datového skladu
asistence pro administrátora při každodenních operacích
zaměření se na nahrávací proces a jeho historii
zaměření se na uživatelské dotazy a jejich historii Provoz datového skladu Cíl: Manažeři by měli mít vždy přístup k aktuálním údajům
Správa a načítání dat tedy většinou probíhá v noci (etapa ETL, přepočet krychlí, vygenerování sestav…) Etapa ETL Operační prostředí Uživatelé OLAP Extrakce
Transformace
Zavedení DATOVÝ SKLAD Příprava údajů – etapa ETL Klíčová úloha správy datového skladu
ETL = Extraction, Transformation, Loading Etapa ETL Extrakce – výběr dat různými metodami
Transformace – ověření, čištění, integrace a časové označení dat
Loading – přesun dat do datového skladu
Hlavní cíl: centralizace údajů
Nutné především proto, aby v datovém skladu byla dostatečně kvalitní data
Nikdy nekončící proces (neustále nutnost aktualizovat). Hlavní úkoly ETL procesu Určit data, která mají být uložena v datovém skladu
Určit zdroje dat, interní i externí
Příprava mapování mezi zdrojovými a cílovými daty
Stanovení pravidel pro extrakci dat
Určit pravidla pro transformaci a čištění dat
Plán pro agregaci tabulek
Návrh oblasti přípravy dat
Napsat procedury pro nahrávání dat
ETL pro tabulky dimenzí a faktů Oblast přípravy dat Mezistupeň mezi vstupní databází a datovým skladem
Dvě možnosti, kde provádět etapu ETL
Lokální vynášení: Transformace se provádí ve vstupní databázi a pak se data přenáší do cílové databáze
Vzdálené vynášení: Původní data se nejprve přenesou a jsou transformována v oblasti přípravy dat Extrakce Zdroj: Data z nehomogenního operačního prostředí, popř. z archivních dat
Různé možnosti extrakce
Periodická extrakce – z interních zdrojů
Občasná extrakce – z externích zdrojů (např. Internet)
První extrakce – provádí se především z archivních dat
Existují různé nástroje pro extrakci… Extrakce - součásti procesu Identifikace zdrojů (struktury a aplikace)
Stanovení metody extrakce pro každý zdroj
manuální – napíši si sám SQL příkazy
s využitím nástrojů
Frekvence extrakcí pro každý zdroj – většinou se liší pro různé zdroje
Stanovení časového okna pro extrakci – kdy ji provádět
Paralelní vs. sériová extrakce pro jednotlivé zdroje dat
Zpracování výjimek při extrakci Extrakce – identifikace zdrojů (postup) Výpis všech datových položek potřebných v tabulce faktů
Výpis všech dimenzí
Pro každou cílovou položku najdi zdroj a jeho položku
Je-li více zdrojů pro jednu cílovou položku, vyber preferovaný zdroj
Identifikace vícenásobných zdrojů pro jeden cíl – stanovení konsolidačních pravidel
Identifikace vícenásobných cílů na jeden zdroj – stanovení dělících pravidel
Určení implicitních hodnot
Zjištění chybějících hodnot ve zdrojových datech Extrakce – metody extrakce Metoda extrakce statických dat
Vytvoření obrazu zdrojové databáze na výstupu
Používá se při iniciálním nahrávání dat do skladu
Metody extrakce při aktualizaci dat
Metody přímé extrakce
Metody odložené extrakce Extrakce – metody přímé extrakce Liší se způsobem zachycení změn v DB od posledního nahrání
Zachycení pomocí log souborů (vytvořených databází)
Zachycení pomocí databázových triggerů
Při každé změně se spustí trigger, který zapíše změnu do souboru
Zachycení pomocí samotných databázových aplikací
Editace aplikace tak, aby ukládala záznamy o provedených změnách v DB OPERAČNÍ
SYSTÉM Výstupní
soubory
triggerů log
soubory Oblast přípravy dat Zdrojová DB Zdrojová data Triggery SŘBD Zachycení
pomocí
log souborů Zachycení
pomocí
DB triggerů Zachycení
pomocí
DB aplikací Soubory
generované
aplikací Extrakce – metody přímé extrakce Extrakce – metody odložené extrakce Nezachycují změny při jejich vzniku, ale až při nahrávání se porovnává zdrojová a cílová DB
Zachycení pomocí časových razítek
Razítky jsou označeny záznamy, které byly přidány nebo editovány – ty se pak při nahrávání dat naleznou (problém s mazáním)
Zachycení pomocí porovnávání souborů
Vytvoří se soubor s kopií dat ve stavu současném a včerejším, pak se soubory porovnají (velmi neefektivní) OPERAČNÍ
SYSTÉM Soubory
získané
porovnáním Dnešní
stav Oblast přípravy dat Zdrojová DB Zdrojová data SŘBD Zachycení
pomocí
porovnávání souborů Zachycení
pomocí
časových razítek Soubory
získané z
razítek Programy pro
extrakci Včerejší
stav Programy pro
porovnání Extrakce – metody odložené extrakce Transformace Cílem je zvýšit kvalitu vstupních dat a zvýšit jejich použitelnost pro cílového uživatele
Někdy je kvalita vstupních dat velmi proměnlivá -> čištění dat (odstranění nekvalitních dat)
Např. atribut Adresa – 3 vs. 1 hodnota
Často je potřeba odstranit tzv. „anomálie“, které v klasických databázích běžně vznikají Transformace (II.) Příklady anomálií:
Přechod z MS-DOSu na Windows – např. kódování češtiny
Lidský faktor – různé překlepy, pravopisné chyby
Potřeba rozdělení složených atributů na atomické Transformace – časté problémy Nejednoznačnost údajů
Např. různě uložená informace o pohlaví zákazníka (M, muž, Muž atd…)
Chybějící hodnoty
Tyto hodnoty je potřeba doplnit, popř. ignorovat nebo označit nějakým příznakem
Duplicitní hodnoty
Většinou není příliš velký problém je odstranit, někdy je to však časově náročné Transformace – časté problémy Konvence názvů pojmů a objektů
je nutné sjednotit terminologii požívanou různými zdroji dat
Různé peněžní měny
problém vznikne např. při přechodu z CZK na Euro
Formáty čísel a textových řetězců
použití různých datových typů pro ukládání čísel (např. řetězce) Transformace – časté problémy Referenční integrita
Neustálé změny v reálném světě zkreslují data – např. i po zrušení oddělení firmy zůstanou v DB údaje o jeho zaměstnancích
Chybějící datum
Časový aspekt je v datových skladech velmi důležitý, ve vstupních datech však čas často chybí – často je nutné jej doplnit Transformace dat – typické úkoly Selekce
Výběr vhodných atributů pro cílový sklad
Rozdělování/spojování
Rozdělení záznamu (datum…), spojování více záznamů z různých zdrojů
Konverze
konverze záznamů (standardizace různých zdrojů, lepší použitelnost a srozumitelnost)
Sumarizace
místo detailních dat je vhodnější je sumarizovat
Obohacení
vytvoření lepšího pohledu na data na základě různých zdrojů Hlavní typy transformace Revize formátu dat
Pro tentýž atribut mohou být hodnoty např. ukládány numericky nebo jako řetězce
Dekódování polí
Různé kódování např. pohlaví…
Výpočet odvozených polí (sumarizace)
Rozdělení polí na části
datum, jméno a příjmení
Sloučení informací
Informace o jednom produktu mohou být ve více zdrojových tabulkách Hlavní typy transformace Konverze znakových sad
Konverze měrných jednotek
Konverze formátu data/času
Sumarizace
Restrukturalizace klíčů
V rámci datového skladu musí být jednotné
Deduplikace
Odstranění duplicitních řádků v tabulce způsobených především chybami… Přenos dat Přesun údajů a jejich uložení do tabulek datového skladu
Pokud možno by měl probíhat automatizovaně
Rozlišujeme podle periody přesunů…
to závisí především na požadavcích aplikace
většinou jde o časově náročnou operaci, především u iniciálního přenosu DATOVÝ
SKLAD Zdroje dat Roční aktualizace Čtvrtletní aktualizace Měsíční aktualizace Denní aktualizace Iniciální přenos dat Přenos dat do datového skladu Tři typy nahrávání dat Iniciální nahrávání
Nahrávání všech dat do prázdného skladu
Inkrementální nahrávání
promítnutí změn v DB do datového skladu (provádí se periodicky)
Přepis dat
kompletní smazání obsahu skladu a nahrání aktuálních dat Módy nahrávání dat Nahrání (Load)
Pokud cílová tabulka obsahuje data, pak jsou smazána a nahrazena aktuálními
Přidání (Append)
Přidání nových dat ke stávajícím, při duplicitě může uživatel zvolit další postup
Destruktivní sloučení
Stejné jako přidání, při stejných klíčích se přepíše hodnota daného řádku
Konstruktivní sloučení
Při stejných klíčích se přidá nový prvek a označí se jako nový, starý v datovém skladu zůstane Refresh vs. Update Problémy fáze ETL Je nutné zkontrolovat správnost dat v datovém skladu
Dochází k chybám na HDD, výpadkům spojení
Problémy mohou vzniknout při změně formátu vstupních dat EXTRAKCE DAT
Extrakce z heterogenních
a vnějších zdrojů dat TRANSFORMACE DAT
Konverze a změna struktury
dat, podle transformačních
pravidel INTEGRACE DAT
Kombinace dat z různých
zdrojů, založeno na principu
mapování zdrojů a cílů ČIŠTĚNÍ DAT
Zlepšení kvality dat na základě
čistících pravidel SUMARIZACE DAT
Vytvoření agregací dat,
založeno na předdefinovaných
procedurách INICIÁLNÍ NAHRÁNÍ DAT
Natáhnutí velkého objemu
vstupních dat do datového
skladu DALŠÍ NAHRÁVÁNÍ
Periodická aktualizace dat
v datovém skladu AKTUALIZACE METADAT
Ukládání a používání metadat
při každé z fází ETL Shrnutí fáze ETL Základní tabulka Index pro Region Index pro Typ Indexování multidimenzionálních dat Jeden index pro každou tabulku
Každá hodnota atributu má bitový vektor: bitové operace jsou rychlé
Délka bitového vektoru: počet záznamů v základní tabulce
i-tý bit je nastaven,jestliže i-tý řádek základní tabulky má hodnotu indexovaného sloupce
Není vhodné pro domény s vysokou kardinalitou Příklad Návrh datového skladu Volba schématu datového skladu
Návrh celkové struktury datového skladu
Návrh dimenzí
Návrh tabulky faktů
Návrh transformací vstupních dat na data výstupního datového skladu Volba schématu datového skladu Schéma hvězdy x schéma sněhové vločky Zákazník Čas Produkt Návrh celkové struktury datového skladu all Česká rep. Německo Bayern JM kraj OL kraj München M. Werner L. Müller ... ... ... Prostějov ... ... all country customer region Passau Olomouc city Návrh jednotlivých dimenzí Dimenze zákazníků all Elektronika Nábytek Židle DVD Rec. TV ... ... ... Category Product all Návrh jednotlivých dimenzí Dimenze produktů den.měsíc.rok all 2001 2006 1.Q. 4.Q 1.Q. Leden ... ... ... Březen ... ... Březen Leden 1.3. 31.3. all Year Day Quarter Month Návrh jednotlivých dimenzí Časová dimenze Návrh tabulky faktů Měrné jednotky
Množs
Vloženo: 28.04.2009
Velikost: 4,53 MB
Komentáře
Tento materiál neobsahuje žádné komentáře.
Mohlo by tě zajímat:
Skupina předmětu DS_2 - Datové sklady
Reference vyučujících předmětu DS_2 - Datové sklady
Podobné materiály
- KA - Knihovnické aplikace - Soubor přednášek z KA
- ZPC - Základy PC - Soubor přednášek
- AP_1 - Algoritmizace a programovací techniky - Soubor přednášek
- I1 - Informatika 1 - Zápisky ze cvik a přednášek
- VM - Výpočetní metody - výpisky z přednášek
- DS_2 - Datové sklady - Výtah z přednášek
- Bmak1P - Makroekonomie 1 - Makro - výpisky z přednášek a skript
- Bep1P - Ekonomika podniku 1 - výtah z přednášek
- RPV - Řízení projektů vývoje IT/IS - Vypracované otázky k testu
- VF - Veřejné finance - Jedna z variant testu u zkoušky
- ZF - Základy financování - Ofocené varianty testu
- ZM2 - Parametrické modelování - Pro/Engineer - 50 otázek z testu
- ZM2 - Parametrické modelování - Pro/Engineer - 50.Otázek z testu 2
- MIK - Mikroekonomie - Opakování ekonomických pojmů (řešení testu)
- OcccP - Cross cultural communication - Otázky z testu
Copyright 2024 unium.cz