- Stahuj zápisky z přednášek a ostatní studijní materiály
- Zapisuj si jen kvalitní vyučující (obsáhlá databáze referencí)
- Nastav si své předměty a buď stále v obraze
- Zapoj se svojí aktivitou do soutěže o ceny
- Založ si svůj profil, aby tě tví spolužáci mohli najít
- Najdi své přátele podle místa kde bydlíš nebo školy kterou studuješ
- Diskutuj ve skupinách o tématech, které tě zajímají
Studijní materiály
Zjednodušená ukázka:
Stáhnout celý tento materiáltazy
Možnost integrovat data z více aplikací
Častá operace čtení z databáze
Interaktivní, jednoduché a dlouhodobé využití bez nutnosti výpomoci IT odborníků
Nahrání dat po určité časové periodě
Možnost využití současných i historických dat
Možnost spustit dotaz a získat výsledek on-line
Možnost získat libovolnou tiskovou sestavu
Datový sklad: Použité technologie
Datový sklad je prostředí, které využívá velké množství technologií…
Datové sklady – příklady použití
Maloobchod
věrnost zákazníků
marketing
Bankovnictví
detekce podvodů
odhad rizik
Aerolinie
výdělečnost linek
správa zisků
Výroba
redukce cen
správa logistiky
Služby
správa majetku
správa prostředků
Vláda
kontrola cen
plánování lidských zdrojů
Datový sklad – základní schéma
Součásti datového skladu
Zdrojová data
Produkční data
Data získaná z různých operačních DB podniku pomocí jednoznačných dotazů
Interní data
Data uložená v privátních souborech (zpravidla XLS) zaměstnanců organizace
Archivní data
Jeden ze základních předpokladů úspěšné analýzy – jde většinou o velká kvanta dat
Externí data
Data z různých zdrojů, která mohou být pro organizaci užitečná
Místo přípravy dat
Místo, kde probíhá tzv. příprava údajů – fáze ETL (mezistupeň mezi vstupními daty a datovým skladem)
Může být i součástí datového skladu
Místo speciálně k tomuto účelu určené
Extrakce, Transformace, Loading
Výsledkem jsou data, která jsou připravena pro analýzu a je možné je uložit do datového skladu
Uložení dat
Jde o oddělené „skladiště“ pro uložení velkého množství především historických dat
Je navrženo pro analýzu, ne pro rychlý přístup k datům
Jsou většinou pro uživatele „read-only“, s výjimkou administrátora
Musí být přístupná pro více druhů nástrojů – odpovídající rozhraní
Předání informace
Poskytuje informace pro různé uživatele
Začínající uživatelé: tiskové sestavy, jednoduché dotazy
Běžní uživatelé: statistická analýza, různá zobrazení dat, předdefinované dotazy
Pokročilí uživatelé: provádí multidimenzionální analýzu, formuluje vlastní OLAP dotazy, používá exekutivní IS (data mining…)
Předání informace (schéma)
Složka managementu a správy
Je nadřazena všem ostatním součástem datového skladu
Slouží ke koordinaci jednotlivých složek datového skladu
K běhu datového skladu používá informace uložené v metadatech
Zpravidla je spravováno administrátorem
Nejdůležitější funkce
monitoring všech operací s datovým skladem
ošetření a zotavení po chybách
extrakce dat ze zdroje pro účely aktualizace datového skladu
kontrola správnosti transformace dat
zajištění správné funkce při získávání informací
zajištění bezpečnosti dat a autorizace uživatelů
Metadata
Uchovává následující „data popisující data“
informace o datových strukturách, souborech, adresách atd. (datový slovník)
informace o datech v databázi (katalog)
Jedna z klíčových částí datového skladu
Typy metadat
Operační metadata
obsahují informace o všech zdrojích dat pro datový sklad (struktura, umístění atd.)
Metadata o extrakci a transformaci
informace o tom, jaké metody byly použity při ETL fázi, různá omezení apod.
Metadata pro koncového uživatele
informace o datovém skladu a datech v něm, další obchodní a jiné informace, které může využít pro analýzu (Zlaté stránky…)
Obsah metadat
Metadata jsou data popisující objekty datového skladu. Je zde uloženo:
Popis struktury datového skladu
schéma, dimenze, hierarchie, umístění a obsah datových trhů
Operační metadata
historie (původ) dat, monitorovací informace (statistiky, chyby apod.), stav dat (archivní, aktuální)
Algoritmy používané pro sumarizaci
Mapování z operačního prostředí do datového skladu
Data týkající se činnosti systému
schéma skladu, odvozená data
Obchodní data
Definice obchodních pojmů, vlastníci dat …
Fakta a dimenze
Každá datová kostka obsahuje 2 typy údajů – fakta a dimenze
FAKTA
Největší tabulka v DB, zpravidla jen jedna
Obsahuje numerické měrné jednotky obchodování
V kombinaci s tabulkami dimenzí tvoří určitá schémata
DIMENZE
logicky nebo hierarchicky uspořádané údaje
textové popisy obchodování
jsou menší a nemění se tak často
nejčastěji: časové, geografické a produktové dimenze (stromové struktury)
Schémata tabulek dimenzí
Schéma hvězdy (Star schema)
Tabulka faktů obsahuje cizí klíče do tabulky dimenzí, ty se vztahují k jejím primárním klíčům
Snadno pochopitelné
Tabulky dimenzí jsou však nejsou normalizované, je to tedy poměrně pomalé
Hvězdicové schéma - příklad
¨
2. Architektura, etapa ETL
Celková architektura – Tři hlavní oblasti
Získání dat
Zdrojová data + místo přípravy dat
Uložení dat
Datový sklad + datové trhy + uložení metadat
Získání informací
Multidimenzionální databáze + samotné získání informací (OLAP, data mining, tiskové sestavy atd.)
Získání dat – technická architektura
Zdroje dat
většinou relační DB, pro přenos do místa přípravy nutno konvertovat na dočasný soubor
Dočasné soubory
pro každý zdroj dat je jeden soubor, tyto soubory se poté slučují do jednoho
Místo přípravy dat
soubory ve formátu vhodném pro nahrávání do datového skladu
relační DB (jednodušší manipulace s daty)
Získání dat – funkce a služby
Extrakce dat
nalezení zdrojů dat, „filtrování“ jednotlivých zdrojů
generování dočasných souborů s daty
transport souborů z různých platforem
přeformátování vstupů z vnějších zdrojů, popř. z jednotlivých databází v rámci podniku
generování aplikačního kódu pro extrakci dat
řešení nekonzistencí mezi jednotlivými zdroji dat
Transformace dat
mapování vstupních dat na data v datovém skladu
čištění dat, odstranění duplicit, sloučení dat
denormalizace dat ze vstupních relačních DB, dle požadavků datového skladu
konverze datových typů
výpočet a odvození hodnot atributů
kontrola referenční integrity
shromažďování dat dle potřeby
vyřešení chybějících hodnot
Příprava dat
záloha dat a zotavení z chyb databáze
řazení a slučování souborů
vytvoření nového souboru při změně dimenzí
vytvoření záznamu o přiřazení jednotlivých datových položek datového skladu k souboru
vytvoření primárních a cizích klíčů pro nahrávaná data
Uložení dat – technická architektura
Uložení dat
většinou se využívá relačních databází
datový sklad
většinou se vychází z E-R modelu
datové trhy
většinou se vychází z dimenzionálního modelu
Data z místa přípravy dat
soubory nebo tabulky pro iniciální, popř. inkrementální nahrávání dat
Uložení dat – funkce a služby
Mnohé funkce z oblasti získání dat
Nahrání dat pro iniciální naplnění datového skladu
Podpora nahrávání dat do více tabulek na detailní a sumarizační úrovni
Optimalizace procesu nahrávání dat
Záloha dat a zotavení při chybách
Bezpečnost dat
Monitorování a nastavování databáze
Periodická archivace dat v databázi na základě nastavení
Získání informací – technická architektura
Dočasné uložení dat
dočasné úložiště pro uložení výsledků dotazů a sestav pro pozdější užití
uložení dat pro standardní sestavy
účelová vícedimenzionální databáze
Umístění služeb
na serveru
na uživatelských PC
na straně databázového serveru
Získání informací – funkce a služby
Poskytnutí bezpečnosti přístupu k informacím
Monitorování přístupu uživatelů pro účely budoucího vylepšování
Umožnění uživateli procházet data datového skladu
Zjednodušení přístupu skrytím interních záležitostí
Automatické přeformátování dotazů pro optimální spuštění
Možnost uložení získaných dat pro pozdější užití
Možnost triggerů pro monitorování získávání dat
Poskytnutí komplexní analýzy OLAP
Umožnění přenosu dat pro systémy marketingového rozhodování a data mining
Zpracování uživatelských dotazů
Nástroje pro zobrazení informací
Nástroje pro zobrazení informací – Dotazy
Formulace dotazu a jeho výsledky jsou poskytovány na klientském počítači
Definice dotazu (obchodní požadavky -> syntax dotazu)
Zjednodušení dotazu (pro uživatele…)
Přepracování dotazu (z hlediska efektivity)
Infrastruktura
Zahrnuje funkční elementy potřebné k tomu, aby byla architektura implementována
Operační infrastruktura
Lidé potřební pro údržbu datového skladu, procedury, školení, SW pro správu
Fyzická infrastruktura
HW prostředky, operační systémy, databázové systémy, síťový software
SW nástroje pro datový sklad
Datové modelování
vytvoření a správa datových modelů pro zdrojová data, datový sklad, popř. místo přípravy dat
podpora pro generování kódu schématu databáze
generování datového modelu ze slovníku dat zdrojové databáze
dimenzionální modelování pro hvězdicové schéma
Extrakce dat
extrakce dat pro iniciální nebo inkrementální nahrávání dat
výběr nástroje závisí především na vstupních datech
Transformace dat
transformace dat do požadované formy
poskytnutí implicitních hodnot dle specifikace
operace: rozdělení polí, standardizace, zrušení duplicit...
Nahrávání dat
nahrání upravených dat do datového skladu ve formě datových obrázků
Vytvoření primárních klíčů pro přenášené tabulky
Zajištění kvality dat
asistence při nalezení a odstranění chyb
řešení datových nekonzistencí v datových obrázcích
lze použít v místě přípravy dat nebo ve zdrojových datech
Dotazy a sestavy
vytvoření grafických a sofistikovaných sestav
pomoc při vytváření a spouštění dotazů
OLAP
spuštění komplexních dimenzionálních dotazů
umožnění vytvořit připravené dotazy
MOLAP/ROLAP
Systémy pro upozorňování
zpracování uživatelských upozornění založených na definovaných výjimkách
upozornění z datového skladu pro potřeby rozhodování
Správa propojení
transparentní přístup ke zdrojovým datům v heterogenním prostředí
transparentní přístup k různým typům dat
spravuje propojení všech částí datového skladu
Správa datového skladu
asistence pro administrátora při každodenních operacích
zaměření se na nahrávací proces a jeho historii
zaměření se na uživatelské dotazy a jejich historii
Provoz datového skladu
Cíl: Manažeři by měli mít vždy přístup k aktuálním údajům
Správa a načítání dat tedy většinou probíhá v noci (etapa ETL, přepočet krychlí, vygenerování sestav…)
Etapa ETL
Příprava údajů – etapa ETL
Klíčová úloha správy datového skladu
ETL = Extraction, Transformation, Loading
Etapa ETL
Extrakce – výběr dat různými metodami
Transformace – ověření, čištění, integrace a časové označení dat
Loading – přesun dat do datového skladu
Hlavní cíl: centralizace údajů
Nutné především proto, aby v datovém skladu byla dostatečně kvalitní data
Nikdy nekončící proces (neustále nutnost aktualizovat).
Hlavní úkoly ETL procesu
Určit data, která mají být uložena v datovém skladu
Určit zdroje dat, interní i externí
Příprava mapování mezi zdrojovými a cílovými daty
Stanovení pravidel pro extrakci dat
Určit pravidla pro transformaci a čištění dat
Plán pro agregaci tabulek
Návrh oblasti přípravy dat
Napsat procedury pro nahrávání dat
ETL pro tabulky dimenzí a faktů
Oblast přípravy dat
Mezistupeň mezi vstupní databází a datovým skladem
Dvě možnosti, kde provádět etapu ETL
Lokální vynášení: Transformace se provádí ve vstupní databázi a pak se data přenáší do cílové databáze
Vzdálené vynášení: Původní data se nejprve přenesou a jsou transformována v oblasti přípravy dat
Extrakce
Zdroj: Data z nehomogenního operačního prostředí, popř. z archivních dat
Různé možnosti extrakce
Periodická extrakce – z interních zdrojů
Občasná extrakce – z externích zdrojů (např. Internet)
První extrakce – provádí se především z archivních dat
Existují různé nástroje pro extrakci…
Extrakce - součásti procesu
Identifikace zdrojů (struktury a aplikace)
Stanovení metody extrakce pro každý zdroj
manuální – napíši s
Vloženo: 28.04.2009
Velikost: 1,02 MB
Komentáře
Tento materiál neobsahuje žádné komentáře.
Mohlo by tě zajímat:
Skupina předmětu DS_2 - Datové sklady
Reference vyučujících předmětu DS_2 - Datové sklady
Podobné materiály
- ZF - Základy financování - Přednáška 1
- ZF - Základy financování - Přednáška 2 a 3
- ZM - Základy marketingu - Přednáška 1
- ZM - Základy marketingu - Přednáška 2
- VF - Veřejné finance - 1. přednáška - Úvod, Výklad základních pojmů
- VF - Veřejné finance - 2. přednáška - Specifikum rozhodován ve veřejném sektoru, Veřejná volba
- VF - Veřejné finance - 3. přednáška - Kořeny a vývoj teorie veřejných financí
- VF - Veřejné finance - 4.přednáška - Příjmy veřejných rozpočtů
- VF - Veřejné finance - 5. přednáška - Veřejné výdaje
- VF - Veřejné finance - 6. přednáška - Základy daňové teorie
- VF - Veřejné finance - 7. přednáška - Sociální politika a sociální zabezpečení
- VF - Veřejné finance - 8. přednáška - Fiskální federalismus
- VF - Veřejné finance - 9. přednáška - Rozpočtová soustava v ČR, Státní rozpočet ČR
- VF - Veřejné finance - 10. přednáška - Fiskální politika státu
- VF - Veřejné finance - 11. přednáška - Rozpočtový deficit a veřejný dluh
- VF - Veřejné finance - 12. přednáška - Etika veřejných financí, Etika ve veřejném sektoru
- I1 - Informatika 1 - přednáška - Důležité funkce v excelu
- I1 - Informatika 1 - Úvodní přednáška
- ZK - Základy komunikace - 1. a 2. přednáška
- I1 - Informatika 1 - přednáška
- I1 - Informatika 1 - přednáška
- I1 - Informatika 1 - přednáška
- I1 - Informatika 1 - přednáška
- I1 - Informatika 1 - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - ppřednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- MAK - Makroekonomie - přednáška
- MAK - Makroekonomie - přednáška
- MAK - Makroekonomie - přednáška
- MAK - Makroekonomie - přednáška
- MAK - Makroekonomie - přednáška
- OOPP - Občanské, obchodní a pracovní právo - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- ZK - Základy komunikace - přednáška
- ZK - Základy komunikace - přednáška
- VF - Veřejné finance - přednáška
- ZK - Základy komunikace - přednáška
- ZK - Základy komunikace - přednáška
- Bep1P - Ekonomika podniku 1 - přednáška
- Bep1P - Ekonomika podniku 1 - přednáška 2
- Bep1P - Ekonomika podniku 1 - přednáška 3
- Bep1P - Ekonomika podniku 1 - přednáška 4
- Bep1P - Ekonomika podniku 1 - přednáška 7
- Bep1P - Ekonomika podniku 1 - přednáška 8
- Bep1P - Ekonomika podniku 1 - přednáška 2
- Bep1P - Ekonomika podniku 1 - přednáška číslo 1
- Bep1P - Ekonomika podniku 1 - přednáška č.2
- Bep1P - Ekonomika podniku 1 - přednáška č. 3
- Bep1P - Ekonomika podniku 1 - přednáška č. 4
- KipeP - Informatika pro ekonomy - přednáška č. 1
- Kep1P - Ekonomika Podniku - přednáška 1
- Kep1P - Ekonomika Podniku - přednáška 2
- Kep1P - Ekonomika Podniku - Přednáška 3
- Kep1P - Ekonomika Podniku - přednáška 4
- Kep1P - Ekonomika Podniku - přednáška 5
- Kep1P - Ekonomika Podniku - přednáška 7
- Kep1P - Ekonomika Podniku - přednáška 6
- Kspkm - Sociálně-psychologické kompetence manažera - přednáška
- Kspkm - Sociálně-psychologické kompetence manažera - přednáška
- Kspkm - Sociálně-psychologické kompetence manažera - přednáška
- Kspkm - Sociálně-psychologické kompetence manažera - přednáška
- KfpP - Finance podniku - přednáška 1
- KfpP - Finance podniku - přednáška 2
- KfpP - Finance podniku - přednáška 3
- KfpP - Finance podniku - přednáška 4
- KfpP - Finance podniku - přednáška 5
- KfpP - Finance podniku - přednáška 7
- KfpP - Finance podniku - přednáška 8
- KfpP - Finance podniku - přednáška 9
- KstatP - Statistika - 1. přednáška
- KstatP - Statistika - 2. přednáška
- KstatP - Statistika - 3. přednáška
- KstatP - Statistika - 4.přednáška
- KstatP - Statistika - 5. přednáška
- KstatP - Statistika - 6. přednáška
- KstatP - Statistika - 7.přednáška
- KstatP - Statistika - 8.přednáška
- ZF - Základy financování - Všechny přednášky ve wordu
- RPV - Řízení projektů vývoje IT/IS - Přednášky předělané do wordu
Copyright 2023 unium.cz. Abychom mohli web rozvíjet a dále vylepšovat podle preferencí uživatelů, shromažďujeme statistiky o návštěvnosti, a to pomocí Google Analytics a Netmonitor. Tyto systémy pro unium.cz zaznamenávají, které stránky uživatel na webové stránce navštívil, odkud se na stránku dostal, kam z ní odešel, jaké používá zařízení, operační systém či prohlížeč, či jaký má preferenční jazyk. Statistiky jsou anonymní, takže unium.cz nezná identitu návštěvníka a spravuje cookies tak, že neumožňuje identifikovat konkrétní osoby. Používáním webu vyjadřujete souhlas použitím cookies a následujících služeb: