- Stahuj zápisky z přednášek a ostatní studijní materiály
- Zapisuj si jen kvalitní vyučující (obsáhlá databáze referencí)
- Nastav si své předměty a buď stále v obraze
- Zapoj se svojí aktivitou do soutěže o ceny
- Založ si svůj profil, aby tě tví spolužáci mohli najít
- Najdi své přátele podle místa kde bydlíš nebo školy kterou studuješ
- Diskutuj ve skupinách o tématech, které tě zajímají
Studijní materiály
Zjednodušená ukázka:
Stáhnout celý tento materiálDatové sklady
Osnova předmětu
Úvod do databázových technologií – zopakování relačních databází
Úvod do problematiky datových skladů
Budování datového skladu – ETL fáze, struktura datového skladu
Analýza OLAP
Získávání znalostí z dat (data mining)
Projektování datového skladu
Trendy datových skladů
Umístění přednášek
http://www.fit.vutbr.cz/~bartik/prednasky.zip
Ing. Vladimír Bartík, Ph.D.
1. Úvod
Relační databáze
Údaje jsou uloženy ve dvourozměrných tabulkách
Každý řádek tabulky má svůj identifikátor
Struktura relačních dat
Relační tabulka - definice
Relace na doménách D1, D2, ... , Dn je dvojice R = (R, R*), kde R = R(A1:D1, A2:D2, ... An:Dn ) je schéma relace a R* ⊆ D1 x D2 x ... x Dn je tělo relace. Schéma relace zapisujeme často zjednodušeně ve tvaru R(A1, A2, ... ,An). Počet atributů n relace se označuje stupeň (řád) relace, kardinalita těla relace m = |R*| se označuje kardinalita relace.
Atribut relace ~ sloupec tabulky, n-tice relace ~ řádek tabulky
Vlastnosti relace (v teorii relačního modelu):
Neexistují duplicitní n-tice,
n-tice jsou neuspořádané
Hodnoty jednoduchých atributů jsou atomické – relace je tzv.normalizovaná.
Relační databáze – integritní omezení
Omezení plynoucí z reality reprezentované daty v databázi
Primární klíč – jednoznačný identifikátor každého záznamu tabulky
Atribut k relace R se nazývá kandidátním klíčem, když má tyto dvě časově nezávislé vlastnosti:
jednoznačnost
minimalita (neredukovatelnost).
Primárním klíčem je jeden z kandidátních klíčů (vybraný), zbývající kandidátní klíče se nazývají alternativní (někdy také sekundární).
Cizí klíč
Atribut FK bázové relace R2 se nazývá cizí klíč, právě když splňuje tyto časově nezávislé vlastnosti:
Každá hodnota FK je buď plně zadaná nebo plně nezadaná.
Existuje relace R1 s kandidátním klíčem CK takovým, že každá zadaná hodnota FK je identická s hodnotou CK nějaké n-tice relace R1.
Soulad hodnot cizích a primárních klíčů představuje vztahy mezi řádky tabulek ("drží databázi pohromadě")
Relační databáze – jazyk SQL nejčastější operace
CREATE TABLE
CREATE TABLE jm_bázové_tabulky
(def_sloupce, …
[definice_integritních_omezení_tabulky])
Definice sloupce
jméno_sloupce typ [impl_hodnota] [seznam_io_sloupce]
Definice integritních omezení
PRIMARY KEY (jm_sloupce, …)
UNIQUE (jm_sloupce, …)
FOREIGN KEY (jm_sloupce, …) REFERENCES
tabulka [(jm_sloupce, …)] [událost ref_akce]
CHECK (podmíněný_výraz)
ALTER TABLE (změna tabulky)
ALTER TABLE jm_bázové_tabulky akce
akce - přidání (ADD), zrušení (DROP) sloupce, změna implicitní hodnoty (ALTER) přidání (ADD), zrušení (DROP) i.o. pro tabulku
DROP TABLE (zrušení tabulky)
DROP TABLE jm_bázové_tabulky
Příkaz SELECT
SELECT [ALL|DISTINCT] položka [[AS] alias_sl], …
FROM tabulkový_výraz [[AS] [alias_tab]], …
[WHERE podmínka]
[GROUP BY jm_sloupce_z_FROM|číslo, …]
[HAVING podmínka]
[ORDER BY jm_sloupce_z_SELECT|číslo [ASC|DESC]], …
Vkládání řádků (INSERT)
INSERT INTO jm_tabulky [(jm_sloupce, …)]
VALUES(skalární_výraz|NULL|DEFAULT, …)
Rušení řádků (DELETE)
DELETE FROM jm_tabulky
[WHERE podmínka]
Aktualizace řádků (UPDATE)
UPDATE jm_tabulky
SET jm_sloupce = výraz|NULL|DEFAULT, …
[WHERE podmínka]
Relační databáze – spojení tabulek
Relační databáze – agregační funkce
Relační databáze - pohledy
Pojmenované virtuální tabulky
CREATE VIEW jm_pohledu [( AS tab_výraz
[WITH CHECK OPTION]
Proč datové sklady?
Obrovské množství nashromážděných dat v databázích
Př.: supermarkety, banky, cestovní společnosti
Potřeba získávat z těchto dat strategické informace (znalosti), které v nich nejsou explicitně uvedeny
Potřeba učinit rozhodnutí na základě těchto dat
Př.: Reklamní kampaň, rozmístění zboží apod.
Data warehousing
Proces konstrukce a využívání datových skladů
Strategické informace - znaky
Integrovanost
Souhrnný (globální) pohled na data z pohledu celého podniku
Integrita dat
Musí být přesná, konzistentní a vyhovovat požadavkům obchodu
Přístupnost
Intuitivní přístup k datům, reakce na analýzu (uživatelské rozhraní, rychlost…)
Věrohodnost
Každý obchodní činitel musí mít právě jednu hodnotu (např. cena …)
Aktuálnost
Informace musí být přístupná ve vyhrazeném časovém rámci (aktualizace dat)
Business Intelligence
Proces transformace údajů na informace a převod informací na poznatky pro koncového uživatele
Vstup: velké objemy dat
Výstup: dosud neznámé poznatky, které lze využít v procesu rozhodování
Prostředky BI:
Datové sklady (data warehouses)
Analýza OLAP (On-line Analytical Processing)
Data Mining (Získávání (dolování) znalostí z dat)
Historie BI
do 80. let – databázové reporty v papírové podobě (ne BI)
1980-1990 – tabulkové procesory (Excel…) – zpracování omezeného objemu dat, omezené funkce
od 90. let – éra Business Intelligence – analytické servery, datové sklady, podpora pro data mining – podpora pro komplexní analýzu
Nevhodnost běžných databází
Slouží především pro ukládání údajů
Výsledkem dotazování jsou především tabulky s daty explicitně uvedenými v databázi
Jsou výhodné především pro jednoduché transakce (vkládání, mazání…), naopak velmi nevýhodné pro složitější analýzu
Nevhodnost běžných OLTP databází
OLTP = On-Line Transaction Processing (databáze zaměřená na transakce)
Decentralizovanost systémů OLTP
Data jsou většinou uložena v různých DB na různých místech, není většinou k dispozici integrovaný zdroj údajů a je velmi složité tato data integrovat
Nehomogenní struktura údajů – různé názvy, datové typy…
Vysoká náročnost těchto analýz
Nevhodnost běžných databází
Výsledky analýzy těchto dat nejsou příliš vhodné
Obtížné hledání závislostí mezi jednotlivými veličinami
Velmi rozsáhlé výstupy
Degradace výpočetního výkonu databázového stroje – neustále se opakující stejné výpočty
Nejsou uchovávány historické údaje – uchovává zpravidla aktuální data
Je potřeba spolupráce analytika s databázovým odborníkem – nástroje nejsou dostatečně intuitivní
Multidimenzionální databáze
Slouží jako podklad pro získání sumarizovaných a agregovaných údajů
Některé výpočty, které by se opakovaně prováděly, jsou spočteny dopředu a uloženy
Obsahuje především nenormalizované tabulky
Z důvodu rychlého přístupu k datům, redundance není tak podstatným problémem
Tabulky faktů – obsahují velké množství dat
Tabulky dimenzí – nenormalizované, menší množství dat
Hlavní výhody
Rychlý přístup k velkému objemu dat
Možnost komplexních analýz – pohled na data z různých úrovní abstrakce
Dobré schopnosti pro modelování a prognózy
Nevýhody
Vyšší nároky na kapacitu úložiště – redundance dat
Problémy při změně některé z dimenzí – nutnost přepočítat agregovaná data
Multidimenzionální databáze - kostka
Kostka (krychle) = ekvivalent tabulky v relační DB
Pro její výpočet je nutné velké množství výpočtů
Může mít i více než tři dimenze
Pomocí průniků jednotlivých dimenzí lze získat údaje (např. za určité časové období nebo určitý region)
Multidimenzionální databáze - krychle
Princip multidimenzionální krychle
Operační vs. Informační DB
Operační DB – uložení dat do systému, jejich správa
např.: vytvoření objednávky, rezervace letu, přijetí platby apod…
Informační DB – využití (analýza) uložených dat
např.: zjištění, které produkty se nejlépe prodávají nebo v kterém regionu jsou tržby nejnižší apod…
Datové sklady
Problém: příliš velké množství údajů, které nám nepřináší samy o sobě žádný užitek
Cíl: Převod údajů na informace, a poté získání znalostí z těchto informací (pomocí OLAP, data mining…)
Co je to datový sklad?
Strukturované úložiště údajů
Definováno mnoha způsoby, většinou neformálně:
Databáze sloužící k podpoře rozhodování, která je uložena odděleně od operační databáze
Podpora pro zpracování informací poskytnutím platformy sloučených historických dat pro analýzu
Klasický vs. Datový sklad
Klas.: Ukládáme za účelem rychlé expedice
Dat.: Ukládáme za co nejdelší období…
Definice Billa Inmona:
„Podnikově strukturovaný depozitář subjektově orientovaných, integrovaných, časově proměnlivých, historických dat použitých na získávání informací a podporu rozhodování, obsahuje atomická i sumární data.“
Znaky datových skladů
Subjektová orientace
Údaje jsou zapisovány podle předmětu zájmu
Data jsou organizována podle hlavních subjektů (zákazník, výrobek, apod.)
Poskytuje jednoduchý a výstižný pohled související s konkrétní analýzou, data, která aktuálně nejsou potřeba, nejsou zobrazována
Orientace na aplikaci: ukládání na základě aplikace (např. data pro fakturaci, personalistiku…)
Integrovanost
Údaje týkající se konkrétního předmětu se ukládají pouze jednou -> jednotná terminologie, jednotky veličin
Vytvořen spojením několika heterogenních zdrojů dat - relační databáze, textové soubory, on-line transakce
Problém nekonzistentních zdrojů dat
Nutnost úpravy, vyčištění a sjednocení (integrace) vstupních dat
Je nutné ověřit konzistenci v pojmenování proměnných, jejich struktury a jednotkách pro různé zdroje dat
Časová variabilita
Čas = klíčový atribut
Časový horizont datového skladu je zpravidla podstatně delší než u operační databáze
Operační databáze: pouze současně aktuální data
Data v datovém skladu: poskytují informace z historické perspektivy (např. posledních 5-10 let)
Každá klíčová struktura v datovém skladu
obsahuje časový element, explicitně nebo implicitně
ale klíč u operačních dat nemusí vždy obsahovat časový element
Data jsou ukládána jako série snímků, jeden snímek reprezentuje určitý časový úsek
Neměnnost
Fyzicky oddělené uložení dat transformovaných z operačních databází
V datových skladech se data většinou nemění ani neodstraňují, jen se přidávají – manipulace s daty je tedy jednodušší.
Jen dva typy operací: vkládání dat a přístup k datům
Optimalizace a normalizace ztrácí smysl…
Nepotřebuje zpracování transakcí, zotavení, mechanismy pro řízení souběžného přístupu
Datový sklad vs. Heterogenní DB
Tradiční integrace heterogenních databází – přístup založený na dotazech
Nad heterogenními DB je vybudován „prostředník“
Je-li poslán dotaz na stranu klienta, tzv. meta-slovník je použit pro překlad dotazů pro jednotlivé heterogenní zdroje dat, výsledky jsou spojeny do globální odpovědi
Složitá filtrace informací, soutěžení o zdroje
Datový sklad: založený na aktualizaci, vysoký výkon
Informace z heterogenních zdrojů jsou integrovány s předstihem a uložen v datovém skladu pro přímé dotazy a analýzu
Datový sklad vs. Operační databáze
OLTP (on-line transaction processing)
Hlavní úkol tradičních relačních databází
Každodenní operace: prodeje, inventarizace, bankovnictví, výroba, výplaty, registrace, účetnictví, atd.
OLAP (on-line analytical processing)
Hlavní úkol datového skladu
Analýza dat a podpora rozhodování
Odlišné vlastnosti (OLTP vs. OLAP):
Uživatelé a orientace systému: zákazník vs. obchodník
Datový obsah: současná, detailní vs. historická, sloučená
Návrh databáze: ER model + aplikace vs. schéma hvězdy + subjekt
Pohled na data: aktuální, lokální vs. evoluční, integrovaný
Přístupové vzory: aktualizace vs. read-only, ale komplexní dotazy
Klasická DB vs. Datový sklad
Porovnání vlastností
Vlastnost
Klasická DB
Datový sklad
Čas odezvy
ms - s
s - hod
Operace
DML, např. SQL
Jen čtení, zápis
Původ dat
30 – 60 dní
Snímky za čas. úsek
Organizace dat
Podle aplikace
Podle předmětu, času
Velikost
Malá až velká
Velká až velmi velká
Zdroje dat
operační, interní
operační, interní, externí
Činnosti
Procesy
Analýza
Požadavky na datový sklad
Databáze navržená pro analytické do
Vloženo: 28.04.2009
Velikost: 1,02 MB
Komentáře
Tento materiál neobsahuje žádné komentáře.
Mohlo by tě zajímat:
Skupina předmětu DS_2 - Datové sklady
Reference vyučujících předmětu DS_2 - Datové sklady
Podobné materiály
- ZF - Základy financování - Přednáška 1
- ZF - Základy financování - Přednáška 2 a 3
- ZM - Základy marketingu - Přednáška 1
- ZM - Základy marketingu - Přednáška 2
- VF - Veřejné finance - 1. přednáška - Úvod, Výklad základních pojmů
- VF - Veřejné finance - 2. přednáška - Specifikum rozhodován ve veřejném sektoru, Veřejná volba
- VF - Veřejné finance - 3. přednáška - Kořeny a vývoj teorie veřejných financí
- VF - Veřejné finance - 4.přednáška - Příjmy veřejných rozpočtů
- VF - Veřejné finance - 5. přednáška - Veřejné výdaje
- VF - Veřejné finance - 6. přednáška - Základy daňové teorie
- VF - Veřejné finance - 7. přednáška - Sociální politika a sociální zabezpečení
- VF - Veřejné finance - 8. přednáška - Fiskální federalismus
- VF - Veřejné finance - 9. přednáška - Rozpočtová soustava v ČR, Státní rozpočet ČR
- VF - Veřejné finance - 10. přednáška - Fiskální politika státu
- VF - Veřejné finance - 11. přednáška - Rozpočtový deficit a veřejný dluh
- VF - Veřejné finance - 12. přednáška - Etika veřejných financí, Etika ve veřejném sektoru
- I1 - Informatika 1 - přednáška - Důležité funkce v excelu
- I1 - Informatika 1 - Úvodní přednáška
- ZK - Základy komunikace - 1. a 2. přednáška
- I1 - Informatika 1 - přednáška
- I1 - Informatika 1 - přednáška
- I1 - Informatika 1 - přednáška
- I1 - Informatika 1 - přednáška
- I1 - Informatika 1 - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - ppřednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- MAK - Makroekonomie - přednáška
- MAK - Makroekonomie - přednáška
- MAK - Makroekonomie - přednáška
- MAK - Makroekonomie - přednáška
- MAK - Makroekonomie - přednáška
- OOPP - Občanské, obchodní a pracovní právo - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- VF - Veřejné finance - přednáška
- ZK - Základy komunikace - přednáška
- ZK - Základy komunikace - přednáška
- VF - Veřejné finance - přednáška
- ZK - Základy komunikace - přednáška
- ZK - Základy komunikace - přednáška
- Bep1P - Ekonomika podniku 1 - přednáška
- Bep1P - Ekonomika podniku 1 - přednáška 2
- Bep1P - Ekonomika podniku 1 - přednáška 3
- Bep1P - Ekonomika podniku 1 - přednáška 4
- Bep1P - Ekonomika podniku 1 - přednáška 7
- Bep1P - Ekonomika podniku 1 - přednáška 8
- Bep1P - Ekonomika podniku 1 - přednáška 2
- Bep1P - Ekonomika podniku 1 - přednáška číslo 1
- Bep1P - Ekonomika podniku 1 - přednáška č.2
- Bep1P - Ekonomika podniku 1 - přednáška č. 3
- Bep1P - Ekonomika podniku 1 - přednáška č. 4
- KipeP - Informatika pro ekonomy - přednáška č. 1
- Kep1P - Ekonomika Podniku - přednáška 1
- Kep1P - Ekonomika Podniku - přednáška 2
- Kep1P - Ekonomika Podniku - Přednáška 3
- Kep1P - Ekonomika Podniku - přednáška 4
- Kep1P - Ekonomika Podniku - přednáška 5
- Kep1P - Ekonomika Podniku - přednáška 7
- Kep1P - Ekonomika Podniku - přednáška 6
- Kspkm - Sociálně-psychologické kompetence manažera - přednáška
- Kspkm - Sociálně-psychologické kompetence manažera - přednáška
- Kspkm - Sociálně-psychologické kompetence manažera - přednáška
- Kspkm - Sociálně-psychologické kompetence manažera - přednáška
- KfpP - Finance podniku - přednáška 1
- KfpP - Finance podniku - přednáška 2
- KfpP - Finance podniku - přednáška 3
- KfpP - Finance podniku - přednáška 4
- KfpP - Finance podniku - přednáška 5
- KfpP - Finance podniku - přednáška 7
- KfpP - Finance podniku - přednáška 8
- KfpP - Finance podniku - přednáška 9
- KstatP - Statistika - 1. přednáška
- KstatP - Statistika - 2. přednáška
- KstatP - Statistika - 3. přednáška
- KstatP - Statistika - 4.přednáška
- KstatP - Statistika - 5. přednáška
- KstatP - Statistika - 6. přednáška
- KstatP - Statistika - 7.přednáška
- KstatP - Statistika - 8.přednáška
- ZF - Základy financování - Všechny přednášky ve wordu
- RPV - Řízení projektů vývoje IT/IS - Přednášky předělané do wordu
Copyright 2023 unium.cz. Abychom mohli web rozvíjet a dále vylepšovat podle preferencí uživatelů, shromažďujeme statistiky o návštěvnosti, a to pomocí Google Analytics a Netmonitor. Tyto systémy pro unium.cz zaznamenávají, které stránky uživatel na webové stránce navštívil, odkud se na stránku dostal, kam z ní odešel, jaké používá zařízení, operační systém či prohlížeč, či jaký má preferenční jazyk. Statistiky jsou anonymní, takže unium.cz nezná identitu návštěvníka a spravuje cookies tak, že neumožňuje identifikovat konkrétní osoby. Používáním webu vyjadřujete souhlas použitím cookies a následujících služeb: