- Stahuj zápisky z přednášek a ostatní studijní materiály
- Zapisuj si jen kvalitní vyučující (obsáhlá databáze referencí)
- Nastav si své předměty a buď stále v obraze
- Zapoj se svojí aktivitou do soutěže o ceny
- Založ si svůj profil, aby tě tví spolužáci mohli najít
- Najdi své přátele podle místa kde bydlíš nebo školy kterou studuješ
- Diskutuj ve skupinách o tématech, které tě zajímají
Studijní materiály
Hromadně přidat materiály
Soubor přednášek co bdue na testu
DS_2 - Datové sklady
Hodnocení materiálu:
Zjednodušená ukázka:
Stáhnout celý tento materiáltví
Cena
Cizí klíče odkazující se do dimenzí
Produkt
Čas
Zákazník Návrh transformací vstupních dat na data výstupního datového skladu Umístění přednášek na WWW http://www.fit.vutbr.cz/~bartik/prednasky.zip
Datové sklady1. Úvod
Ing. Vladimír Bartík, Ph.D. Osnova předmětu Úvod do databázových technologií – zopakování relačních databází
Úvod do problematiky datových skladů
Budování datového skladu – ETL fáze, struktura datového skladu
Analýza OLAP
Získávání znalostí z dat (data mining)
Projektování datového skladu
Trendy datových skladů Databáze Tabulka Řádek Sloupec Hodnota Relační databáze Údaje jsou uloženy ve dvourozměrných tabulkách
Každý řádek tabulky má svůj identifikátor Struktura relačních dat Relační tabulka - definice Relace na doménách D1, D2, ... , Dn je dvojice R = (R, R*), kde R = R(A1:D1, A2:D2, ... An:Dn ) je schéma relace a R* ⊆ D1 x D2 x ... x Dn je tělo relace. Schéma relace zapisujeme často zjednodušeně ve tvaru R(A1, A2, ... ,An). Počet atributů n relace se označuje stupeň (řád) relace, kardinalita těla relace m = |R*| se označuje kardinalita relace.
Atribut relace ~ sloupec tabulky, n-tice relace ~ řádek tabulky
Vlastnosti relace (v teorii relačního modelu):
Neexistují duplicitní n-tice,
n-tice jsou neuspořádané
Hodnoty jednoduchých atributů jsou atomické – relace je tzv.normalizovaná. Relační databáze – integritní omezení Omezení plynoucí z reality reprezentované daty v databázi
Primární klíč – jednoznačný identifikátor každého záznamu tabulky
Atribut k relace R se nazývá kandidátním klíčem, když má tyto dvě časově nezávislé vlastnosti:
jednoznačnost
minimalita (neredukovatelnost).
Primárním klíčem je jeden z kandidátních klíčů (vybraný), zbývající kandidátní klíče se nazývají alternativní (někdy také sekundární).
Relační databáze – integritní omezení Cizí klíč
Atribut FK bázové relace R2 se nazývá cizí klíč, právě když splňuje tyto časově nezávislé vlastnosti:
Každá hodnota FK je buď plně zadaná nebo plně nezadaná.
Existuje relace R1 s kandidátním klíčem CK takovým, že každá zadaná hodnota FK je identická s hodnotou CK nějaké n-tice relace R1.
Soulad hodnot cizích a primárních klíčů představuje vztahy mezi řádky tabulek ("drží databázi pohromadě") Relační databáze – příklad CREATE TABLE jm_bázové_tabulky
(def_sloupce, …
[definice_integritních_omezení_tabulky]
) Relační databáze – jazyk SQLnejčastější operace CREATE TABLE
Definice sloupce
jméno_sloupce typ [impl_hodnota] [seznam_io_sloupce]
Definice integritních omezení
PRIMARY KEY (jm_sloupce, …)
UNIQUE (jm_sloupce, …)
FOREIGN KEY (jm_sloupce, …) REFERENCES
tabulka [(jm_sloupce, …)] [událost ref_akce]
CHECK (podmíněný_výraz)
Relační databáze – jazyk SQLnejčastější operace ALTER TABLE (změna tabulky)
ALTER TABLE jm_bázové_tabulky akce
akce - přidání (ADD), zrušení (DROP) sloupce, změna implicitní hodnoty (ALTER) přidání (ADD), zrušení (DROP) i.o. pro tabulku
DROP TABLE (zrušení tabulky)
DROP TABLE jm_bázové_tabulky
Příkaz SELECT
SELECT [ALL|DISTINCT] položka [[AS] alias_sl], …
FROM tabulkový_výraz [[AS] [alias_tab]], …
[WHERE podmínka]
[GROUP BY jm_sloupce_z_FROM|číslo, …]
[HAVING podmínka]
[ORDER BY jm_sloupce_z_SELECT|číslo [ASC|DESC]], …
Relační databáze – jazyk SQLnejčastější operace Vkládání řádků (INSERT)
INSERT INTO jm_tabulky [(jm_sloupce, …)]
VALUES(skalární_výraz|NULL|DEFAULT, …)
Rušení řádků (DELETE)
DELETE FROM jm_tabulky
[WHERE podmínka]
Aktualizace řádků (UPDATE)
UPDATE jm_tabulky
SET jm_sloupce = výraz|NULL|DEFAULT, …
[WHERE podmínka]
Proč datové sklady? Obrovské množství nashromážděných dat v databázích
Př.: supermarkety, banky, cestovní společnosti
Potřeba získávat z těchto dat strategické informace (znalosti), které v nich nejsou explicitně uvedeny
Potřeba učinit rozhodnutí na základě těchto dat
Př.: Reklamní kampaň, rozmístění zboží apod.
Data warehousing
Proces konstrukce a využívání datových skladů Informace musí být přístupná ve vyhrazeném časovém rámci (aktualizace dat) Aktuálnost Každý obchodní činitel musí mít právě jednu hodnotu (např. cena …) Věrohodnost Intuitivní přístup k datům, reakce na analýzu (uživatelské rozhraní, rychlost…) Přístupnost Musí být přesná, konzistentní a vyhovovat požadavkům obchodu Integrita dat Souhrnný (globální) pohled na data z pohledu celého podniku Integrovanost Strategické informace - znaky Business Intelligence Proces transformace údajů na informace a převod informací na poznatky pro koncového uživatele
Vstup: velké objemy dat
Výstup: dosud neznámé poznatky, které lze využít v procesu rozhodování
Prostředky BI:
Datové sklady (data warehouses)
Analýza OLAP (On-line Analytical Processing)
Data Mining (Získávání (dolování) znalostí z dat) Historie BI do 80. let – databázové reporty v papírové podobě (ne BI)
1980-1990 – tabulkové procesory (Excel…) – zpracování omezeného objemu dat, omezené funkce
od 90. let – éra Business Intelligence – analytické servery, datové sklady, podpora pro data mining – podpora pro komplexní analýzu Nevhodnost běžných databází Slouží především pro ukládání údajů
Výsledkem dotazování jsou především tabulky s daty explicitně uvedenými v databázi
Jsou výhodné především pro jednoduché transakce (vkládání, mazání…), naopak velmi nevýhodné pro složitější analýzu Nevhodnost běžných OLTP databází OLTP = On-Line Transaction Processing (databáze zaměřená na transakce)
Decentralizovanost systémů OLTP
Data jsou většinou uložena v různých DB na různých místech, není většinou k dispozici integrovaný zdroj údajů a je velmi složité tato data integrovat
Nehomogenní struktura údajů – různé názvy, datové typy…
Vysoká náročnost těchto analýz Nevhodnost běžných databází Výsledky analýzy těchto dat nejsou příliš vhodné
Obtížné hledání závislostí mezi jednotlivými veličinami
Velmi rozsáhlé výstupy
Degradace výpočetního výkonu databázového stroje – neustále se opakující stejné výpočty
Nejsou uchovávány historické údaje – uchovává zpravidla aktuální data
Je potřeba spolupráce analytika s databázovým odborníkem – nástroje nejsou dostatečně intuitivní Multidimenzionální databáze Slouží jako podklad pro získání sumarizovaných a agregovaných údajů
Některé výpočty, které by se opakovaně prováděly, jsou spočteny dopředu a uloženy
Obsahuje především nenormalizované tabulky
Z důvodu rychlého přístupu k datům, redundance není tak podstatným problémem
Tabulky faktů – obsahují velké množství dat
Tabulky dimenzí – nenormalizované, menší množství dat Multidimenzionální databáze Hlavní výhody
Rychlý přístup k velkému objemu dat
Možnost komplexních analýz – pohled na data z různých úrovní abstrakce
Dobré schopnosti pro modelování a prognózy
Nevýhody
Vyšší nároky na kapacitu úložiště – redundance dat
Problémy při změně některé z dimenzí – nutnost přepočítat agregovaná data Multidimenzionální databáze - kostka Kostka (krychle) = ekvivalent tabulky v relační DB
Pro její výpočet je nutné velké množství výpočtů
Může mít i více než tři dimenze
Pomocí průniků jednotlivých dimenzí lze získat údaje (např. za určité časové období nebo určitý region) Produkt Region Čas Region Čas Region Čas Analýza údajů
pro určitý produkt Produkt Produkt Analýza pro určité
časové období Analýza údajů podle
regionálních kritérií Multidimenzionální databáze - krychle Princip multidimenzionální krychle Operační vs. Informační DB Operační DB – uložení dat do systému, jejich správa
např.: vytvoření objednávky, rezervace letu, přijetí platby apod…
Informační DB – využití (analýza) uložených dat
např.: zjištění, které produkty se nejlépe prodávají nebo v kterém regionu jsou tržby nejnižší apod… Údaje Znalosti Informace Moudrost Datové sklady Problém: příliš velké množství údajů, které nám nepřináší samy o sobě žádný užitek
Cíl: Převod údajů na informace, a poté získání znalostí z těchto informací (pomocí OLAP, data mining…) Co je to datový sklad? Strukturované úložiště údajů
Definováno mnoha způsoby, ale nikdy ne formálně:
Databáze sloužící k podpoře rozhodování, která je uložena odděleně od operační databáze
Podpora pro zpracování informací poskytnutím platformy sloučených historických dat pro analýzu
Klasický vs. Datový sklad
Klas.: Ukládáme za účelem rychlé expedice
Dat.: Ukládáme za co nejdelší období…
Definice Billa Inmona:
„Podnikově strukturovaný depozitář subjektově orientovaných, integrovaných, časově proměnlivých, historických dat použitých na získávání informací a podporu rozhodování, obsahuje atomická i sumární data.“ Znaky datových skladů Subjektová orientace
Údaje jsou zapisovány podle předmětu zájmu
Data jsou organizována podle hlavních subjektů (zákazník, výrobek, apod.)
Poskytuje jednoduchý a výstižný pohled související s konkrétní analýzou, data, která aktuálně nejsou potřeba, nejsou zobrazována
Orientace na aplikaci: ukládání na základě aplikace (např. data pro fakturaci, personalistiku…) Znaky datových skladů (II.) Integrovanost
Údaje týkající se konkrétního předmětu se ukládají pouze jednou -> jednotná terminologie, jednotky veličin
Vytvořen spojením několika heterogenních zdrojů dat - relační databáze, textové soubory, on-line transakce
Problém nekonzistentních zdrojů dat
Nutnost úpravy, vyčištění a sjednocení (integrace) vstupních dat
Je nutné ověřit konzistenci v pojmenování proměnných, jejich struktury a jednotkách pro různé zdroje dat Subjekt datového
skladu = ÚČET Spořící účty Běžné účty Úvěrový účet Data z různých aplikací Integrace, čištění Znaky datových skladů (II.) Znaky datových skladů (III.) Časová variabilita
Čas = klíčový atribut
Časový horizont datového skladu je zpravidla podstatně delší než u operační databáze
Operační databáze: pouze současně aktuální data
Data v datovém skladu: poskytují informace z historické perspektivy (např. posledních 5-10 let)
Každá klíčová struktura v datovém skladu
obsahuje časový element, explicitně nebo implicitně
ale klíč u operačních dat nemusí vždy obsahovat časový element
Data jsou ukládána jako série snímků, jeden snímek reprezentuje určitý časový úsek Znaky datových skladů (IV.) Neměnnost
Fyzicky oddělené uložení dat transformovaných z operačních databází
V datových skladech se data většinou nemění ani neodstraňují, jen se přidávají – manipulace s daty je tedy jednodušší.
Jen dva typy operací: vkládání dat a přístup k datům
Optimalizace a normalizace ztrácí smysl…
Nepotřebuje zpracování transakcí, zotavení, mechanismy pro řízení souběžného přístupu Operační
DB Datový
sklad Aplikace nad operační DB Systém pro podporu rozhodování Read Add/Change/Del Read LOADS Znaky datových skladů (IV.) Datový sklad vs. Heterogenní DB Tradiční integrace heterogenních databází – přístup založený na dotazech
Nad heterogenními DB je vybudován „prostředník“
Je-li poslán dotaz na stranu klienta, tzv. meta-slovník je použit pro překlad dotazů pro jednotlivé heterogenní zdroje dat, výsledky jsou spojeny do globální odpovědi
Složitá filtrace informací, soutěžení o zdroje
Datový sklad: založený na aktualizaci, vysoký výkon
Informace z heterogenních zdrojů jsou integrovány s předstihem a uložen v datovém skladu pro přímé dotazy a analýzu Datový sklad vs. Operační databáze OLTP (on-line transaction processing)
Hlavní úkol tradičních relačních databází
Každodenní operace: prodeje, inventarizace, bankovnictví, výroba, výplaty, registrace, účetnictví, atd.
OLAP (on-line analytical processing)
Hlavní úkol datového skladu
Analýza dat a podpora rozhodování
Odlišné vlastnosti (OLTP vs. OLAP):
Uživatelé a orientace systému: zákazník vs. obchodník
Datový obsah: současná, detailní vs. historická, sloučená
Návrh databáze: ER model + aplikace vs. schéma hvězdy + subjekt
Pohled na data: aktuální, lokální vs. evoluční, integrovaný
Přístupové vzory: aktualizace vs. read-only, ale komplexní dotazy Porovnání vlastností
Analýza Procesy Činnosti operační, interní, externí operační, interní Zdroje dat Velká až velmi velká Malá až velká Velikost Podle předmětu, času Podle aplikace Organizace dat Snímky za čas. úsek 30 – 60 dní Původ dat Jen čtení, zápis DML, např. SQL Operace s - hod ms - s Čas odezvy Datový sklad Klasická DB Vlastnost Klasická DB vs. Datový sklad Požadavky na datový sklad Databáze navržená pro analytické dotazy
Možnost integrovat data z více aplikací
Častá operace čtení z databáze
Interaktivní, jednoduché a dlouhodobé využití bez nutnosti výpomoci IT odborníků
Nahrání dat po určité časové periodě
Možnost využití současných i historických dat
Možnost spustit dotaz a získat výsledek on-line
Možnost získat libovolnou tiskovou sestavu Analýza dat Administrace Datové
modelování Správa dat a metadat Datový sklad: Použité technologie Datový sklad je prostředí, které využívá velké množství technologií… Datové sklady – příklady použití Maloobchod
věrnost zákazníků
marketing
Bankovnictví
detekce podvodů
odhad rizik
Aerolinie
výdělečnost linek
správa zisků Výroba
redukce cen
správa logistiky
Služby
správa majetku
správa prostředků
Vláda
kontrola cen
plánování lidských zdrojů Operační prostředí Uživatelé OLAP Extrakce
Transformace
Zavedení DATOVÝ SKLAD Získání údajů -> úprava a zavedení do datového skladu
-> analýza -> zpřístupnění uživatelům Datový sklad – základní schéma Zdrojová data Externí
Archivní Interní Produkční Management & Správa Datový
sklad (DBMS)
Multi-
dimenz.
DB
Datové trhy Data Mining OLAP Reports/Dotazy Uložení dat Předání informace Místo
přípravy dat Metadata Součásti datového skladu Zdrojová data Produkční data
Data získaná z různých operačních DB podniku pomocí jednoznačných dotazů
Interní data
Data uložená v privátních souborech (zpravidla XLS) zaměstnanců organizace
Archivní data
Jeden ze základních předpokladů úspěšné analýzy – jde většinou o velká kvanta dat
Externí data
Data z různých zdrojů, která mohou být pro organizaci užitečná Místo přípravy dat Místo, kde probíhá tzv. příprava údajů – fáze ETL (mezistupeň mezi vstupními daty a datovým skladem)
Může být i součástí datového skladu
Místo speciálně k tomuto účelu určené
Extrakce, Transformace, Loading
Výsledkem jsou data, která jsou připravena pro analýzu a je možné je uložit do datového skladu Uložení dat Jde o oddělené „skladiště“ pro uložení velkého množství především historických dat
Je navrženo pro analýzu, ne pro rychlý přístup k datům
Jsou většinou pro uživatele „read-only“, s výjimkou administrátora
Musí být přístupná pro více druhů nástrojů – odpovídající rozhraní Předání informace Poskytuje informace pro různé uživatele
Začínající uživatelé: tiskové sestavy, jednoduché dotazy
Běžní uživatelé: statistická analýza, různá zobrazení dat, předdefinované dotazy
Pokročilí uživatelé: provádí multidimenzionální analýzu, formuluje vlastní OLAP dotazy, používá exekutivní IS (data mining…) Dat. sklad Datové trhy Modul předání informace ONLINE
INTERNET
INTRANET
E-MAIL Tisk. sestavy Složité dotazy MD analýza Statistická an. Naplnění EIS Data Mining Předání informace (schéma) Složka managementu a správy Je nadřazena všem ostatním součástem datového skladu
Slouží ke koordinaci jednotlivých složek datového skladu
K běhu datového skladu používá informace uložené v metadatech
Zpravidla je spravováno administrátorem Složka managementu a správy Nejdůležitější funkce
monitoring všech operací s datovým skladem
ošetření a zotavení po chybách
extrakce dat ze zdroje pro účely aktualizace datového skladu
kontrola správnosti transformace dat
zajištění správné funkce při získávání informací
zajištění bezpečnosti dat a autorizace uživatelů Metadata Uchovává následující „data popisující data“
informace o datových strukturách, souborech, adresách atd. (datový slovník)
informace o datech v databázi (katalog)
Jedna z klíčových částí datového skladu Typy metadat Operační metadata
obsahují informace o všech zdrojích dat pro datový sklad (struktura, umístění atd.)
Metadata o extrakci a transformaci
informace o tom, jaké metody byly použity při ETL fázi, různá omezení apod.
Metadata pro koncového uživatele
informace o datovém skladu a datech v něm, další obchodní a jiné informace, které může využít pro analýzu (Zlaté stránky…) Obsah metadat Metadata jsou data popisující objekty datového skladu. Je zde uloženo:
Popis struktury datového skladu
schéma, dimenze, hierarchie, umístění a obsah datových trhů
Operační metadata
historie (původ) dat, monitorovací informace (statistiky, chyby apod.), stav dat (archivní, aktuální)
Algoritmy používané pro sumarizaci
Mapování z operačního prostředí do datového skladu
Data týkající se činnosti systému
schéma skladu, odvozená data
Obchodní data
Definice obchodních pojmů, vlastníci dat … Fakta a dimenze Každá datová kostka obsahuje 2 typy údajů – fakta a dimenze
FAKTA
Největší tabulka v DB, zpravidla jen jedna
Obsahuje numerické měrné jednotky obchodování
V kombinaci s tabulkami dimenzí tvoří určitá schémata Kontinent
…Země
……Územní celek
………Město Druh produktu
…Kategorie
……Subkategorie
………Název prod. Rok
…Kvartál
……Měsíc
………Týden Fakta a dimenze DIMENZE
logicky nebo hierarchicky uspořádané údaje
textové popisy obchodování
jsou menší a nemění se tak často
nejčastěji: časové, geografické a produktové dimenze (stromové struktury) Schémata tabulek dimenzí Schéma hvězdy (Star schema)
Vloženo: 28.04.2009
Velikost: 4,53 MB
Komentáře
Tento materiál neobsahuje žádné komentáře.
Mohlo by tě zajímat:
Skupina předmětu DS_2 - Datové sklady
Reference vyučujících předmětu DS_2 - Datové sklady
Podobné materiály
- KA - Knihovnické aplikace - Soubor přednášek z KA
- ZPC - Základy PC - Soubor přednášek
- AP_1 - Algoritmizace a programovací techniky - Soubor přednášek
- I1 - Informatika 1 - Zápisky ze cvik a přednášek
- VM - Výpočetní metody - výpisky z přednášek
- DS_2 - Datové sklady - Výtah z přednášek
- Bmak1P - Makroekonomie 1 - Makro - výpisky z přednášek a skript
- Bep1P - Ekonomika podniku 1 - výtah z přednášek
- RPV - Řízení projektů vývoje IT/IS - Vypracované otázky k testu
- VF - Veřejné finance - Jedna z variant testu u zkoušky
- ZF - Základy financování - Ofocené varianty testu
- ZM2 - Parametrické modelování - Pro/Engineer - 50 otázek z testu
- ZM2 - Parametrické modelování - Pro/Engineer - 50.Otázek z testu 2
- MIK - Mikroekonomie - Opakování ekonomických pojmů (řešení testu)
- OcccP - Cross cultural communication - Otázky z testu
Copyright 2025 unium.cz


