- Stahuj zápisky z přednášek a ostatní studijní materiály
- Zapisuj si jen kvalitní vyučující (obsáhlá databáze referencí)
- Nastav si své předměty a buď stále v obraze
- Zapoj se svojí aktivitou do soutěže o ceny
- Založ si svůj profil, aby tě tví spolužáci mohli najít
- Najdi své přátele podle místa kde bydlíš nebo školy kterou studuješ
- Diskutuj ve skupinách o tématech, které tě zajímají
Studijní materiály
Hromadně přidat materiály
Soubor přednášek co bdue na testu
DS_2 - Datové sklady
Hodnocení materiálu:
Zjednodušená ukázka:
Stáhnout celý tento materiálTabulka faktů obsahuje cizí klíče do tabulky dimenzí, ty se vztahují k jejím primárním klíčům
Snadno pochopitelné
Tabulky dimenzí jsou však nejsou normalizované, je to tedy poměrně pomalé Tabulka faktů Tabulka dimenzí Tabulka dimenzí Tabulka dimenzí Tabulka dimenzí Q1 1 2 3 2005 Jan Tue 05-01-03 369 Q1 1 2 2 2005 Jan Mon 05-01-02 368 Q1 1 1 1 2005 Jan Sun 05-01-01 367 quart mon_y week_y day_m year month day date ID Hvězdicové schéma time_key
day
day_of_the_week
month
quarter
year time location_key
street
city
state_or_province
country location Tabulka faktů: Prodeje time_key item_key branch_key location_key units_sold dollars_sold avg_sales Metriky item_key
item_name
brand
type
supplier_type item branch_key
branch_name
branch_type branch Příklad schématu hvězdy
Datové sklady3. Analýza OLAP Ing. Vladimír Bartík, Ph.D. Operační prostředí Uživatelé OLAP Extrakce
Transformace
Zavedení DATOVÝ SKLAD Zpracování údajů v datovém skladu do podoby pro koncové uživatele Analýza OLAP Myšlenkový pochod při analýze Sekvence dotazů při této analýze Propad zisku
podniku Celosvětové měsíční prodeje
za posledních 5 měsíců Přehled měsíčních prodejů
po regionech Přehled prodejů v Evropě
po zemích Přehled prodejů v Evropě
po zemích, po produktech Přehled přímých a nepřímých
nákladů v evropských zemích Prodeje OK,
ale nižší zisk
v posl. 3 měs. Velký propad
v Evropě Ve třech zemích
zvýšení, někde
stagnace, jinde
velký propad Velký propad v
zemích EU za
2 měsíce Přímé náklady
OK, nepřímé
se zvýšily Vyšší daň v EU
na některé
produkty Příklad komplexní analýzy Požadavky na OLAP systémy Poskytování sumačních a agregačních funkcí podle hierarchií
Možnost detailního pohledu na data
Jednoduché kalkulace, např. výpočet zisku (prodeje – náklady)
Sdílení kalkulací za účelem procentuálního vyjádření vzhledem k celku
Algebraické rovnice pro výpočet klíčových indikátorů
Přenos průměrů a procentuálních vyjádření
Analýza trendů statistickými metodami Příklad typického použití OLAP Analýza OLAP Definice (E. F. Codd)
„OLAP je volně definovaný řád principů, které poskytují dimenzionální rámec pro podporu rozhodování“
Systémy OLAP umožňují pracovníkům přijímajícím rozhodnutí přístup k údajům potřebným na tvorbu rozhodnutí. 12 pravidel OLAP Multidimenzionální konceptuální model
Musí být použitelný pro analýzu údajů
Transparentnost
Uživatel musí mít možnost naplno využít svoji produktivitu při rozhodování
Dostupnost
Přístup jen k datům potřebným k analýze
Přístup není závislý na tom, z jakého zdroje data pocházejí 12 pravidel OLAP Konzistentní vykazování
Při rostoucí velikosti DB by nemělo nastat snížení výkonu.
Architektura klient-server
Generická dimenzionalita
Každá dimenze údajů musí být ekvivalentní ve struktuře a operačních schopnostech 12 pravidel OLAP Dynamické ošetření řídkých matic
Adaptace fyzického schématu na analytický model optimalizující řídké matice
Podpora pro více uživatelů
Musí být podporována týmová práce více uživatelů
Neomezené křížové dimenzionální operace
Musí dokázat vykonat kalkulace v rámci dimenzí i mezi nimi 12 pravidel OLAP Intuitivní manipulace s údaji
Možnost přeorientování na detailní úroveň a zpět
Flexibilní vykazování
Schopnost uspořádat řádky nebo sloupce dle potřeb analýzy
Neomezené dimenze a úrovně agregace
V tomto směru by nemělo být zavedeno žádné omezení Další pravidla OLAP(ne od E.F.Codda) Možnost detailního pohledu na data (až na úroveň záznamu)
OLAP analytické modely (předdefinované)
Zpracování nenormalizovaných dat
Ukládání výsledků OLAP analýzy
Chybějící hodnoty a jejich zpracování
Inkrementální refresh databáze a OLAP výsledků
Rozhraní ve stylu SQL Fakta a dimenze Každá OLAP krychle obsahuje 2 typy údajů – fakta a dimenze
FAKTA
Největší tabulka v DB, zpravidla jen jedna
Obsahuje numerické měrné jednotky obchodování
V kombinaci s tabulkami dimenzí tvoří určitá schémata Kontinent
…Země
……Územní celek
………Město Druh produktu
…Kategorie
……Subkategorie
………Název prod. Rok
…Kvartál
……Měsíc
………Týden Fakta a dimenze DIMENZE
logicky nebo hierarchicky uspořádané údaje
textové popisy obchodování
jsou menší a nemění se tak často
nejčastěji: časové, geografické a produktové dimenze (stromové struktury) all Europe North_America Mexico Canada Spain Germany Vancouver M. Wind L. Chan ... ... ... ... ... ... all region office country Toronto Frankfurt city Konceptuální hierarchie: Dimenze (místo) Vlastnosti tabulky dimenzí Unikátní primární klíč
Tabulka je široká (až desítky atributů)
Textové atributy (málo numerických)
Nemusí být relace mezi atributy (např. hmotnost zásilky nesouvisí se zbožím)
Není normalizovaná
Umožňují provádět operace drill-down, roll-up
Možnost více hierarchií
Menší počet záznamů Vlastnosti tabulky faktů Primární klíč je složený (s hodnot tabulky dimenzí)
Granularita dat (závislá na dotazu…)
Jednotky jsou vždy aditivní, popř. odvoditelné z jiných atributů (procenta)
Tabulka je rozsáhlá, s menším počtem atributů
Řídká data (ne pro všechny hodnoty musí být v tabulce faktů hodnota)
Obsahuje atributy tabulky faktů (velikost atd…) Schémata tabulek dimenzí Hvězdicové schéma (Star schema)
Tabulka faktů obsahuje cizí klíče do tabulky dimenzí, ty se vztahují k jejím primárním klíčům
Snadno pochopitelné
Tabulky dimenzí jsou však nejsou normalizované, je to tedy poměrně pomalé Hlavní výhody hvězdicového schématu Jednoduchá pochopitelnost
Umožňuje optimalizaci navigace
Vhodné pro použití dotazů Tabulka faktů Tabulka dimenzí Tabulka dimenzí Tabulka dimenzí Tabulka dimenzí Q1 1 2 3 2005 Jan Tue 05-01-03 369 Q1 1 2 2 2005 Jan Mon 05-01-02 368 Q1 1 1 1 2005 Jan Sun 05-01-01 367 quart mon_y week_y day_m year month day date ID Hvězdicové schéma time_key
day
day_of_the_week
month
quarter
year time location_key
street
city
state_or_province
country location Tabulka faktů: Prodeje time_key item_key branch_key location_key units_sold dollars_sold avg_sales Metriky item_key
item_name
brand
type
supplier_type item branch_key
branch_name
branch_type branch Příklad schématu hvězdy Schémata tabulek dimenzí Schéma „sněhové vločky“ (snowflake schema)
Některé dimenze jsou složeny z mnoha relačně svázaných tabulek
Rychlejší zavedení údajů
Nižší dotazovací výkon – více spojení tabulek Tabulka faktů Tabulka dimenzí Tabulka dimenzí Tabulka dimenzí Tabulka dimenzí Tabulka dimenzí Tabulka dimenzí Schéma „sněhové vločky“ time_key
day
day_of_the_week
month
quarter
year time location_key
street
city_key location Tabulka faktů: Prodeje time_key item_key branch_key location_key units_sold dollars_sold avg_sales Metriky item_key
item_name
brand
type
supplier_key item branch_key
branch_name
branch_type branch supplier_key
supplier_type supplier city_key
city
state_or_province
country city Příklad schématu sněhové vločky Schémata tabulek dimenzí Model „souhvězdí“
Slouží pro sofistikované aplikace vyžadující více tabulek faktů
Sdílení tabulek dimenzí více tabulkami faktů
Jde spíše o spojení více hvězdicových schémat do jednoho schématu Tabulka faktů Tabulka dimenzí Tabulka dimenzí Tabulka dimenzí Tabulka dimenzí Tabulka faktů Model „souhvězdí“ time_key
day
day_of_the_week
month
quarter
year time location_key
street
city
province_or_state
country location Tabulka faktů: Prodeje time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures item_key
item_name
brand
type
supplier_type item branch_key
branch_name
branch_type branch Tabulka faktů: Doprava time_key item_key shipper_key from_location to_location dollars_cost units_shipped shipper_key
shipper_name
location_key
shipper_type shipper Příklad schématu souhvězdí Příklad OLAP analýzy scan 355 Výsledek dotazu OLAP Příklad: zjistit prodeje jednotlivých položek v jednotlivých měsících roku v jednotlivých obchodech Další příklady dotazů OLAP Celkové prodeje všech produktů za 5 let
Řádky: roky 2000, 1999, 1998 atd.
Sloupce: součet prodejů pro všechny produkty
Stránky: jedna stránka pro každý obchod
Porovnej prodeje všech produktů a obchodů mezi roky 1999 a 2000
Řádky: roky 2000, 1999, průměry, rozdíly
Sloupce: jeden sloupec pro každý produkt
Stránka: pouze jedna – pro všechny obchody
Porovnej totéž, ale pouze u zlevněných produktů
Řádky: roky 2000, 1999, 1998 atd.
Sloupce: jeden sloupec pro jeden produkt, ale pouze vybrané produkty
Stránky: jedna stránka pro každý obchod Hyperkostky Problém: více než tři dimenze
Uložení v datovém skladu není problém, dimenzí může být libovolný počet…
Problém je se zobrazením výsledků OLAP analýzy – nevystačíme si s řádky, sloupci a stránkami… Příklad – 4 dimenze Příklad – zobrazení 4 dimenzí Příklad - 6 dimenzí Příklad – zobrazení 6 dimenzí Základní operace OLAP analýzy Operace Drill-Down (vnoření) a Roll-Up (vynoření)
Posuny v hierarchii pro danou dimenzi směrem k detailní úrovni, resp. k obecnější úrovni
Operace Roll-Up zahrnuje především sumační operace, drill-down přepočítání hodnot… Operace Roll-Up – příklad Základní operace OLAP analýzy Operace Drill-Across
Přechod na jinou hierarchii definovanou nad stejnou dimenzí
Operace Drill-Through
Přechod na úroveň záznamů v tabulce – čtení konkrétních hodnot tabulky faktů. Základní operace OLAP analýzy Operace Slice & Dice
Jde o pohled na kostku pro jednu hodnotu jedné z dimenzí
Operace Rotation
Umožňuje pohled na kostku z různých úhlů pohledu – jde o „změnu os“ datové kostky a tím o změnu výsledku operace slice & dice (viz příklad) Slice & Dice a Rotation – příklad Procházení datové kostky Vizualizace
OLAP analýza
Interaktivní manipulace Metoda dopravy AIR-EXPRESS TRUCK ORDER Objednávky CONTRACTS Zákazník Produkt PRODUCT GROUP PRODUCT LINE PRODUCT ITEM SALES PERSON DISTRICT DIVISION Organizace Reklama CITY COUNTRY REGION Místo DAILY QTRLY ANNUALY Čas Každý n-úhelník je nazván stopa Dotazovací model Star-Net Uložiště multidimenzionálních údajů Relační x Multidimenzionální databázový model
formát dat
objem dat – nutnost komprese
4 základní typy uložišť – podle způsobu uložení dat
MOLAP
ROLAP
HOLAP, DOLAP Multidimezionální OLAP (MOLAP) Data se získávají z DB nebo datového skladu
Ukládají se do vlastních datových struktur
Databáze konstruována pro rychlé vyhledávání údajů
Výhoda: maximální výkon
Nevýhoda: redundance údajů, velké prostorové nároky Datový
sklad Datová vrstva Vytváření a ukládání
datových kostek MDDB Speciální datový
jazyk Klientský PC Prezentační vrstva Aplikační vrstva MDBMS Server Model MOLAP Relační databázový OLAP (ROLAP) Údaje jsou získávány z relačních tabulek, jsou uživateli předkládány jako multidimenzionální pohled
Data jsou uložena jako záznamy relační tabulky
Žádná redundance
Datový
sklad Datová vrstva Komplexní SQL Uživatelské
požadavky Klientský PC
(MD pohled) Prezentační vrstva Aplikační vrstva Analytický server Dynamické vytváření
datových kostek Model ROLAP MOLAP ROLAP Složitost analýzy Kvalita výsledků ROLAP versus MOLAP Co zvolit?
Záleží na důležitosti analýzy
Záleží na složitosti dotazů uživatelů ROLAP versus MOLAPUložení dat (shrnutí) ROLAP
Data jsou uložena v relačních tabulkách
Možnost získat detailní i sumarizovaná data
Obrovské datové prostory
Veškerý přístup k datům prostřednictvím datového skladu MOLAP
Data uložena v relačních tabulkách
Různá sumační data uložena v multidimenz. databázi
Průměrně velké datové prostory
Přístup jak do MDDB (sumy), tak do datového skladu (detailní data) ROLAP versus MOLAPTechnologie (shrnutí) ROLAP
Použití komplexních SQL dotazů k získání dat ze skladu
Datové kostky jsou vytvářeny za běhu
Multidimenzionální pohledy vytváří prezentační vrstva MOLAP
Vytváření datových kostek předem
Použití technologie pro ukládání multidim. dat v polích, ne tabulkách
Technologie pro zpracování řídkých matic ROLAP versus MOLAPFunkce a vlastnosti (shrnutí) ROLAP
Známé prostředí a možnost použití známých nástrojů
Limitované použití komplexních analýz
Omezené použití operace drill-across MOLAP
Rychlejší přístup
Velká knihovna funkcí pro komplexní analýzu
Snadná analýza bez ohledu na počet dimenzí
Rozšiřující prostor pro operace drill-down a slice-and-dice Hybridní OLAP (HOLAP) Kombinace MOLAP a ROLAP
Údaje jsou v relačních tabulkách, agregace se ukládají do multidimenzionálních struktur
Využití multidimezionální cache Model DOLAP DOLAP = Desktop OLAP
Multidimenzionální tabulky uloženy na klientském počítači, datový sklad na serveru ve formě relačních tabulek
Vyžaduje speciální software na klientském počítači
Speciální případ ROLAP Klienti pro přístup k OLAP „Tenký“ klient
Pro přístup k údajům požívá např. www prohlížeč
Vše ostatní běží na serveru
Výhoda: možnost použití různých platforem, levný HW
Nevýhoda: omezení uživatelského rozhraní (protokol HTTP) Klienti pro přístup k OLAP „Tlustý“ klient
Aplikace běží na lokálním počítači, údaje jsou na serveru
Vyšší nároky na hardware pro lokální stanice
Nutnost více kopií SW – dražší licence
Nutnost vývoje aplikace pro různé OS zvlášť Klienti pro přístup k OLAP „Tlustý“ klient
Připojený tlustý klient
Při neustálé konektivitě na server, např. při použití HTTP a počítači trvale připojeném na internet
Odpojený tlustý klient
Umožňuje uložení některých dat lokálně, tzn. je pak možné přenášet dále
Libovolný všeobecný klient
Formát XML – přenositelnost výsledků analýzy Dotaz jazyka
MDX Datová krychle Datová množina Jazyk MDX MDX = Multidimensional Expressions
Jazyk pro navigaci v multidimenzionálních údajích
Výsledek dotazu – 2D tabulka SELECT [] [, …]]
FROM []
[WHERE []] 7847111 7474587 Víno 774755 214147 Rohlíky 1954001 4545784 Pivo 2145441 1299343 Mléko Zisk Zisk Slovensko Čechy MDX Jazyk MDX - příklad Příklad příkazu SELECT
čas, položka čas, položka, místo čas, místo, položka, dodavatel all čas položka místo dodavatel čas, místo čas, dodavatel položka, místo položka, dodavatel místo, dodavatel čas, položka, dodavatel čas, místo, dodavatel položka, místo, dodavatel 0-D(apex) kuboid 1-D kuboidy 2-D kuboidy 3-D kuboidy 4-D(zákl.) kuboid Kostka: Síť kuboidů all produkt datum země produkt, datum produkt, země datum, země produkt, datum, země 0-D(apex) kuboid 1-D kuboidy 2-D kuboidy 3-D(základní) kuboid Kuboidy – příklad Role metadat v datovém skladu Využití metadat (obecně)
při používání datového skladu
uživatel potřebuje znát význam dat k vytvoření efektivních dotazů nad daty
při vytváření datového skladu
k úspěšnému nahrávání a transformaci je potřeba znát dobře vstupní data
pro administraci datového skladu ZÍSKÁNÍ DAT
Procesy:
Extrakce dat, transformace dat,
čištění dat, integrace dat, příprava dat TYPY METADAT Platformy zdrojových dat
Logický model zdrojových dat
Fyzický model zdrojových dat
Definice struktury zdroje
Metody extrakce dat
Pravidla transformace dat
Pravidla čištění dat Pravidla pro sumarizaci
Logické modely cílových dat
Fyzické modely cílových dat
Struktura dat v místě přípravy dat
Vztahy zdrojových a cílových dat
Struktura externích dat
Definice externích dat Obsah metadat (ukázka) – získání dat ZÍSKÁNÍ INFORMACÍ
Procesy:
Generování sestav, zpracování
dotazů, komplexní analýza TYPY METADAT Definice zdrojových dat
Struktura zdrojových dat
Pravidla extrakce dat
Pravidla transformace dat
Pravidla čištění dat
Mapování zdroje a cíle
Sumarizovaná data Fyzický model cílových dat
Popis cílových dat v obchodních pojmech
Obsah dat
Šablony pro dotazy
Předem formátované sestavy
Předdefinované dotazy / sestavy
Obsah OLAPu Obsah metadat (ukázka) – získání informací Obchodní metadata Jsou zaměřená na cílového uživatele – měla by být v obchodním jazyce
postup připojení k datům
Přístupová práva
Celková struktura dat v obchodních pojmech
Názvy tabulek a atributů v obchodních pojmech
Nástroje pro tvorbu dotazů a sestav
Plán aktualizací datového skladu
Měna dat pro OLAP analýzu
atd… Technická metadata Potřebná pro IT personál při vytváření a provozu datového skladu (strukturovaná)
Názvy a popisy jednotlivých programů
Datový model celého datového skladu
Přístupové cesty k sestavám a dotazům
Informace o síti a serveru
Klíčové atributy
Statistiky časového využití dat
Pravidla pro transformaci dat, verzování
Rozmístění záznamů na externích zdrojích dat
atd… Funkční požadavky na metadata Archivace starších metadat, která již nejsou aktuální
Různé zdroje metadat (např. nástroje CASE vs. operační systémy)
Integrace metadat z různých zdrojů
Standardizace podoby metadat pro různé části datového skladu
Opravy v některé z částí metadat se musí „řetězově“ projevit v celém datovém skladu
Synchronizace metadat
Výměna metadat mezi jednotlivými částmi datového skladu
Podpora běžných uživatelů – grafická podoba apod. Obchodní a technická metadata jsou oddělená Technická metadata Obchodní metadata ÚLOŽIŠTĚ PRO METADATA Informační navigátor
Navigace skrze obsah datového skladu, procházení tabulek a atributů, tvorba dotazů a sestav, drill-down a roll-up, uložení výsledků Uložiště pro metadata
Vloženo: 28.04.2009
Velikost: 4,53 MB
Komentáře
Tento materiál neobsahuje žádné komentáře.
Mohlo by tě zajímat:
Skupina předmětu DS_2 - Datové sklady
Reference vyučujících předmětu DS_2 - Datové sklady
Podobné materiály
- KA - Knihovnické aplikace - Soubor přednášek z KA
- ZPC - Základy PC - Soubor přednášek
- AP_1 - Algoritmizace a programovací techniky - Soubor přednášek
- I1 - Informatika 1 - Zápisky ze cvik a přednášek
- VM - Výpočetní metody - výpisky z přednášek
- DS_2 - Datové sklady - Výtah z přednášek
- Bmak1P - Makroekonomie 1 - Makro - výpisky z přednášek a skript
- Bep1P - Ekonomika podniku 1 - výtah z přednášek
- RPV - Řízení projektů vývoje IT/IS - Vypracované otázky k testu
- VF - Veřejné finance - Jedna z variant testu u zkoušky
- ZF - Základy financování - Ofocené varianty testu
- ZM2 - Parametrické modelování - Pro/Engineer - 50 otázek z testu
- ZM2 - Parametrické modelování - Pro/Engineer - 50.Otázek z testu 2
- MIK - Mikroekonomie - Opakování ekonomických pojmů (řešení testu)
- OcccP - Cross cultural communication - Otázky z testu
Copyright 2024 unium.cz