- Stahuj zápisky z přednášek a ostatní studijní materiály
- Zapisuj si jen kvalitní vyučující (obsáhlá databáze referencí)
- Nastav si své předměty a buď stále v obraze
- Zapoj se svojí aktivitou do soutěže o ceny
- Založ si svůj profil, aby tě tví spolužáci mohli najít
- Najdi své přátele podle místa kde bydlíš nebo školy kterou studuješ
- Diskutuj ve skupinách o tématech, které tě zajímají
Studijní materiály
Zjednodušená ukázka:
Stáhnout celý tento materiále dat
mapování vstupních dat na data v datovém skladu
čištění dat, odstranění duplicit, sloučení dat
denormalizace dat ze vstupních relačních DB, dle požadavků datového skladu
konverze datových typů
výpočet a odvození hodnot atributů
kontrola referenční integrity
shromažďování dat dle potřeby
vyřešení chybějících hodnot
Příprava dat
záloha dat a zotavení z chyb databáze
řazení a slučování souborů
vytvoření nového souboru při změně dimenzí
vytvoření záznamu o přiřazení jednotlivých datových položek datového skladu k souboru
vytvoření primárních a cizích klíčů pro nahrávaná data
Uložení dat – technická architektura
Uložení dat
většinou se využívá relačních databází
datový sklad
většinou se vychází z E-R modelu
datové trhy
většinou se vychází z dimenzionálního modelu
Data z místa přípravy dat
soubory nebo tabulky pro iniciální, popř. inkrementální nahrávání dat
Uložení dat – funkce a služby
Nahrání dat pro iniciální naplnění datového skladu
Podpora nahrávání dat do více tabulek na detailní a sumarizační úrovni
Optimalizace procesu nahrávání dat
Záloha dat a zotavení při chybách
Bezpečnost dat
Monitorování a nastavování databáze
Získání informací – technická architektura
Dočasné uložení dat
dočasné úložiště pro uložení výsledků dotazů a sestav pro pozdější užití
uložení dat pro standardní sestavy
účelová vícedimenzionální databáze
Umístění služeb
na serveru
na uživatelských PC
na straně databázového serveru
Získání informací – funkce a služby
Poskytnutí bezpečnosti přístupu k informacím
Monitorování přístupu uživatelů pro účely budoucího vylepšování
Umožnění uživateli procházet data datového skladu
Zjednodušení přístupu skrytím interních záležitostí
Automatické přeformátování dotazů pro optimální spuštění
Možnost uložení získaných dat pro pozdější užití
Možnost triggerů pro monitorování získávání dat
Poskytnutí komplexní analýzy OLAP
Umožnění přenosu dat pro systémy marketingového rozhodování a data mining
Zpracování uživatelských dotazů
OLAP- prednaska
OLAP: OLAP (Online Analytical Processing) je technologie uložení dat v databázi, která umožňuje uspořádat velké objemy dat tak, aby byla data přístupná a srozumitelná uživatelům zabývajícím se analýzou obchodních trendů a výsledků.
Hvězdicové schéma
Tabulka faktů obsahuje cizí klíče do tabulky dimenzí, ty se vztahují k jejím primárním klíčům
Snadno pochopitelné
Tabulky dimenzí jsou však nejsou normalizované, je to tedy poměrně pomalé
Schéma „sněhové vločky“ (snowflake schema)
Některé dimenze jsou složeny z mnoha relačně svázaných tabulek
Rychlejší zavedení údajů
Nižší dotazovací výkon – více spojení tabulek
Model „souhvězdí“
Slouží pro sofistikované aplikace vyžadující více tabulek faktů
Sdílení tabulek dimenzí více tabulkami faktů
Jde spíše o spojení více hvězdicových schémat do jednoho schématu
Základní operace OLAP analýzy
Operace Drill-Down (vnoření) a Roll-Up (vynoření)
Posuny v hierarchii pro danou dimenzi směrem k detailní úrovni, resp. k obecnější úrovni
Operace Roll-Up zahrnuje především sumační operace, drill-down přepočítání hodnot…
Operace Drill-Across
Přechod na jinou hierarchii definovanou nad stejnou dimenzí
Operace Drill-Through
Přechod na úroveň záznamů v tabulce – čtení konkrétních hodnot tabulky faktů.
Operace Slice & Dice
Jde o pohled na kostku pro jednu hodnotu jedné z dimenzí
Operace Rotation
Umožňuje pohled na kostku z různých úhlů pohledu – jde o „změnu os“ datové kostky a tím o změnu výsledku operace slice & dice
MOLAP
Data se získávají z DB nebo datového skladu
Ukládají se do vlastních datových struktur
Databáze konstruována pro rychlé vyhledávání údajů
Výhoda: maximální výkon
Nevýhoda: redundance údajů, velké prostorové nároky
Vytváření datových kostek předem
Použití technologie pro ukládání multidim. dat v polích, ne tabulkách
Technologie pro zpracování řídkých matic
ROLAP
Údaje jsou získávány z relačních tabulek, jsou uživateli předkládány jako multidimenzionální pohled
Data jsou uložena jako záznamy relační tabulky
Žádná redundance
Použití komplexních SQL dotazů k získání dat ze skladu
Datové kostky jsou vytvářeny za běhu
Multidimenzionální pohledy vytváří prezentační vrstva
DATA MINING-prednaska
metodologie získávání netriviálních skrytých a potenciálně užitečných informací z dat
Proces získávání znalostí z dat
Stanovení cílů
Jaký typ znalosti chceme nalézt?
Nad jakými daty budeme proces získávání znalostí provádět?
Je problém řešitelný?
Budou získané výsledky užitečné v praxi?
V jakém tvaru a formě chceme výsledky získávání znalostí zobrazit?
Jsou naše data vhodná pro danou dolovací metodu vhodná?
Výběr zdrojů dat
Typy dat pro data mining z hlediska zaměření
Demografická data (charakteristika osob - pohlaví, věk, vzdělání) – jsou levná, ale často neúplná
Behaviorální data (nákupy, prodeje atd.) – jsou dražší, ale z hlediska data miningu nejcennější
Psychografická data (typicky získaná průzkumem veřejného mínění) pomáhají při analýze chování zákazníka
Výběr zdrojů dat
Typy databází z hlediska obsahu
Zákaznické databáze – údaje o zákazníka, případně o jeho aktivitách
Transakční databáze – údaje o aktivitách zákazníků (většinou anonymních)
Databáze historie nabídek – databáze o oslovování zákazníků kampaněmi
Datový sklad
Externí data
Výběr zdrojů dat
Typy dat z hlediska formátu
Relační a transakční databáze
Objektově-orientované databáze
Multimediální databáze
WWW
Textové dokumenty
Prostorová, časová data…
Předzpracování dat – čištění dat
Položky obsahující neúplné hodnoty
Zanedbání záznamu, doplnění průměrnou hodnotou nebo konstantou „unknown“, ruční zadání, predikce
Položky obsahující chybné hodnoty
Binding – vyhlazení na základě sousedních hodnot
Shlukování – podobné hodnoty jsou organizovány do skupin, ostatní jsou chybné
Regresní metody
Kombinace lidské a počítačové kontroly
Nekonzistentní data
Vznikají při vkládání dat do databáze
Při integraci dat (např. různé názvy atributů)
Řešení
Ruční opravení
Opravné rutiny
Integrace více zdrojů do jedné databáze
Redundance
Jak určit ekvivalentní entity z více zdrojů?
Detekce a řešení konfliktů hodnot atributů
např. různé kódování, měrné jednotky nebo různé vyjádření hodnoty
Dolování dat
Aplikace zvoleného algoritmu na předzpracovaná data, dle typu znalosti a
Vloženo: 28.04.2009
Velikost: 154,50 kB
Komentáře
Tento materiál neobsahuje žádné komentáře.
Mohlo by tě zajímat:
Skupina předmětu DS_2 - Datové sklady
Reference vyučujících předmětu DS_2 - Datové sklady
Podobné materiály
- ZPE - Základy podnikové ekonomiky - Výtah ze skript
- ZEP - Základy ekonomiky podniku - skripta výtah
- Bep1P - Ekonomika podniku 1 - výtah z přednášek
- KzpP - Základy práva - Občanský zákoník - výtah paragrafů
- I1 - Informatika 1 - Zápisky ze cvik a přednášek
- VM - Výpočetní metody - výpisky z přednášek
- KA - Knihovnické aplikace - Soubor přednášek z KA
- ZPC - Základy PC - Soubor přednášek
- AP_1 - Algoritmizace a programovací techniky - Soubor přednášek
- DS_2 - Datové sklady - Soubor přednášek co bdue na testu
- Bmak1P - Makroekonomie 1 - Makro - výpisky z přednášek a skript
Copyright 2024 unium.cz