- Stahuj zápisky z přednášek a ostatní studijní materiály
- Zapisuj si jen kvalitní vyučující (obsáhlá databáze referencí)
- Nastav si své předměty a buď stále v obraze
- Zapoj se svojí aktivitou do soutěže o ceny
- Založ si svůj profil, aby tě tví spolužáci mohli najít
- Najdi své přátele podle místa kde bydlíš nebo školy kterou studuješ
- Diskutuj ve skupinách o tématech, které tě zajímají
Studijní materiály
Zjednodušená ukázka:
Stáhnout celý tento materiálPopis náhodné složky Náhodnou složku t, kterou lze vyjádřit ve tvaru
t = yt – y`t,
lze chápat jako výsledek působení blíže nespecifikovaného souboru náhodných (stochastických) vlivů.
Zdrojem této složky jsou nepodchycené nebo nepodchytitelné drobné a vzájemně nezávislé náhodné vlivy, které se v rámci ČŘ vykompenzují.
Lze tedy předpokládat, že jejich střední hodnoty jsou nulové, tj. že platí
E(t) = 0, t = 1, 2, …, n.
Vedle předpokladu o střední hodnotě náhodných poruch je nutné formulovat ještě předpoklady o jejich variabilitě, jejich vzájemné závislosti, popř. o jejich zákonu rozdělení. Nejméně náročnou a také nejpoužívanější je hypotéza o homoskedasticitě náhodných poruch.
Předpokládá se, že náhodné poruchy s nulovými středními hodnotami mají konstantní rozptyl a jsou vzájemně lineárně nezávislé, tj. platí
D(t) = 2, t = 1, 2, …, n,
E(t t`) = 0, t, t` = 1, 2, …, n, t t`.
Jsou-li tyto předpoklady splněny, tvoří řada t tzv. bílý šum.
Druhým používaným předpokladem o náhodné složce je předpoklad o heteroskedasticitě náhodných poruch, kde se předpokládá, že náhodné poruchy s nulovými středními hodnotami jsou vzájemně nezávislé s měnlivými rozptyly Rozptyl je v této formulace úměrný veličině wt-1, kde veličiny wt nazýváme vahou pozorování splňující požadavek Třetím používaným předpokladem, se kterým se setkáváme, je předpoklad o autoregresi náhodných poruch. Vychází z představy, že
t = t – 1 + ut, 0 < < 1,
kde je autokorelační koeficient sousedních náhodných poruch, který je považován za konstantní, a ut (t = 1, 2, …, n) je posloupnost náhodných poruch s nulovými středními hodnotami a konstantními rozptyly, přičemž tyto poruchy jsou vzájemně nezávislé. Náhodná porucha v čase t se tedy skládá ze dvou složek: ze složky závislé na předchozí poruše t – 1 a z náhodné složky ut. Durbin – Watsonův test autokorelace
Pomocí tohoto testu ověřujeme, zda jsou náhodné poruchy nezávislé.
Proti nulové hypotéze o nezávislosti náhodných poruch (autokorelace není) stavíme alternativní hypotézu tvrdící, že náhodné poruchy jsou závislé, přičemž závislost je vyjádřena autoregresním schématem t = t – 1 + ut.
Jako testové kritérium se u tohoto testu používá statistika Hodnoty této statistiky se pohybují v intervalu od nuly do čtyř. V případě nezávislosti náhodných poruch se statistika pohybuje okolo čísla 2, v případě přímé závislosti jsou její hodnoty kolem nuly a v případě nepřímé závislosti kolem 4.
Pro daný počet pozorování n a počet strukturálních parametrů modelu (např. pro lineární trend je počet strukturálních parametrů, tj. počet parametrů, u kterých je časová proměnná, roven jedné) jsou tabelovány pro případ přímé závislosti a různé hladiny významnosti dvojice kritických hodnot dL a dU. V případě, že platí d < dL, zamítáme na zvolené hladině významnosti nulovou hypotézu ve prospěch alternativní hypotézy a můžeme předpokládat, že mezi náhodnými poruchami je přímá závislost. Nedostatkem tohoto testu je, že v případě, že dL < d < dU, tento test „mlčí“, tj. nesvědčí ani pro nulovou, ani pro alternativní hypotézu.
V praktických situacích obvykle speciální tabulky D-W testu po ruce nemáme, a proto vcelku spolehlivě vystačíme s přibližným vyhodnocením testového kritéria. Adaptivní přístupy k modelu časové řady
Od klasických modelů s konstantními parametry se adaptivní přístupy liší tím, že nepředpokládají stabilitu analytického tvaru ani strukturálních parametrů v čase, a dokonce ani spojitost trendové funkce.
V zásadě jediný předpoklad, nutný pro konkrétní užívání adaptivních metod v procesu předvídání, představuje časová stacionarita rozdělení chyb prognózy.
Modely tohoto typu rychle reagují na strukturální změny, k nimž dochází v čase, a jsou velmi vhodné při prognózování průběhu časových řad, které se vyznačují nepravidelnostmi a zlomy v trendu. Adaptivní modely vychází z předpokladu, že pro konstrukci prognózy budoucího vývoje mají cenu nejnovější pozorování časové řady.
Proto těmto nejnovějším pozorováním se přiřazují největší váhy, a dřívější pozorování se buď úplně vyřazují ze zkoumání nebo se jim přiřazují menší váhy ve srovnání s později pozorovanými hodnotami.
Adaptivní modely tedy berou v úvahu „stárnutí“ informací.
Statistická teorie zná více těchto postupů. Mezi nejznámější, které přináší v praktických aplikacích dobré výsledky, patří metody exponenciálního vyrovnávání. Exponenciální vyrovnávání
Předpokládejme, že v časovém okamžiku n, který představuje pozorování v přítomném čase, máme k dispozici řadu empirických hodnot yn - k (k = 0, 1, ..., n – 1), kde jednotlivá k interpretujeme jako „stáří“ (věk) pozorování. Vycházíme opět z aditivního modelu časové řady, tj. platí
yn - k = Tn - k + n – k.
Hodnotu trendové složky Tn - k lze přitom popsat funkcí
Tn - k = a0 - a1 k + a2 k2 + ... + (-1)k ak kk,
kde k je časová proměnná, kterou lze chápat jako „věk“ pozorování z hlediska časového okamžiku n. Odhady parametrů této trendové funkce lze získat na základě metody nejmenších čtverců ve formulaci Při tomto způsobu vyrovnávání se každému empirickému pozorování při vyrovnávání přisuzuje stejná váha, tj. předpokládá se, že pozorování blízká časovému bodu n (tj. současnosti) jsou pro odhad parametrů ak a tím i pro možnou konstrukci prognózy budoucího vývoje analyzovaného ukazatele stejně důležitá jako pozorování pro poměrně vysoké hodnoty k, tj. pro pozorování starší. Přitom lze důvodně předpokládat, že empirická pozorování „čerstvější“ (bližší časovému okamžiku n) budou více ovlivňovat budoucí vývoj analyzované řady než pozorování starší. Měla by se tedy těmto „čerstvějším“ pozorováním při odhadu parametrů ak přiřazovat větší váha než pozorováním starším. Za této situace je nutné předchozí podmínku formulovat ve tvaru kde wk představují váhy, které jsou nepřímo úměrné „stáří“ pozorování, tj. se vzrůstajícím věkem pozorování se váha snižuje.
Předpokládá se přitom, že váha wk je exponenciální funkcí typu
wk = k, 0 1, k = 0, 1, ..., n -1,
kde veličina se nazývá vyrovnávací konstanta. Váhy wk jsou tedy exponenciální funkcí věku pozorování. V praxi se lze setkat se třemi různými způsoby exponenciálního vyrovnávání:
s Brownovým exponenciálním vyrovnáváním,
s Holtovým lineárním exponenciálním vyrovnáváním,
s Wintersovým sezónním vyrovnáváním.
U Brownova exponenciálního vyrovnávání se ještě rozlišuje:
vyrovnávání jednoduché, kdy trend je možno považovat v krátkých úsecích řady za konstantní,
dvojité (lineární), kdy se trend v časové řadě modeluje po částech přímkou,
trojité (kvadratické), kdy je trend v časové řadě popisován po částech parabolou. Pro získání vyrovnaných hodnot se u Brownova vyrovnávání pracuje s vyrovnávací konstantou z intervalu (0 1). U Holtova vyrovnávání se odhadují dvě vyrovnávací konstanty a opět z intervalu (0 1). Konstanta se používá k vyrovnávání úrovně časové řady, konstanta k vlastnímu vyrovnání trendu. Zatímco tyto dvě metody modelují trend v časové řadě, Wintersovo vyrovnávání pokrývá vedle trendu rovněž sezónní složku. Používá se tedy pro sezónní časové řady. Při jeho konstrukci se vychází z multiplikativního modelu časové řady, kde se trendová složka popisuje lineární trendovou funkcí a sezónní složku se kvantifikuje pomocí modelu proporcionální sezónnosti. Pro tento způsob vyrovnávání se odhadují tři vyrovnávací konstanty , , z intervalu (0 1). Korelace časových řad
Pokud se sleduje současně několik časových řad, často vznikne otázka, zda mezi těmito časovými řadami neexistují takové souvislosti, které by dovolovaly vysvětlit změny v jedné časové řadě změnami v druhé časové řadě, popř. v několika dalších časových řadách.
Ze statistického hlediska se potom jedná o problematiku korelace časových řad.
Při zkoumání korelace časových řad musíme mít na zřeteli, že statistický soubor časové řady je daný hodnotami postupně na sebe navazujících období. Bez zjevné věcné souvislosti může mít velmi podobný vývoj v daném čase i jiná časová řada. V takovýchto případech vypočtené poměrně vysoké míry korelace nevyjadřují souvislost mezi jevy, ale jenom souběžnost průběhu dvou či více ČŘ. Pro hodnocení příčinného vztahu mezi ČŘ se používají metody založené na měření těsnosti závislosti řad náhodné složky, tj. řad očištěných od trendu, popř. také od sezónní složky (jde tedy o korelaci náhodné složky).
Předpokládejme pro jednoduchost, že pracujeme s časovými řadami typu
yt = Tt + t, t = 1, 2, …, n,
kde pro dané t značí yt empirickou hodnotu ČŘ, Tt hodnotu trendové složky a t hodnotu náhodné složky (náhodnou složku vyjadřujeme pomocí odchylek empirických hodnot ČŘ od teoretických – vyrovnaných hodnot). Předpokládejme nyní, že máme zkoumat závislost mezi dvěma časovými řadami, z nichž jednu označíme symbolem xt a druhou symbolem yt pro t = 1, 2, …, n.
Odhadneme-li průběh trendu obou uvedených řad, dostaneme posloupnost odhadů trendových hodnot (T`x a T`y).
Při hledání závislosti mezi oběma řadami pak budeme korelovat odhady reziduálních hodnot, které označíme jako
ex = xt – T`x a ey = yt – T`y ,t = 1, 2, …, n. Příklad
Chceme změřit sílu závislosti mezi dvěmi časovými řadami.
Určíme-li korelační koeficient přímo z hodnot časových řad yt a xt, dostaneme hodnotu ryx = 0,892952, což by mohlo dokládat silný vztah mezi nimi.
Avšak pohled na hodnoty ČŘ nás upozorní na to, že mezi ČŘ příliš systematický vývoj neexistuje. Pro odhad trendu nalezneme rovnice T`y = 228 + 1,09091·t a T`x = 1946,333 + 71,39394·t, na jejichž základě spočteme rezidua. Jejich korelace je však již velmi nízká, a sice reyex = -0,02968, což značí slabou intenzitu závislosti. Uvedený příklad popisuje problém tzv. zdánlivé korelace.
Zdánlivá korelace spočívá v tom, že je někdy možné pozorovat silnou závislost mezi proměnnými i v případě, kdy mezi proměnnými ve skutečnosti závislost buď skoro nebo vůbec neexistuje. Dochází k ní proto, že obě proměnné vykazují stejný lineární trend.
Je potřeba mít na zřeteli, že volba a použití určité trendové funkce je do určité míry ovlivněna subjektivismem a zvolená funkce nemusí být vždy vhodná.
Hodnověrnost vypočteného koeficientu korelace je totiž podmíněna správnou volbou typu trendových funkcí, od nichž počítáme odchylky, které pak korelujeme. Vyjádření trendu nevhodnou funkcí se může potom projevit také v tom, že odchylky empirických hodnot od teoretických nebudou správně vystihovat náhodnou složku ČŘ, což bude mít za následek, že odchylky nebudou v čase náhodně uspořádány a bude se mezi nimi projevovat autokorelace, tj. korelace mezi sousedními odchylkami od trendu.
Vhodným prostředkem ověření náhodnosti uspořádání je např. Durbin – Watsonův test autokorelace. V analýze ČŘ se někdy setkáváme s případem, kdy vliv určitého jevu na jiný jev se neprojevuje ve stejných obdobích, ale často až po určité době, tj. po uplynutí jednoho, dvou nebo více období. Pak mluvíme o tzv. opožděné korelaci.
Zkoumáme ji stejnými metodami jako korelaci mezi dvěma stejnými obdobími pouze s tím rozdílem, že posunujeme jednu ČŘ (závisle proměnná) o jedno, dvě nebo více období dále. To znamená, že sledujeme vliv hodnot např. i-tého roku na hodnoty závisle proměnné v obdobích i +1, i + 2, …. .
Tak zjistíme, zda vliv vysvětlující proměnné na závisle proměnnou je omezen pouze na dané období nebo zda působí i po následující období. Zkoumání vzájemných vztahů mezi hodnotami jedné časové řady
V souvislosti se zkoumáním korelace ČŘ přichází v úvahu analýza závislostí mezi sousedními členy jedné ČŘ.
Mírou těsnosti této závislosti je koeficient autokorelace prvního řádu, který můžeme vyjádřit ve formě Obdobně koeficient korelace, jímž je možné měřit těsnost závislosti dvou členů časové řady, mezi nimiž je k-1 jiných pozorování, se nazývá koeficient autokorelace k-tého řádu.
Vyjadřuje se vzorcem Různé hodnoty rk (tedy autokorelací s posunem k) je možné graficky znázornit pomocí grafu, který se nazývá korelogram. Příklad
Máme údaje o těžbě kaolínu v tis. t v letech 1985 – 1995: Z údajů vypočítáme koeficient autokorelace prvního řádu. Získaný výsledek svědčí o vysoké autokorelovanosti dané ČŘ.
Korelace Mám dvě proměnné, prakticky „stejnocenné“ (tradičně se ale označují X a Y) - ptám se, zda jsou nezávislé, a pokud jsou „korelované“, jak moc. Bezrozměrné číslo (kovariance standardizovaná variancemi jednotlivých proměnných), -1 značí deterministickou negativní, +1 deterministickou pozitivní závislost. Pokud jsou kladné odchylky od průměru u X spojeny s kladnými odchylkami u Y, a záporné se zápornými, součin je kladný (Pearsonův) Korelační koeficient Předpokládáme lineární vztah, resp. dvourozměrné normální rozdělení I tady je r~0, přesto hodnoty nejsou nezávislé Ale pozor, pro tohle X nemá Y normální rozdělení r=+0.99 r=-0.99 r=+0.83 r=-0.83 r=+0.45 r=-0.45 r je odhad parametru základního souboru - . Zase převedeme na t-test
Opět lze užít jednostranný i oboustranný test. Lze testovat i nulovou hypotézu, že =nějaká nenulová hodnota, postup je složitější, ale v praxi se to většinou neužívá. Testujeme nulovou hypotézuH0: =0 Jsou tabelované i kritické hodnoty r (pro různé velikosti výběru) Srovnání s regresí Platí, že koeficient determinace v regresi (R2) je druhá mocnina korelačního koeficientu spočteného z týchž dvou proměnných.
Dosažená hladina významnosti testu o nezávislosti je přesně stejná v regresi i pro korelační koeficient. Jen manipulativní experiment jednoznačně dokáže kauzalitu Síla testu Regrese je průkazná právě tehdy, když je průkazný korelační koeficient.
Síla testu roste (u obojího) s těsností vztahu a s počtem pozorování.
Když chci nějak odhadnout, kolik pozorování potřebuju, tak musím mít představu, jak je těsný vztah (kolik je v základním souboru R2 nebo ρ). Když chci mít přesnější představu (např. že s 95% pravděpodobností zamítnu H0 na 1% hladině významnosti), popis je ve skriptech. Vše ale vyžaduje určitou představu, kolik je ρ Síla testu: kritické hodnoty r - lze se podívat, kolik potřebuju pozorování, abych měl ~50% šanci, že zamítnu H0 na dané hladině významnosti (při známém ρ) d je diference v pořadí Koeficient pořadové korelace (Spearmannův) [existuje ještě Kendallův] Nahradím každou proměnnou jejím pořadím a z pořadí spočítám korelační koeficient. Pro větší výběry platí i kritické hodnoty pro normální (Pearsonův) korelační koeficient. Lze užít výpočetní tvar Můžeme říci, že Pearsonův korelační koeficient je mírou lineární závislosti, Spearmanův mírou monotónní závislosti. Ale tady bude Spearmannův k. také 0 Další možností je užít permutační test Náhodně prohazuju hodnoty nezávisle proměnné, a počítám, kolikrát mě závislost vyjde “tak hezky”, jako mě vyšla v datech.
Regresní a korelační analýza Regresní analýza Regresní analýza
Jde o přesnější popis tvaru vztahu mezi proměnnými X a Y a charakterizování jeho vhodnosti pro predikci hodnot závisle proměnné pomocí hodnot nezávisle proměnné.
Může jít např. o následující situace:
Korelační koeficient i graf prokazují lineární vztah mezi spotřebou zemního plynu v bytě v závislosti na venkovní teplotě. Otázka zní, jak přesně můžeme predikovat spotřebu pomocí teploty.
Ve sportovním výzkumu máme např. data o rychlosti skokanů na hraně můstku a dosažené délce skoku. Zajímá nás, jaký je mezi nimi vztah: lze pomocí rychlosti predikovat délku skoku, s jakou přesností, je vztah lineární? V regresní analýze obecně analyzujeme vztah mezi jednou proměnnou zvanou cílová nebo závislá proměnná (Y) a několika dalšími, které nazýváme nezávislé nebo ovlivňující proměnné (X).
Vztah reprezentujeme matematickým modelem, což je rovnice, jež svazuje závisle s nezávisle proměnnou a pravděpodobnostní předpoklady, které by měl vztah splňovat.
Závisle proměnná se spojena s nezávisle proměnnými funkcí nazývanou regresní funkcí, jež obsahuje několik neznámých parametrů.
Jestliže tato funkce je lineární v těchto parametrech (nemusí být lineární v proměnných), mluvíme o lineárním regresním modelu. Statistické problémy, která nás v regresní analýze zajímají, jsou:
získání statistických odhadů neznámých parametrů regresní funkce,
testování hypotéz o těchto parametrech,
ověřování předpokladů regresního modelu.
Prokládání dat přímkou
Máme k dispozici uspořádané dvojice číselných údajů (x1, y1), (x2, y2), …, (xn, yn) pro proměnné X a Y.
Jestliže graf ukáže lineární vztah mezi proměnnými, usilujeme o zachycení vztahu tím, že body proložíme přímku. Hledáme přímku, jež je experimentálním bodům co možná nejblíže (žádná přímka neprotne všechny body).
Snažíme se určit takovou přímku, která bude co nejlépe predikovat y-hodnoty pomocí x-hodnot.
Základní model regresní závislosti s jednou nezávisle proměnnou X vyjadřuje libovolnou hodnotu závisle proměnné Y jako: kde f(xi) je tzv. regresní funkce a ei je náhodná (reziduální) odchylka i-tého pozorování proměnné Y.
Reziduální odchylka (chyba predikce) – rozdíl mezi naměřenou a očekávanou hodnotou (naměřená hodnota yi – predikovaná hodnota yi`). Dobře proložená přímka y = a + b·x minimalizuje velikosti reziduálních hodnot pro hodnoty (xi, yi), kterými přímku prokládáme.
Pro stanovení parametrů se nejčastěji používá metoda nejmenších čtverců.
Hodnoty parametrů a, b přímky y = a + b·x získáme touto metodou tak, aby součet druhých mocnin reziduálních hodnot byl minimální vzhledem k parametrům a, b. Minimalizuje sečtené čtverce úseček, které vyznačují vzdálenost bodu od proložené přímky ve směru osy Y. Výpočet tohoto minima vede k optimálním hodnotám kde r je korelace obou proměnných a sx, sy jsou směrodatné odchylky naměřených hodnot proměnných X a Y.
Rozptýlenost bodů kolem přímky je charakterizována zbytkovým (reziduálním) rozptylem, případně směrodatnou chybou odhadu při regresi (lze také posoudit přesnost provedených regresních odhadů jako míru chyby) Hodnota yi` je odhad proměnné Y pomocí regresního vztahu (yi` = a + bxi). Metoda nejmenších čtverců – postup stanovení parametrů u jednoduché lineární závislosti Z podmínky minimálnosti čtverců jsou vyvozeny normální rovnice, ze kterých se jejich řešením vypočtou neznámé parametry a a b. Má-li tato funkce f(a,b) minimum, musejí se její první parciální derivace podle konstant a a b rovnat nule. Tedy platí Vynásobením každé z rovnic –1/2, rozvedením součtů a osamostatněním součtů obsahujících yi se získá soustava normálních rovnic. Řešením soustavy normálních rovnic obdržíme: Jednostranná závislost – proměnná X je nezávisle proměnná a Y pak závisle proměnná.
Oboustranná závislost – nelze přesně rozhodnout, která proměnná je závislá a která nezávislá (sdružené přímky). Vztahy pro regresi X na Y získáme vhodnou záměnou ve vzorcích (např. bxy = r·sx/sy, kde r je korelační koeficient).
Mezi směrnicemi obou regresních přímek byx a bxy existuje vztah Můžeme tedy nalézt dvě regresní přímky, které se budou protínat v bodě a tvoří jakési nůžky.
Čím větší je korelace, tím více jsou nůžky stisknuty. Maticové vyjádření regresního problému
Lineární (teoretický) model lze zapsat jako y = X + ,
ve kterém:
y – n-členný náhodný vektor napozorovaných (zjištěných) hodnot vysvětlované proměnné Y,
X – nenáhodná matice typu n x (k+1) zvolených n kombinací hodnot vysvětlujících proměnných,
– je (k+1)členný vektor neznámých parametrů modelu,
– n-členný vektor nepozorovatelné rušivé (náhodné) složky. Pro lepší představu Z uvedeného zápisu je vidět, že v n lineárních rovnicích je p = k+1 neznámých regresních paramet
Vloženo: 1.03.2011
Velikost: 4,31 MB
Komentáře
Tento materiál neobsahuje žádné komentáře.
Copyright 2024 unium.cz