Studijní materiály

Zpět

Hromadně přidat materiály

Prazentace

ESE27E - Základy statistiky

Hodnocení materiálu:

Zjednodušená ukázka:

Stáhnout celý tento materiál

rů a n hodnot náhodné složky.
Soustavu normálních rovnic pro hledanou funkci y = Xb +  lze pak v maticovém tvaru vyjádřit takto: Za předpokladu, že k matici X`X existuje matice inverzní, dostaneme vektor odhadovaných parametrů podle vztahu Maticově lze stanovit i hodnotu korelačního indexu. Příklad
Chceme stanovit regresní přímku pro závislost proměnné Y na proměnné X na základě následujících údajů: Regresní funkce má tedy tvar:
y` = 4,3754 + 0,01994 xi
Je potřeba také stanovit sílu závislosti: Řešení pomocí maticového počtu Předpoklady metody nejmenších čtverců
Regresní parametry  mohou nabývat libovolných hodnot. V technické praxi však často existují omezení parametrů, která vycházejí z jejich fyzikálního smyslu.
Regresní model je lineární v parametrech a platí aditivní vztah y = X + .
Vysvětlující proměnné X1, X2, …, Xk jsou nenáhodné a neexistuje mezi nimi funkční lineární závislost.
Pro danou kombinaci hodnot vysvětlujících proměnných jsou hodnoty nepozorovatelné rušivé složky i normálně rozdělené, nezávislé náhodné veličiny s nulovými středními hodnotami a se stejným (konstantním) rozptylem 2. Neboli vektor hodnot rušivé složky  má n-rozměrné normální rozdělení N(0, 2) s vektorem středních hodnot E() = 0 a s kovarianční maticí 2 E, kde E je jednotková matice. Náhodné chyby i mají nulovou střední hodnotu E(i) = 0, konstantní a konečný rozptyl E(i2) = 2. Také podmíněný rozptyl D(y/x) = 2 je konstantní a jde o homoskedastický případ.
Náhodné chyby i jsou vzájemně nekorelované a platí cov (i, j) = E(i, j) = 0. Pokud mají chyby normální rozdělení, jsou nezávislé. Odhady v regresní analýze
Interpolace – předmětem zájmu je některá z použitých kombinací vysvětlujících proměnných
Extrapolace – pozornost je upřena na hodnotu proměnné Y pro předpokládané budoucí nebo výzkumně zajímavé kombinace hodnot proměnné Y.
Je nutné odlišit dva významově zásadně odlišné případy:
Odhad průměrné hodnoty Y neboli odhad podmíněné střední (očekávané) proměnné Y vzhledem ke zvolené hodnotě (kombinaci hodnot) vysvětlující proměnné.
Odhad konkrétní hodnoty y`i neboli předpověď y`i = a + bxi hodnoty proměnné Y vzhledem ke zvolené hodnotě (kombinaci hodnot) vysvětlující proměnné. Pás spolehlivosti kolem regresní přímky
Z rovnice regresní přímky zkoumaného souboru lze určovat teoretickou hodnotu závisle proměnné příslušející určité skutečné hodnotě nezávisle proměnné.
Avšak skutečné konkrétní hodnoty závisle proměnné jsou více méně rozptýleny kolem stanovené regresní přímky.
Se zvolenou pravděpodobností je možno určit tzv. pás spolehlivosti, v němž se tyto skutečné (empirické) hodnoty nacházejí jako sy.x je směrodatná chyba, která je rovna přičemž jsou 100 (1-/2)% kvantily Studentova t-rozdělení
s (n-2) stupni volnosti Příklad
Pro závislost proměnné Y na proměnné X byla stanovena regresní přímka ve tvaru y`i = 4,375 + 0,01994 xi a pomocné výpočty n = 12t1-/2 (10) = 2,228
yi (min, max) = 4,375 + 0,01994 xi  2,228 · 1,082
Znamená to, že dolní mez pro skutečné hodnoty je
yi (min) = 1,96456 + 0,01994 xi
a horní mez yi (max) = 6,78626 + 0,01994 xi Test významnosti regresního koeficientu
Nulová hypotéza předpokládá, že výběrový koeficient regrese je odhadem regresního koeficientu ZS, o němž se předpokládá, že má nulovou hodnotu, tzn. že platí H0: yx = 0.
Testové kritérium má tvar V případě, že se zamítá H0, je existence lineární závislosti prokázána a odvozenou regresní funkci lze použít k provádění regresních odhadů. Intervalový odhad regresního koeficientu
Oboustranný interval spolehlivosti pro regresní koeficient je vymezen následujícím způsobem: Bodovým odhadem regresního koeficientu yx je vypočtený regresní koeficient byx, tzn. Příklad - y`i = 4,375 + 0,01994 xi
H0: yx = 0 t0,05(10) = 2,228 Test významnosti regresní přímky
K testování lze použít upravený model analýzy rozptylu. n - p Kolem regrese p - 1 Regrese Testovací kritérium Rozptyl Stupně volnosti Součet čtverců Variabilita p – počet parametrů ověřované funkce
Jestliže F  F [(p-1); (n-p)], zamítáme H0. Příslušné součty čtverců se stanoví následujícím způsobem: pro variabilitu regrese pro variabilitu kolem regrese pro celkovou variabilitu Příklad – test regresní přímky
Pro závislost proměnné Y na proměnné X byla stanovena regresní přímka ve tvaru y`i = 4,375 + 0,01994 xi. S1 = 7,9404
Sr = 11,7087
S = 19,6492 F0,05 [(2-1); (12-2)] = 4,96
F  F [(p-1); (n-p)]  zamítáme H0 Intervalový odhad regresní přímky
Interval spolehlivosti, který s danou pravděpodobností pokrývá hledanou regresní přímku základního souboru y`j = yx + yxxj, je určen na základě regresní přímky výběrového souboru y`i = ayx + byxxi a je vyjádřen takto: sx2 – rozptyl proměnné X
sy – směrodatná odchylka proměnné Y Standardním výstupem statistických programů je závěr Fisherova-Snedecorova F-testu o významnosti regresní přímky a výsledky Studentova t-testu o významnosti jednotlivých parametrů vektoru regresních parametrů.
Mohou tedy nastat tyto případy:
F-test vychází nevýznamný, všechny t-testy vychází rovněž jako nevýznamné. Model se pak považuje za nevhodný, protože nevystihuje variabilitu proměnné y.
F-test i všechny t-testy vychází významné. Model se považuje za vhodný k vystižení variability proměnné y. To však ještě neznamená, že je model navržen správně (vhodnější bude např. nelineární funkce).
F-test vychází významný, ale t-testy nevýznamné u některých regresních parametrů. Model je sice považován za vhodný, ale s určitými omezeními. Hodnocení kvality regresního modelu
Pro hodnocení kvality každého modelu je vždy rozhodujícím kritériem cíl analýzy, a tím i použitelnost výsledků.
Vážné důsledky má nejen volba špatného typu regresního modelu a nedostatky použitých statistických údajů, jakož i výběr nevhodné metody odhadu parametrů, ale i neoprávněnost některých (někdy nevědomě učiněných) předpokladů a podmínek.
Potíž je v tom, že nejrůznější vyskytující se narušení modelu, dat, metody či předpokladů bývají vzájemně natolik propojená, že izolovaný nebo postupný způsob hodnocení různých aspektů úlohy nemusí být dostatečný ani prospěšný. V této souvislosti nás mohou zajímat různé otázky, např.:
Jaké máme věcné nebo empirické informace.
Jakým způsobem byla data pořízena a jaká je jejich kvalita.
Které jsou rozhodující a méně důležité vysvětlující proměněné.
Doporučený nebo vyzkoušený typ modelu a regresní funkce.
Jak jsou splněné podmínky a předpoklady lineárního modelu.
Jaká je přesnost regresních odhadů.
Jaké jsou důvody případné nedostatečné přesnosti odhadu. Regresní diagnostika
Provádí se v případě, kdy nejsou splněny předpoklady o datech a regresním modelu a kdy není metoda nejmenších čtverců vhodná ke stanovení regresních parametrů.
Regresní diagnostika obsahuje postupy k identifikaci:
kvality dat pro navržený model,
kvality modelu pro daná data,
splnění základních předpokladů metody nejmenších čtverců.
V rámci zvolených postupů lze do regresní diagnostiky zahrnout metody pro průzkumovou analýzu jednotlivých proměnných, metody pro analýzu vlivných bodů a metody pro odhalení porušení předpokladů MNČ. Základní rozdíl mezi regresní diagnostikou a klasickými testy spočívá v tom, že u regresní diagnostiky není třeba přesně formulovat alternativní hypotézu a jsou přitom odhaleny typy odchylek od ideální situace.
Využití průzkumové analýzy
V regresní analýze se využívá těchto metod:
pro určení statistických zvláštností jednotlivých proměnných nebo reziduí,
k posouzení „párových“ vztahů mezi všemi sledovanými proměnnými,
k ověření předpokladů o rozdělení proměnných nebo reziduí. Mezi základní techniky průzkumové analýzy patří i stanovení volby rozsahu a rozmezí dat, jejich variability a přítomnosti vybočujících pozorování.
Přes svoji jednoduchost umožňuje průzkumová analýza identifikovat před vlastní regresní analýzou:
nevhodnost dat (malé rozmezí nebo přítomnost vybočujících bodů),
nesprávnost navrženého modelu (skryté proměnné – často souvisí s časem nebo pořadím měření),
multikolinearitu (u vícenásobné závislosti),
nenormalitu v případě, kdy jsou vysvětlující proměnné náhodné veličiny. Posouzení kvality dat
úzce souvisí s užitým regresním modelem
Při posuzování se sleduje především výskyt vlivných bodů, které jsou hlavním zdrojem problémů, jako je zkreslení odhadů a růst rozptylů až k naprosté nepoužitelnosti regresních odhadů parametrů (ve zvláštních případech však zlepšují predikční schopnosti modelů).
Vlivné body silně ovlivňují většinu výsledků regrese a lze je rozdělit do tří základních skupin:
Hrubé chyby, které jsou způsobeny měřenou veličinou – vybočující pozorování – nebo nevhodným nastavením vysvětlujících proměnných – extrémy. Jsou obyčejně důsledkem chyb při manipulaci s daty. Body s vysokým vlivem jsou speciálně vybrané body, které byly přesně změřeny a které obvykle rozšiřují predikční schopnosti modelu.
Zdánlivě vlivné body vznikají jako důsledek nesprávně navrženého regresního modelu.
Podle toho, kde se vlivné body vyskytují, lze provést dělení na:
vybočující pozorování, které se na ose y výrazně liší od ostatních, tzn. takové vysoké či nízké hodnoty yi, které se zásadně liší od ostatních hodnot vysvětlované proměnné Y
extrémy, které se liší v hodnotách na ose x nebo v jejich kombinaci (v případě multikolinearity) od ostatních bodů – představují zásadně odlišnou kombinaci hodnot vysvětlujících proměnných. Vyskytují se však i body, které jsou jak vybočující, tak i extrémní. O jejich výsledném vlivu však především rozhoduje to, že jsou extrémy.
K identifikaci vlivných bodů typu vybočujícího pozorování se využívá zejména analýza reziduí a k identifikaci extrémů pak diagonálních prvků tzv. projekční matice.
Statistická analýza reziduí
Rezidua jsou základní diagnostickým nástrojem, a to nejen při hodnocení kvality regresní funkce a dat, ale i obecněji při posuzování oprávněnosti předpokladů zvoleného lineárního regresního modelu.
Rezidua lze zjednodušeně charakterizovat jako lineární kombinaci všech chyb. Lze říci, že jakákoli systematičnost (nenáhodnost) zjištěná u reziduí indikuje nějaký (zatím neidentifikovaný) nedostatek odhadnutého regresního modelu.
Může to být chybně zvolený typ regresní funkce, nevhodný plán experimentu, nenáhodný výběr, nesprávně zvolené vysvětlující proměnné, nesplnění předpokladů modelu, špatné představy o modelu, chybná nebo příliš vlivná pozorování, silná vzájemná závislost vysvětlujících proměnných, ale i jiná narušení regresní úlohy.
Není tak podstatné, zda jde o vybočující pozorování nebo extrémy, ale každopádně obecně velkým problémem odhadů pořízených MNČ je jejich nesmírná citlivost na pozorování, která se od jiných v něčem důležitém výrazně liší. Typy reziduí a jejich vlastnosti
Klasická rezidua
Jsou rozdíly mezi skutečnými a odhadnutými hodnotami vysvětlované proměnné Y (yi – y`i).
Klasická rezidua jsou korelovaná, s nekonstantním rozptylem, jeví se normálnější a nemusí indikovat silně odchýlené body.
Predikovaná rezidua
Rezidua počítaná bez i-tého pozorování jsou zbavena vlivu tohoto pozorování.
y`i(-i) je vyrovnaná hodnota získaná na základě n-1 pozorování při vypuštění i-tého pozorování.
Odpovídající predikované reziduum je vypočteno jako rozdíl skutečné hodnoty yi a takto odhadnuté hodnoty y`i(-i)
ei(-i) = yi - y`i(-i). Predikovaná rezidua jsou korelovaná, mají normální rozdělení s nulovou střední hodnotou a s nestejným rozptylem.
Normovaná rezidua
Soudí se o nich, že jsou to normálně rozdělené veličiny s nulovou střední hodnotou a jednotkovým rozptylem.
K ocenění jejich vlivu se používá pravidla 3, tj. hodnoty větší než  3 jsou brány za vybočující.
Rozhodně je však nelze doporučit pro identifikaci odlehlých pozorování (silně vlivné extrémní body), protože snadno může dojít k vyloučení správných pozorování a zachování chybných značně odlehlých hodnot. Standardizovaná rezidua
Mají konstantní rozptyl a vzniknou dělením reziduí jejich směrodatnou odchylkou, tzn. mají nulovou střední hodnotu a jednotkový rozptyl.
Jackknife rezidua
Jsou alternativou ke standardizovaným reziduím. Jejich výpočet je podobný jako u standardizovaných reziduí, místo směrodatné odchylky reziduí se však použije směrodatná odchylka získaná při vynechání i-tého bodu.
Tato rezidua mají za předpokladu normality chyb Studentovo rozdělení s n – m – 1 stupni volnosti.
Tato rezidua se využívají pro odhalení neznámých příliš vlivných či podezřelých pozorování (vybočujících bodů), nemusí však být spolehlivá v případě extrémů. Nekorelovaná rezidua
V konkrétní regresní úloze je možné sestavit jen n – p nekorelovaných reziduí, která vždy existují.
Nekorelovaná rezidua jsou lineární transformací klasických reziduí se stejným reziduálním součtem čtverců.
Rekurzivní rezidua (dopředná nebo zpětná)
Jsou typem nekorelovaných reziduí při využití rekurzivní MNČ, jejímž principem je opakovaný iterativní odhad parametrů regresního modelu MNČ s tím, že v každé iteraci se postupně přidává do výpočtu jeden bod (řádek xi matice X a hodnota yi).
Odpovídající rekurzivní rezidua umožňují identifikovat nestabilitu modelu, např. v čase. Grafická analýza reziduálních hodnot
Pomáhá ověřit kvalitu proložení dat přímkou a odhalit neobvyklé hodnoty (vybočující pozorování, extrém, vlivné body).
Patří sem tři základní typy grafů:
Typ I: Graf závislosti reziduí ei na indexu i
Typ II: Graf závislosti reziduí ei na proměnné xi
Typ III: Graf závislosti reziduí ei na predikci y`i
Nedoporučuje se konstruovat graf závislosti reziduí ei na naměřených hodnotách yi, protože jde o korelované veličiny. Lze tvrdit, že předpoklad lineárního vztahu je dobře splněn. Obrázek indikuje, že rozptyl bodů kolem regresní přímky se zvyšuje s rostoucím X. Konfigurace naznačuje nutnost použití některé nelineární regresní křivky. Při zobrazení párových hodnot (ti, ei), kde ti je časový okamžik i-tého měření, můžeme dostat konfiguraci, která upozorňuje na to, že časový faktor by měl být součástí regresního modelu. Odlehlý bod je takový, který leží mimo základní konfiguraci bodů v grafu. Údaj může být odlehlý ve směru Y, ve směru X nebo v obou směrech. Odlehlý údaj ve směru nezávisle proměnné se nazývá vybočující. Bod nazýváme vlivný, pokud se po jeho odstranění podstatně změní poloha regresní přímky. Body, jež jsou odlehlé ve směru X, jsou často vlivné. Na obrázku je takovým bodem bod b. Bod a představuje pak vybočující pozorování. Graf obsahuje dva neobvyklé body, jež mohou být klasifikovány jako odlehlá hodnota. Identifikace odlehlých pozorování
Studentizovaná rezidua
zaměřují na na odlehlé hodnoty v množině Y
Odlehlé pozorování je identifikováno tehdy, jestliže
SR 2.
Prvky projekční matice H
zaměřuje se na hledání odlehlých hodnot v množině X
Odlehlé pozorování je takové, které překročí kritérium n – počet pozorování, p – počet parametrů regresní funkce. Vlivná pozorování
Vlivné body jsou takové body, jejichž vynecháním dochází k zásadní změně regresních charakteristik (odhadu parametrů, vyrovnaných hodnot, odhadů kovarianční matice či dalších).
Tyto body je nutné identifikovat, protože jsou-li chybné, dochází ke značnému zkreslení regresních výsledků.
Pro identifikaci vlivných bodů jsou nejvhodnější techniky, které jsou založené na hodnocení důsledků vypuštění i-tého bodu na regresní charakteristiky (např. grafické znázornění predikovaných reziduí). Zjištění vlivných bodů
Cookova vzdálenost
– míra celkového vlivu i-tého pozorování
Pozorování je vlivné, pokud Welschova – Kuhova vzdálenost
Používá se pro upřesnění existence vlivných bodů. DFFITS – míra vlivu na vyrovnané hodnoty Cookova vzdálenost souvisí s konfidenčním elipsoidem odhadů, což umožňuje její porovnání s kvantily F-rozdělení.
V případě regresní diagnostiky jde o posun odhadů, který vznikl vynecháním i-tého bodu (kombinuje h-hodnotu se standardizovaným reziduem).
Další možné vysvětlení Cookovy vzdálenosti vychází z toho, že se jedná o eukleidovskou vzdálenost mezi vektorem predikce z metody nejmenších čtverců a vektorem predikce, který odpovídá odhadům stanoveným metodou nejmenších čtverců při vynechání i-tého bodu.
Cookova vzdálenost vyjadřuje vliv i-tého bodu pouze na odhady parametrů b. Pokud proto i-tý bod neovlivní odhady regresních parametrů výrazně, bude hodnota Cookovy vzdálenosti malá. Takový bod však může silně ovlivnit odhad reziduálního rozptylu. DFBETA(-i) se používá pro vyjádření absolutního rozdílu mezi MNČ odhady vektoru b a konkrétního i-tého odhadu bi v důsledku vypuštění i-tého pozorování.
DFBETAj(-i) vyjadřuje relativní rozdíl mezi MNČ odhady bi v důsledku vypuštění i-tého pozorování.
Pro vyjádření absolutního a relativního rozdílu i-té vyrovnané hodnoty při vynechání i-tého bodu se používají veličiny (absolutní) DFFIT(-i) a (normovaný) DFFIT(-i), přičemž přibližně platí, že pro vlivné body je normovaný DFFIT(-i) větší než Příklad
Sledujeme závislost proměnné Y na proměnné X, kterou lze popsat pomocí lineární funkce. Byla vyslovena pochybnost o kvalitě dat, proto je nutné provést regresní diagnostiku daných proměnných. Odlehlé hodnoty v množině Y: SR > 2  pozorování č. 8
Odlehlé hodnoty v množině X:
Vlivné body: Postup při lineární regresní analýze
Postup při vyšetřování a konstrukci lineárního regresního modelu se skládá z těchto fází:
Návrh modelu – začíná se od nejjednoduššího modelu, kde se nevyskytují žádné interakční členy (vztahy mezi proměnnými). V případě, kdy je předem známé, že model má obsahovat funkce vysvětlujících proměnných, může být výchozí model patřičně upraven dle těchto požadavků.
Předběžná analýza dat – sleduje se proměnlivost jednotlivých proměnných a možné párové vztahy. Odhadování parametrů – provádí se klasickou MNČ, stejně jako i určení základních statistických charakteristik. Následuje test významnosti jednotlivých parametrů pomocí Studentova t-testu a koeficientu korelace.
Regresní diagnostika – je prováděna identifikace vlivných bodů a ověření, jsou-li splněny předpoklady metody nejmenších čtverců.
Na základě nalezených vlivných bodů se rozhoduje, zda je nutné tyto body z dat eliminovat, nebo je možné tyto body v datech ponechat.
Pokud dojde k úpravě dat, je třeba provést znovu regresní diagnostiku se zaměřením na porušení předpokladů MNČ. Konstrukce zpřesněného modelu – např. využitím metody vážených nejmenších čtverců, metody zobecněných nejmenších čtverců, metody podmínkových nejmenších čtverců, metody rozšířených nejmenších čtverců, robustních metod pro jiná rozdělení dat než normální a data s vybočujícími hodnotami a extrémy.
Zhodnocení kvality modelu – využitím klasických testů, postupů regresní diagnostiky a doplňkových informací se provede zhodnocení kvality navrženého lineárního regresního modelu.
Testování různých hypotéz – ve zvláštních případech, jako je porovnání několika přímek atd., se provádí testování pomocí dalších testů k ověřování rozličných typů hypotéz.
Nelineární regresní modely Nejpoužívanější typy jednorovnicových regresních modelů
Zcela lineární model
Je určitě správný v případě vícerozměrného normálního rozdělení uvažovaných náhodných veličin, ale lineární zjednodušení bývá úspěšné ve všech úlohách s větším počtem vysvětlujících proměnných, nenabízí-li teorie daného vědního oboru jiné rozumné alternativy.
Ve zcela lineárním modelu se předpokládá součtový vliv všech činitelů a regresní funkcí je rovnice nadroviny
Y = 0 + 1X1 + … + kXk + ,
ve které 0 je absolutní člen a 1, 2, …, k jsou strukturní parametry nebo též (dílčí) regresní koeficienty. Například parametr 1 je interpretován jako očekávaná změna veličin

Stáhnout celý tento materiál

Předchozí

1 2 3

Další

Vloženo: 1.03.2011

Velikost: 4,31 MB

Stáhnout celý tento materiál

Komentáře

Tento materiál neobsahuje žádné komentáře.

Mohlo by tě zajímat:

Skupina předmětu ESE27E - Základy statistiky
Reference vyučujících předmětu ESE27E - Základy statistiky