Studijní materiály

Zpět

Hromadně přidat materiály

Texty k přednáškám statistiky od Nagyho a Kratochvílové

BA04 - Matematika III

Hodnocení materiálu:

Popisek: Texty k přednáškám statistiky od Nagyho a Kratochvílové (pravděpodobně jiná vysoká škola)

Zjednodušená ukázka:

Stáhnout celý tento materiál

st¶‡ch A a B nejsou
stejn¶e. P-hodnota nav¶‡c ukazuje, •ze zam¶‡tnut¶‡ je pom•ern•e t•esn¶e.
Pozn¶amka:
1. V¶yb•er charakteristiky (vzorce) pro test ur•cuje H0 - o •cem vypov¶‡d¶a tvrzen¶‡ nulov¶e hypot¶ezy,
to se testuje.
2. O sm•erov¶an¶‡ testu rozhoduje HA - podle toho jak odporuje nulov¶e hypot¶eze (; 6=)
ur•c¶‡me sm•erov¶an¶‡.
23
5.5 Vybran¶e parametrick¶e testy (Skripta str. 103-115)
Budeme sledovat parametrick¶e testy pro st•redn¶‡ hodnotu, rozptyl a pod¶‡l, jako pro IS.
St•redn¶‡ hodnota (zn¶am¶e 2)13
†j†^ V programu Octave lze pro tyto testy pou•z¶‡t funkci
[pval, z] = z¡test (x, m, v, alt),
[pval, z] = z¡test¡2(x, y, v¡x, v¡y, alt),
kde pval je p-hodnota, z je hodnota statistiky, x,y je v¶yb•er, v,v¡x,v¡y je
rozptyl souboru, alt typ testu (;).
St•redn¶‡ hodnota (nezn¶am¶e 2)14
†j†^ V programu Octave lze pro tyto testy pou•z¶‡t funkci
[pval, t, df] = t¡test (x, m, alt),
[pval, t, df] = t¡test¡2s (x, y, alt),
[pval, t, df] = t¡test¡2n (x, y, alt),
[pval, t, df] = t¡test¡2p (x, y, alt),
kde pval je p-hodnota, t je hodnota statistiky, df jsou stupn•e volnosti, x,y je
v¶yb•er, alt typ testu (;).
Rozptyl15
†j†^ V programu Octave lze pro tyto testy pou•z¶‡t funkci
[pval, ch2, df] = var¡test (x, v0, alt),
[pval, f, df¡num, df¡den] = var¡test¡2 (x, y, alt),
kde pval je p-hodnota, ch2,t je hodnota statistiky, df,df¡num,df¡den jsou
stupn•e volnosti, x,y je v¶yb•er, v0 je rozptyl podle nulov¶e hypot¶ezy, alt typ testu
(;).
Pod¶‡l16
U tohoto testu se v literatu•re obvykle uv¶ad¶‡ trochu jin¶a statistika. V z¶ajmu jednotnosti
jsme ponechali stejnou statistiku, jako pro odhad (co•z je zvykem). Rozd¶‡ly jsou zanedbateln¶e.
†j†^ V programu Octave lze pro tento test pou•z¶‡t funkci
13Skripta str. 103
14Skripta str. 105,108-113
15Skripta str. 106
16Skripta str. 107,113-114
24
[pval, z] = prop¡test¡2 (x1, n1, x2, n2, alt),
kde pval je p-hodnota, z je hodnota statistiky, x1,x2 jsou v¶yb•erov¶e pod¶‡ly
(po•cty), n1,n2 jsou po•cty pokus”u, alt typ testu (;).
25
6 Chi2 testy hypot¶ez
Chi2 testy jsou zalo•zeny na porovn¶an¶‡ rozd¶‡lnosti mezi nam•e•ren¶ymi •cetnostmi a •cetnostmi
ide¶aln¶‡mi. Rozd¶‡l je m•e•ren pomoc¶‡ normovan¶eho kvadratick¶eho krit¶eria, kter¶e m¶a ch2
rozd•elen¶‡ { odtud chi2 testy. Pro test se pou•z¶‡vaj¶‡ absolutn¶‡ •cetnosti O v¶yskytu sledovan¶eho
znaku, tzv. pozorovan¶e (observed) •cetnosti a absolutn¶‡ •cetnosti E, kter¶e p•resn•e odpov¶‡daj¶‡
H0, tzv. teoretick¶e nebo o•cek¶avan¶e •cetnosti (expected).
Pro nam•e•ren¶e •cetnosti Oi; i = 1;2;:::;n a teoretick¶e •cetnosti Ei; i = 1;2;:::;n m¶a
statistika tvar
´2 =
nX
i=1
(Oi ¡Ei)2
Ei » Chi2(n¡1) (27)
Statistika m•e•r¶‡ vzd¶alenost mezi pozorovan¶ymi a teoretick¶ymi•cetnostmi (je nez¶aporn¶a). Jsou-
li •cetnosti stejn¶e, rovn¶a se nule. •C¶‡m v¶‡ce jsou •cetnosti jin¶e, t¶‡m je hodnota statistiky v•et•s¶‡.
Nulov¶a hypot¶eza testu je shoda •cetnost¶‡, alternativn¶‡ hypot¶eza je neshoda. Test je v•zdy
pravostrann¶y a kritick¶ym oborem
W = (´2fi;1)
a p-hodnotou
pv = P(´2 > ´2r):
Nejv¶yznamn•ej•s¶‡ aplikace tohoto testu jsou pro testov¶an¶‡ typu rozd•elen¶‡ (test dobr¶e shody)
a testov¶an¶‡ nez¶avislosti dvou rozd•elen¶‡ (test nez¶avislosti). Oba testy vylo•z¶‡me na p•r¶‡kladech.
6.1 Test dobr¶e shody (Skripta str. 115-117)
Hodnoty testovan¶e n¶ahodn¶e veli•ciny rozd•el¶‡me na intervaly a m•e•r¶‡me •cetnosti v¶yskytu real-
izac¶‡ n¶ahodn¶e veli•ciny na t•echto intervalech. Tak z¶‡sk¶ame pozorovan¶e •cetnosti O. Teoretick¶e
•cetnosti E ur•c¶‡me bud’ pomoc¶‡ hodnot distribu•cn¶‡ funkce nebo jinak (jako v n¶asleduj¶‡c¶‡m
p•r¶‡klad•e).
P•r¶‡klad: (Test rovnom•ernosti) Sledujeme nehodovost na pra•zsk¶ych silnic¶‡ch b•ehem r”uzn¶ych
dn¶‡ t¶ydne. Po ur•cit¶e dob•e jsme shrom¶a•zdili n¶asleduj¶‡c¶‡ ¶udaje
den po•cet nehod
Po - P¶a 1879
So 421
Ne 406
Na hladin•e v¶yznamnosti 0.05 testujte tvrzen¶‡ (nulov¶e hypot¶ezy), •ze nehody se b•ehem t¶ydne vyskytuj¶‡
rovnom•ern•e.
Pozorovan¶e •cetnosti jsou zadan¶e.
O = [1879; 421; 406]
Teoretick¶e •cetnosti ur•c¶‡me takto: m¶ame 3 intervaly s d¶elkami [5; 1; 1]. Celkov¶y po•cet pozorov¶an¶‡ je
1879+421+406 = 2706. Tento po•cet pozorov¶an¶‡ m¶ame rozd•elit na dan¶e intervaly rovnom•ern•e. Prvn¶‡
bude m¶‡t 5=7 druh¶y 1=7 a t•ret¶‡ tak¶e 1=7. Bude tedy
E = 2706£[5=7; 1=7; 1=7] = [1932:86; 386:57; 386:57]
26
.
Hodnota statistiky
´2r = (1879¡1932:86)
2
1932:86 +
(421¡386:57)2
386:57 +
(406¡386:57)2
386:57 = 5:54
Kritick¶y obor: W = (´2fi(3¡1);1) = (5:99;1) [5.99=chisquare¡inv(0.95,2)]
P-hodnota: pv = P(´2 > 5:54) = 0:063 [0.063=1-chisquare¡cdf(5.54,2)]
Z¶av•er: Nulovou hypot¶ezu nelze vyvr¶atit. Z”ust¶av¶a v platnosti tvrzen¶‡: "nehody se vyskytuj¶‡
rovnom•ern•e".
P•r¶‡klad: (Test normality) Testujeme, zda rychlosti osobn¶‡ch automobil”u jedouc¶‡ch po
nuselsk¶em most•e maj¶‡ norm¶aln¶‡ rozd•elen¶‡ s „ = 60 a = 7:6. V¶ysledky nam•e•ren¶ych rychlost¶‡ jsou
v tabulce
Interval rychlosti [km/h] (20-50) (50-60) (60-70) (70-120)
Pozorovan¶a •cetnost 35 268 315 21
Pozorovan¶e •cetnosti: O = [35; 268; 315; 21]
Teoretick¶e •cetnosti ur•c¶‡me pomoc¶‡ distribu•cn¶‡ funkce norm¶aln¶‡ho rozd•elen¶‡. Normujeme hranice in-
terval”u hi = [20; 50; 60; 70; 120]
xi = hi ¡„ ; ) x = [¡5:263; ¡1:316; 0; 1:316; 7:895]
Odpov¶‡daj¶‡c¶‡ hodnoty distribu•cn¶‡ funkce standardn¶‡ho norm¶aln¶‡ho rozd•elen¶‡ jsou
[0.094=stdnormal¡cdf(-1.316)]
F(x) = [0; 0:094; 0:5; 0:906; 1]:
Pravd•epodobnosti pi interval”u dostaneme jako rozd¶‡ly ‡i+1 ¡‡i; i = 2;3;4;5
pi = [0:094; 0:406; 0:406; 0:094]:
Z celkov¶eho po•ctu pozorov¶an¶‡ 35+268+315+21 = 639 tedy jednotliv¶ym interval”um p•r¶‡slu•s¶‡ teoretick¶e
•cetnosti
E = 639£[0:094; 0:406; 0:406; 0:094] = [60:06; 259:43; 259:43; 60:06]
Hodnota statistiky: ´2r = 48:05
Kritick¶y obor: W = (7:82;1)
P-hodnota: pv = P(´2 > 48:05) = 2:10¡10
Z¶av•er: Zji•st•en¶e •cetnosti ani n¶ahodou nepoch¶az¶‡ z norm¶aln¶‡ho rozd•elen¶‡ se st•redn¶‡ hodnotou 60 a
sm•erodatnou odchylkou 7.6.
†j†^ V programu Octave lze pro tento test pou•z¶‡t funkci
[pval, ch2, df] = chisquare¡test¡homogeneity (x, y, c),
[pval, ch2] = chisquare¡test(o,e),
kde pval je p-hodnota, ch2 je statistika, df po•cet stup•n”u volnosti, x,y v¶yb•ery,
c intervaly pro ur•cen¶‡ •cetnost¶‡, o,e pozorovan¶e a teoretick¶e •cetnosti.
27
6.2 Test nez¶avislosti (Skripta str. 118-119)
Pou•z¶‡v¶a kontingen•cn¶‡ tabulku absolutn¶‡ch •cetnost¶‡ dvou n¶ahodn¶ych veli•cin, jejich•z
nez¶avislost testujeme. Podle deflnice nez¶avislosti f(x;y) = f(x)f(y) ur•cuje tabulku teo-
retick¶ych (nez¶avisl¶ych) •cetnost¶‡ takto:
- tabulku normalizuje na pravd•epodobnosti (d•elen¶‡m prvk”u celkov¶ym sou•ctem prvk”u),
- ur•c¶‡ margin¶aln¶‡ •cetnosti (sou•cty) v sloupc¶‡ch i •r¶adc¶‡ch,
- vypo•cte tabulku nez¶avisl¶ych pravd•epodobnost¶‡ (prvek (i;j) je sou•cinem i¡t¶e sloup-
cov¶e a j¡t¶e •r¶adkov¶e margin¶aly),
- tabulku re-normalizuje na absolutn¶‡ •cetnosti (n¶asoben¶‡m v•sech prvk”u celkov¶ym
sou•ctem p”uvodn¶‡ch prvk”u). Test je pravostrann¶y a m¶a (nx ¡ 1)(ny ¡ 1) stup•n”u
volnosti.
Pomoc¶‡ statistiky (27) se porovn¶av¶a p”uvodn¶‡ tabulka s tabulkou absolutn¶‡ch •cetnost¶‡
nez¶avisl¶ych veli•cin. Statistiku po•c¶‡t¶ame pro v•sechny prvky tabulek (srovn¶ame ob•e tabulky
do vektor”u). Nulov¶a hypot¶eza H0 je "jsou nez¶avisl¶e".
P•r¶‡klad: Testujeme, zda u•ridi•c”u osobn¶‡ch automobil”u souvis¶‡ v•ek a reak•cn¶‡ doba (m•e•ren¶a •casem,
za kter¶y •ridi•c p•rehl¶edne k•ri•zovatku). Zji•st•en¶e ¶udaje jsou sestaveny do n¶asleduj¶‡c¶‡ tabulky
v•ek V (roky) 1. (18-30) 2. (30-50) 3. (50-70)
reak•cn¶‡ doba R
1. men•s¶‡ ne•z 2 sec 56 42 23
2. v•et•s¶‡ ne•z 2 sec 32 49 37
Nez¶avislost testujte na hladin•e v¶yznamnosti a = 0:05.
Pozorovan¶e •cetnosti jsou: o = [56; 32; 42; 49; 23; 37].
Teoretick¶e •cetnosti dostaneme podle uveden¶eho postupu:
- normalizovan¶a tabulka
0.234 0.176 0.096
0.134 0.205 0.155
- margin¶aln¶‡ pravd•epodobnosti jsou
0.368 0.381 0.251 0.506280.49372
- tabulka nez¶avisl¶ych pravd•epodobnost¶‡
0.186 0.193 0.12710
0.182 0.188 0.124
- tabulka absolutn¶‡ch •cetnost¶‡
44.552 46.071 30.377
43.448 44.929 29.623
Teoretick¶e •cetnosti: e = [44:552; 43:448; 46:071; 44:929; 30:377; 29:623]
Hodnota statistiky: ´2r = 10:315.
Kritick¶y obor: W = (´2fi((3¡1)(2¡1));1) = (5:99;1).
28
P-hodnota: pv = 0:006.
Z¶av•er: Nulov¶a hypot¶eza je vyvr¶acena, reak•cn¶‡ doby •ridi•c”u jsou z¶avisl¶e na v•eku.
†j†^ V programu Octave lze pro tento test pou•z¶‡t funkci
[pval, ch2, df] = chisquare¡test¡independence (X),
kde pval,ch2,df jsou p-hodnota, statistika, stupn•e volnosti, X je kontingen•cn¶‡ tabulka
(viz table).
29
7 Dal•s¶‡ neparametrick¶e testy hypot¶ez
V minul¶e kapitole jsme uvedli dva nejzn¶am•ej•s¶‡ Chi2 testy dobr¶e shody a nez¶avislosti. Oba
se op¶‡raj¶‡ o kontingen•cn¶‡ tabulky absolutn¶‡ch •cetnost¶‡ a maj¶‡ pom•ern•e •sirok¶e pou•zit¶‡.
Nyn¶‡sezm¶‡n¶‡meon•ekter¶ychspeci¶aln¶‡chtestech,kter¶elzevyu•z¶‡tprostatistick¶ezpracov¶an¶‡
dat. Zam•e•r¶‡me se p•ri tom sp¶‡•se na v¶yznam a pou•zit¶‡ testu, odvozen¶‡ nebudeme prov¶ad•et.
7.1 Test medi¶anu
Znam¶enkov¶y test M¶ame v¶yb•er X = [X1; X2; :::; Xn] ze spojit¶eho rozd•elen¶‡ s nezn¶am¶ym
medi¶anem x0:5. Testujeme nulovou hypot¶ezu H0 : x0:5 = x0, kde x0 je dan¶e •c¶‡slo.
Vypo•cteme
Di = Xi ¡x0; i = 1;2;:::;n
a p¶‡smenem b ozna•c¶‡me po•cet kladn¶ych Di. b je statistika s binomick¶ym rozd•elen¶‡m, kterou
lze pro n !1 aproximovat norm¶aln¶‡m rozd•elen¶‡m N(n=2;n=4).
Normovan¶a statistika testu je
z = 2b¡npn » N(0;1)
a lze ji testovat pomoc¶‡ z-testu.
P•r¶‡klad: (Jen demonstrace postupu! Nen¶‡ n !1) Testujeme, zda v¶yb•er
x = [5:3; 4:2; 6:8; 5:7; 5:1; 3:1]
poch¶az¶‡ z rozd•elen¶‡ s medi¶anem x0 = 5.
Po•cet dat v¶yb•eru: n = 6.
Rozd¶‡ly xi ¡x0 jsou
0:3; ¡0:8; 1:8; 0:7; 0:1; ¡1:9
a z nich b = 4 jsou kladn¶e.
Normovan¶a statistika
z = 2£4¡6p6 = 0:817
a p-hodnota pro oboustrann¶y test je pv = 0:207.
Z¶av•er testu: Nulov¶a hypot¶eza "data poch¶az¶‡ z rozd•elen¶‡ s medi¶anem 5" se nepop¶‡r¶a.
†j†^ V programu Octave lze pro test pou•z¶‡t funkci
[pval, b, n] = sign¡test (x, y, alt),
kde pval je p-hodnota, b je statistika (binomick¶eho rozd•elen¶‡), n je po•cet stup•n”u
volnosti statistiky b, x,y jsou realizace v¶yb•er”u, alt je sm•erov¶an¶‡ testu.
30
7.2 Test nez¶avislosti prvk”u v¶yb•eru
Po•radov¶y test nez¶avislosti Uva•zujeme v¶yb•er X o rozsahu n a ur•c¶‡me jeho v¶yb•erov¶y
medi¶an ^x0:5. Test vych¶az¶‡ z rozd¶‡l”u mezi prvky v¶yb•eru Xi;i = 1;2;:::;n a v¶yb•erov¶eho
medi¶anu ^x0:5 (srovnej znam¶enkov¶y test)
Di = Xi ¡ ^x0:5 i = 1;2;:::;n:
Na t•echto rozd¶‡lech deflnuje s¶erie, tj. souvisl¶e posloupnosti prvk”u se stejn¶ym znam¶enkem mezi
dv•emi zm•enami znam¶enka. Jako statistiku b deflnujeme po•cet s¶eri¶‡ v posloupnosti rozd¶‡l”u
D. Tato statistika m¶a p•ribli•zn•e norm¶aln¶‡ rozd•elen¶‡ N(n=2+1;pn¡1=2).
Normovan¶a statistika je
z = 2b¡(n¡2)pn¡1 » N(0;1):
Nulovou hypot¶ezu H0 : "prvky v¶yb•eru jsou nez¶avisl¶e" lze testovat pomoc¶‡ levostrann¶eho
z-testu.
P•r¶‡klad: Testujeme nez¶avislost prvk”u v¶yb•eru
x = f2:4; 2:2; 1:6; 1:8; 1:5; 1:8; 2:2; 2:3; 2:3; 2:5g
o rozsahu n = 10. Medi¶an v¶yb•eru je ^x0:5 = 2:2 a diference
x¡ ^x0:5 = f0:2; 0:0; ¡0:6; ¡0:4; ¡0:7; ¡0:4; 0:0; 0:1; 0:1; 0:3g:
V nich je mo•zno nal¶ezt b = 3 s¶erie se stejn¶ymi znam¶enky. Statistika tedy je
z = 2£3¡(10¡2)p10¡1 = ¡0:667
a p-hodnota pv = 0:25. Prvky v¶yb•eru tedy lze pova•zovat za nez¶avisl¶e.
Pozn¶amka: Tento test je velmi v¶yznamn¶y nejen pro testov¶an¶‡, zda n¶a•s v¶yb•er je skute•cn•e
nez¶avisl¶y (jak po•zaduje deflnice v¶yb•eru), ale tak¶e nap•r¶‡klad pro test rezidu¶‡ po v¶ypo•ctu regresn¶‡
anal¶yzy, pro ov•e•ren¶‡ kvality regrese, kterou se budeme zab¶yvat v n¶asleduj¶‡c¶‡ kapitole.
†j†^ V programu Octave lze pro test pou•z¶‡t funkci
[pval,z]=wztest(x),
kde pval je p-hodnota, z je statistika, x je testovan¶y v¶yb•er.
7.3 Test nez¶avislosti v¶yb•er”u
Pearson”uv test Pro dva n¶ahodn¶e v¶yb•eryX aY o rozsahu n vypo•cteme v¶yb•erov¶y korela•cn¶‡
koeflcient r = cov(x;y)=
q
var(x)var(y).
Statistika je
t = rq1¡r2
n¡2
» St(n¡2)
31
a m¶a Studentovo rozd•elen¶‡ s n¡2 stupni volnosti. Pro test H0 : "v¶yb•ery jsou nez¶avisl¶e" lze
pou•z¶‡t oboustrann¶y t-test.
Pozn¶amka: Tento test budeme pou•z¶‡vat i pro ov•e•ren¶‡ v¶ysledku regresn¶‡ anal¶yzy.
†j†^ V programu Octave lze pro test pou•z¶‡t funkci
s=cor¡test(x,y,alt,"p"),
kde s je struktura, obsahuj¶‡c¶‡ v¶ysledky testu, x, y jsou v¶yb•ery, alt je sm•erov¶an¶‡
testu ("", "").
Spearman”uv test Uva•zujme dva n¶ahodn¶e v¶yb•ery X a Y, oba o rozsahu n. Pro oba v¶yb•ery
deflnujeme po•rad¶‡ P, resp., Q, tj. nap•r. pro x = [6:2; 2:8; 4:1] je p = [3; 1; 2], proto•ze 6.2
je na t•ret¶‡m m¶‡st•e uspo•r¶adan¶eho v¶yb•eru17 x, 2.8 na prvn¶‡m a 4.1 na druh¶em. Tato po•rad¶‡
dosad¶‡me do vzorce pro v¶yb•erov¶y korela•cn¶‡ koeflcient a dostaneme statistiku
rS = cov(p;q)q
var(p)var(q)
= 1¡ 6n(n2 ¡1)S;
kde S = Pni=1(pi ¡qi)2.
Tato statistika se testuje podle speci¶aln¶‡ch tabelovan¶ych hodnot Spearmanova testu. Nulov¶a
hypot¶eza H0 : "v¶yb•ery jsou nez¶avisl¶e".
P•r¶‡klad: Testujte nez¶avislost rozd•elen¶‡, z nich•z poch¶az¶‡ v¶yb•ery
x = [2:5; 3:4; 1:3; 5:8; 3:6; 2:7; 4:3; 5:1; 2:9; 4:5]
†j†^ V programu Octave lze pro test pou•z¶‡t funkci
struc=cor¡test(x,y,alt,"s"),
kde struc: je struktura, obsahuj¶‡c¶‡ v¶ysledky testu, x, y: jsou v¶yb•ery, alt: je typ
testu.
Kendal”uv test Uva•zujme dva n¶ahodn¶e v¶yb•ery X a Y o rozsahu n a jejich po•rad¶‡ P a Q.
Z po•rad¶‡ sestav¶‡me dvou•r¶adkovou matici a jej¶‡ sloupce uspo•r¶ad¶ame tak, aby v prvn¶‡m •r¶adku
bylo 1;2;:::;n. Druh¶y •r¶adek uspo•r¶adan¶e matice ozna•c¶‡me R a jeho prvky r1; r2; :::; rn.
P¶‡smenem ki ozna•c¶‡me po•cet v•sech prvk”u ri+1; ri+2; :::;rn, kter¶e jsou v•et•s¶‡ ne•z ri. D¶ale
ozna•c¶‡me K = Pn¡1i=1 ki. Statistika pak je
rK = 4Kn(n¡1)¡1
a testuje se op•et podle speci¶aln¶‡ch hodnot Kendalova testu. Nulov¶a hypot¶eza H0 : "v¶yb•ery
jsou nez¶avisl¶e".
†j†^ V programu Octave lze pro test pou•z¶‡t funkci
17Uspo•r¶adan¶y v¶yb•er dostaneme, jestli•ze prvky v¶yb•eru uspo•r¶ad¶ame podle velikosti. V na•sem p•r¶‡klad•e je
uspo•r¶adan¶y v¶yb•er ~x = [2:8;4:1;6:2].
32
struc=cor¡test(x,y,alt,"k"),
kde struc: je struktura, obsahuj¶‡c¶‡ v¶ysledky testu, x, y: jsou v¶yb•ery, alt: je typ
testu.
7.4 Test typu rozd•elen¶‡
Kolmogorov-Smirnov”uv test Tento test slou•z¶‡ k ov•e•ren¶‡, zda zkouman¶e rozd•elen¶‡ m¶a
dan¶e rozd•elen¶‡. Je zalo•zen na porovn¶an¶‡ distribu•cn¶‡ funkce F(x) dan¶eho rozd•elen¶‡ X a
v¶yb•erov¶e distribu•cn¶‡ funkce Fn(x) 18, ur•cen¶e z v¶yb•eru X o rozsahu n.
Statistika testu je deflnov¶ana vztahem
ks = sup
xi2X
jFn(xi)¡F(xi)j
a m¶a r”uzn¶a rozd•elen¶‡, podle typu testovan¶e distribu•cn¶‡ funkce. Pro d”ule•zit¶a testovan¶a
rozd•elen¶‡ jsou hodnoty rozd•elen¶‡ ks tabelov¶any. Nulov¶a hypot¶eza H0 : "rozd•elen¶‡ m¶a
p•redpokl¶adan¶y typ".
†j†^ V programu Octave lze pro test pou•z¶‡t funkci
[pval,ks]=kolmogorov¡smirnov¡test(x,dist,params,alt),
kde pval je p-hodnota testu, ks je hodnota statistiky, x je realizace v¶yb•eru, dist
je typ rozd•elen¶‡
("binomial", "poisson", "uniform" "normal", "exponential", "lognormal" a dal•s¶‡), params
jsou parametry rozd•elen¶‡, alt je typ testu.
P•r¶‡klad:
[pval,ks]=kolmogorov¡smirnov¡test(x,"normal",0,1),
kde alt je " " jako p•redvolba.
Pozn¶amka: Velmi d”ule•zit¶y test, nebot’ •rada jin¶ych statistick¶ych procedur vy•zaduje normalitu!,
p•r¶‡padn•e jin¶e rozd•elen¶‡. Nen¶‡ radno d•elat z¶av•ery, pokud nem¶ame ov•e•renu platnost p•redpoklad”u!!!
18Je to schodovit¶a funkce: nulov¶a do x(1), v ka•zd¶em bod•e x(i) m¶a p•r¶‡r”ustek 1=n, a od x(n) d¶ale je rovna
jedn¶e. x(i); i = 1;2:::;n jsou prvky v¶yb•eru, uspo•r¶adan¶e podle velikosti.
33
8 Regresn¶‡ anal¶yza
Regresn¶‡ anal¶yza poskytuje n¶astroj k hled¶an¶‡ stochastick¶e z¶avislosti mezi dvojic¶‡ n¶ahodn¶ych
veli•cin X { nez¶avisle prom•enn¶a a Y { z¶avisle prom•enn¶a. V nejb•e•zn•ej•s¶‡ (line¶arn¶‡) podob•e
zkoum¶a,zdameziob•emaveli•cinamiexistujeline¶arn¶‡vztah.Velicejednodu•selzetak¶ezkoumat
nap•r. polynomick¶y nebo exponenci¶aln¶‡ vztah. D¶ale se budeme v•enovat p•redev•s¶‡m line¶arn¶‡
regresi, o ostatn¶‡ch se stru•cn•e zm¶‡n¶‡me pozd•eji.
8.1 Line¶arn¶‡ regrese (Skripta str. 121-126)
P•r¶‡klad: Sledujeme produkci automobilov¶eho z¶avodu b•ehem p”ul roku. Produkce v jednotliv¶ych
m•es¶‡c¶‡ch byla
m•es¶‡c 1 2 3 4 5 6
produkce (ks£100) 4.3 3.9 4.2 4.5 4.4 5.1
Odhadn•ete line¶arn¶‡ trend t•echto dat a ur•cete, zda maj¶‡ tendenci k r”ustu nebo poklesu.
Zadan¶a data jsou vykreslena na obr¶azku a je jimi "od oka" prolo•zena p•r¶‡mka. Ihned n¶as napadnou
ot¶azky
† jsou tato data vhodn¶a k aproximaci p•r¶‡mkou?
† je nakreslen¶a p•r¶‡mka tou nejlep•s¶‡, kter¶a data aproximuje?
m•es¶‡c
produkce
1 2 3 4 5 6
1
2
3
4
5
6
e
e e
e e
e
xi
yi
u^yi
ei = yi ¡ ^yi
Abychom na ot¶azky z p•r¶‡kladu dok¶azali odpov•ed•et, budeme datov¶e dvojice [xi; yi]; i =
1;2;:::;n reprezentovat geometricky, jako body v rovin•e. P•r¶‡mku, kterou chceme body
prolo•zit, budeme uva•zovat ve sm•ernicov¶em tvaru y = b1x + b0, kde [x; y] je libovoln¶y bod
p•r¶‡mky, b1 je sm•ernice a b0 absolutn¶‡•clen (¶usek na ose y). Optim¶aln¶‡ p•r¶‡mku nazveme regresn¶‡
p•r¶‡mka a budeme po•zadovat, aby poloha t¶eto regresn¶‡ p•r¶‡mky v”u•ci datov¶ym bod”um mini-
malizovala ur•cit¶e kriterium vzd¶alenosti. Abychom mohli b¶yt konkr¶etn¶‡, zavedeme n¶asleduj¶‡c¶‡
34
pojmyauvedemevzorceprov¶ypo•cetregresn¶‡chkoeflcient”u(odvozen¶‡jev[?]nebopodrobn•eji
v [?]):
Predikce ^yi je bod, jeho•z x-ov¶a sou•radnice je xiay-ov¶ab1xi+b0, tj. le•z¶‡ na prolo•zen¶e p•r¶‡mce.
Chyba predikce (reziduum) ei je rozd¶‡l mezi datov¶ym bodem a predikc¶‡, tj. svisl¶a
vzd¶alenost bodu od p•r¶‡mky.
Model datov¶ych bod”u lze pomoc¶‡ prolo•zen¶e p•r¶‡mky vyj¶ad•rit takto: datov¶y bod je predikce
plus chyba predikce, tj.
yi = b1xi +b0 +ei (28)
Krit¶erium optimality pro "ide¶aln¶‡ regresn¶‡ p•r¶‡mku" deflnujeme jako sou•cet kvadr¶at”u
v•sech chyb predikce
J =
nX
i=1
e2i; (29)
a po•zadujeme, aby byl minim¶aln¶‡. Chyby predikce odpov¶‡daj¶‡c¶‡ regresn¶‡ p•r¶‡mce (tj. jejich•z
kriterium J je minim¶aln¶‡) naz¶yv¶ame rezidua.
Koeflcienty regresn¶‡ p•r¶‡mky b1 a b0 jsou
b1 = SxyS
xx
; b0 = y ¡b1x; (30)
s ozna•cen¶‡m
x = 1n
nX
i=1
xi; y = 1n
nX
i=1
yi; Sxx =
nX
i=1
(xi ¡x)2; Sxy =
nX
i=1
(xi ¡x)(yi ¡y):
Korela•cn¶‡ koeflcient r je
r = SxyqS
xxSyy
; (31)
kde Syy = Pni=1(yi ¡y)2:
Pozn¶amka: Uveden¶y vzorec nen¶‡ v rozporu s t¶‡m, kter¶y jsme uvedli v souvislosti s Pear-
sonov¶ym testem. Po vyd•elen¶‡ •citatele i jmenovatele v¶yrazem n¡1 dostaneme tot¶e•z.
V¶yznam:
† Koeflcient b1 vypov¶‡d¶a o trendu regresn¶‡ p•r¶‡mky. Je-li b1 > 0 p•r¶‡mka roste, pro b1 < 0
kles¶a a v p•r¶‡pad•e b1 = 0 je vodorovn¶a.
† Korela•cn¶‡ koeflcient r nese informaci o tom, jak siln¶a je vazba mezi daty x a y. Jeho
rozsah je r 2 (¡1; 1) a je li nulov¶y, veli•ciny x a y spolu nesouvis¶‡ { regrese nem¶a
35
v¶yznam. Je-li kladn¶y p•r¶‡mka roste, je-li z¶aporn¶y, kles¶a. •C¶‡m v

Stáhnout celý tento materiál

Předchozí

1 2 3

Vloženo: 26.08.2009

Velikost: 420,76 kB

Stáhnout celý tento materiál

Komentáře

Tento materiál neobsahuje žádné komentáře.

Mohlo by tě zajímat:

Skupina předmětu BA04 - Matematika III
Reference vyučujících předmětu BA04 - Matematika III

Podobné materiály