Studijní materiály

Zpět

Hromadně přidat materiály

Popisna_statistika

MV011 - Statistika I

Hodnocení materiálu:

Zjednodušená ukázka:

Stáhnout celý tento materiál

... ... ... ... ... ... ...
Ik = (ak¡1;ak) sk nk pk Nk Pk fk
Sou•cet n 1 { { {
Tabulka 1.5: Tabulka skupinov¶eho rozd•elen¶‡ •cetnost¶‡ a •cetnostn¶‡ hustoty
x
I4I3I2I1
a4 = ba3a2a1a = a0
s5s4s3s2s1s0
p4
p3
p2
p1
f2
f1
f3
f4
Obr¶azek 1.4: Histogram rozd•elen¶‡ •cetnosti je vynesen pln¶ymi •carami. Polygon
•cetnostn¶‡ hustoty je zn¶azorn•en p•reru•sovanou •carou.
Poznamenejme je•st•e, •ze v mnoha praktick¶ych situac¶‡ch se krom•e uveden¶eho histo-
gramu pou•z¶‡v¶a tak¶e histogram absolutn¶‡ch nebo relativn¶‡ch •cetnost¶‡, p•r¶‡padn•e histo-
gram absolutn¶‡ch kumulativn¶‡ch •cetnost¶‡ nebo histogram relativn¶‡ch kumulativn¶‡ch
•cetnost¶‡. Tyto varianty histogramu se z¶‡skaj¶‡ tak, •ze se p•ri konstrukci histogramu na
osu y vyn¶a•s¶‡ m¶‡sto •cetnostn¶‡ hustoty fi n•ekter¶a z •cetnost¶‡ ni;pi;Ni nebo Pi. Takto
konstruovan¶e histogramy tak¶e d¶avaj¶‡ dobrou p•redstavu o skupinov¶em rozd•elen¶‡ sle-
dovan¶eho znaku, ov•sem ji•z neplat¶‡, •ze obsah plochy pod takov¶ym histogramem je
1.
P•ri stanoven¶‡ skupinov¶eho rozd•elen¶‡ •cetnost¶‡ se ve v•et•sin•e praktick¶ych situac¶‡ vol¶‡
t•r¶‡dn¶‡ intervaly ekvidistantn¶‡, tedy o stejn¶e d¶elce. Pro ekvidistantn¶‡ t•r¶‡dn¶‡ intervaly
pak histogram konstruovan¶y pomoc¶‡ •cetnostn¶‡ hustoty a histogram konstruovan¶y
pomoc¶‡ absolutn¶‡ch nebo relativn¶‡ch •cetnost¶‡ li•s¶‡ pouze stupnic¶‡ na svisl¶e ose. P•ri
vhodn¶e volb•e t¶eto stupnice je jejich celkov¶y vzhled shodn¶y. Ot¶azkou z”ust¶av¶a, jak
10
volit po•cet t•r¶‡dn¶‡ch interval”u k, kter¶y m”u•ze vzhled histogramu podstatn•e ovliv-
nit. N¶azorn•e je tato situace demonstrov¶ana na Obr.1.5 pro znak Z z p•r¶‡kladu 1.1
(Tab.1.2).
11
4
35
23
38
z
ni
12
9
6
3
0
40 30 20 10 0
Obr
1.5a)
Histogram
znaku
Z
ekvidistan
tn¶
‡d
¶elk
at
•r¶‡d
d=
3,
po
•cet
t•r¶‡d
k=
4
2
7
30
7
40
14
z
ni
12
10
8
6
4
2
0
40 30 20 10 0
Obr
1.5b)
Histogram
znaku
Z
ekvidistan
tn¶
‡d
¶elk
at
•r¶‡d
d=
2,
po
•cet
t•r¶‡d
k=
6
1
3
8
27
3
20
32
6
z
ni
12
10
.5
9
7.5
6
4.5
3
1.5
0
40 30 20 10 0
Obr
1.5c)
Histogram
znaku
Z
ekvidistan
tn¶
‡d
¶elk
at
•r¶‡d
d=
1:5,
po
•cet
t•r¶‡d
k=
8
1
1
2
5
16
14
3
4
16
24
10
4
z
ni
12
10
8
6
4
2
0
40 30 20 10 0
Obr
1.5d)
Histogram
znaku
Z
ekvidistan
tn¶
‡d
¶elk
at
•r¶‡d
d=
1,
po
•cet
t•r¶‡d
k=
12
Obr¶
azek
1.5:
Vliv
po
•ctu
t•r¶‡dn
¶‡ch
interv
al”u
kna
vzhled
histogram
uznaku
Z
12
Po•cet r”uzn¶ych hodnot Po•cet r”uzn¶ych hodnot Optim¶aln¶‡ po•cet
znaku podle Sturgersova znaku podle Yulleova t•r¶‡d
pravidla pravidla
3{5 3{6 3
6{11 7{16 4
12{22 17{33 5
23{45 34{61 6
46{90 62{104 7
91{181 105{167 8
182{362 168{256 9
363{724 257{374 10
¢¢¢ ¢¢¢ ¢¢¢
Tabulka 1.6: Optim¶aln¶‡ po•cet t•r¶‡d podle Sturgersova a Yulleova pravidla
V literatu•re se pro volbu po•ctu t•r¶‡ddoporu•cuj¶‡ r”uzn¶e postupy. Nej•cast•ejise u•z¶‡v¶a tzv.
Sturgersovo pravidlo, kter¶e doporu•cuje volit optim¶aln¶‡ po•cet t•r¶‡d podle vzorce
(viz. [?])
k := 1+3:332log10(n);
kde k je po•cet t•r¶‡dn¶‡ch interval”u a n je zde po•cet r”uzn¶ych hodnot sledovan¶eho znaku.
Jin¶e pravidlo pro volbu po•ctu t•r¶‡d je tzv. Yulleovo pravidlo
k := 2:5 4pn:
Podle jin¶eho p•r¶‡stupu se pro kardin¶aln¶‡ znak doporu•cuje volit d¶elku ekvidistantn¶‡ch
t•r¶‡d d od 0.08R do 0.12R, kde R je tzv. rozp•et¶‡ deflnovan¶e vztahem R = x(n)¡x(1),
p•ri•cem•z x(1) je nejmen•s¶‡ a x(n) nejv•et•s¶‡ pozorovan¶a hodnota znaku X v souboru.
Pak se po•cet t•r¶‡d k stanov¶‡ podle p•ribli•zn¶eho vzorce k = Rd.
Optim¶aln¶‡ po•cet t•r¶‡d stanoven¶y podle Sturgersova a Yulleova pravidla lze naj¶‡t v
z¶avislosti na n v tabulce Tab.1.6.
1.4 Empirick¶adistribu•cn¶‡funkceaempirick¶ekvan-
tily
V p•redchoz¶‡ch odstavc¶‡ch jsme se zab¶yvali popisem rozd•elen¶‡ •cetnost¶‡ statistick¶eho
znaku na dan¶em statistick¶em souboru. V tomto odstavci zavedeme dal•s¶‡ mo•zn¶y
p•r¶‡stupkpopisurozd•elen¶‡•cetnost¶‡dan¶ehostatistick¶ehoznaku.Budemep•redpokl¶adat,
13
•ze uva•zovan¶y znak X je ordin¶aln¶‡ nebo kardin¶aln¶‡ a na dan¶em souboru rozsahu n
nab¶yv¶a hodnot x1;x2;:::;xn, kter¶e lze uspo•r¶adat do kone•cn¶e neklesaj¶‡c¶‡ posloup-
nosti x(1) • x(1) • ¢¢¢ • x(n). Tedy x(1) je nejmen•s¶‡ a x(n) nejv•et•s¶‡ hodnota mezi
pozorov¶an¶‡m x1;x2;:::;xn.
Nejd•r¶‡ve zavedeme charakteristickou funkci mno•ziny A (tzv. indik¶ator mno•ziny A)
vztahem
IA(x) =
(
1 kdy•z x 2 A;
0 kdy•z x =2 A:
Proto pro libovoln¶e x 2 (¡1;1) polo•z¶‡me A = (¡1;xi a snadno stanov¶‡me
I(¡1;xi(xi) = 1, kdy•z xi • x a I(¡1;xi(xi) = 0, kdy•z xi > x;i = 1;2;:::;n. Potom
funkce
F⁄n(x) = 1n
nX
i=1
I(¡1;xi(xi)
pro dan¶e x ud¶av¶a po•cet pozorov¶an¶‡ v souboru x1;x2;:::;xn, kter¶a jsou nejv¶y•se rovna
x d•elen¶y rozsahem souboru n. Funkce F⁄n(x) se naz¶yv¶a empirick¶a distribu•cn¶‡
funkce. Pro dan¶y statistick¶y soubor d¶av¶a o rozd•elen¶‡ •cetnost¶‡ podobnou informaci
jako tabulka rozd•elen¶‡ •cetnost¶‡ nebo tabulka skupinov¶eho rozd•elen¶‡ •cetnost¶‡.
Graf empirick¶e distribu•cn¶‡ funkce F⁄n(x) snadno z¶‡sk¶ame tak, •ze na vodorovnou osu
naneseme uspo•r¶adan¶e hodnoty znaku x(1) • x(1) • ¢¢¢ • x(n). T¶‡m z¶‡sk¶ame tzv.
diagram rozpt¶ylen¶‡. F⁄n(x) je po •c¶astech konstantn¶‡ neklesaj¶‡c¶‡, zprava spojit¶a
funkce, v ka•zd¶em bod•e x(i) m¶a skok velikosti 1n (plat¶‡-li, •ze hodnota x(i) je v dan¶em
souboru zastoupena ni-kr¶at, je skok v bod•e x(i) roven velikosti nin ). •Cten¶a•r jist•e vid¶‡
souvislost mezi F⁄n(x) a kumulativn¶‡mi relativn¶‡mi •cetnostmi Ni;i = 1;2;:::;k:
Empirick¶a distribu•cn¶‡ funkce znaku Y z p•r¶‡kladu 1.1 je zn¶azorn•ena na Obr.1.6.
x
F(x)
43210
1
0.8
0.6
0.4
0.2
0
Obr¶azek 1.6: Empirick¶a distribu•cn¶‡ funkce znaku Y
Empirickou distribu•cn¶‡ funkci lze tak¶e konstruovat pro spojit¶y kardin¶aln¶‡ znak s
14
velk¶ym po•ctem hodnot. •Casto se ale v t¶eto situaci pou•z¶‡v¶a jej¶‡ aproximace pomoc¶‡
•cetnostn¶‡ hustoty f⁄(x) tvaru
F⁄A(x) =
Z x
¡1
f⁄(t)dt:
Aproximace F⁄A(x) z¶avis¶‡ na zvolen¶ych t•r¶‡dn¶‡ch intervalech, zat¶‡mco empirick¶a dis-
tribu•cn¶‡ funkce F⁄n(x) nikoliv.
Jsou-li data rozd•elena do tabulky skupinov¶eho rozd•elen¶‡ •cetnosti, pak aproximace
F⁄A(x) empirick¶e distribu•cn¶‡ funkce F⁄n(x) lze vyj¶ad•rit ve tvaru
F⁄A(x) =
8
>>>>
<
>>>
>:
0 pro x < a0
Pj¡1 +(x¡aj¡1)fj =
= Pj¡1i=1 pi +pj(x¡aj¡1) 1dj pro x 2 Ij = (aj¡1;aji;j = 1;:::;k;
1 pro x ‚ ak
Pomoc¶‡ empirick¶e distribu•cn¶‡ funkce lze zav¶est tzv. kvantilovou funkci, kterou si
lze p•redstavit jako zobecn•enou inverzn¶‡ funkci k empirick¶e distribu•cn¶‡ funkci F⁄n(x).
Zav¶ad¶‡ se pro p 2 (0;1) vztahem
F⁄¡1(p) = inffx : F⁄n(x) ‚ pg;
kde inffAg zna•c¶‡ tzv. inflmum •c¶‡seln¶e mno•ziny A (viz. [?]) (P•ripome•nme, •ze pro
kone•cnou mno•zinu A zna•c¶‡ inffAg jej¶‡ nejmen•s¶‡ prvek a pro nekone•cnou mno•zinu se
jedn¶a o zobecn•en¶‡ pojmu minim¶aln¶‡ho prvku na nekone•cnou mno•zinu.)
Pro dan¶e •c¶‡slo p 2 (0;1) se potom •c¶‡slo xp = F⁄¡1(p) naz¶yv¶a p-kvantilem znaku X
na souboru x1;:::;xn. Ze zaveden¶e kvantilov¶e funkce je dob•re patrn¶e, •ze p-kvantil
xp je •c¶‡slo, kter¶e rozd•eluje uspo•r¶adanou •radu pozorov¶an¶‡ x(1) • x(2) •¢¢¢• x(n) na
dv•e •c¶asti. Prvn¶‡ •c¶ast hodnot obsahuje alespo•n 100p% hodnot z cel¶eho souboru, kter¶e
jsou nejv¶y•se rovn¶e kvantilu xp a druh¶a •c¶ast obsahuje alespo•n 100(1¡p)% hodnot,
kter¶e jsou v•et•s¶‡ nebo rovn¶e ne•z kvantil xp. Kvantil xp je d”ule•zitou charakteristiku
statistick¶eho souboru a pro r”uzn¶a p poskytuje o statistick¶em souboru podobnou
informaci jako tabulka rozd•elen¶‡ nebo skupinov¶eho rozd•elen¶‡ •cetnost¶‡. D•r¶‡ve ne•z
uvedeme ilustrativn¶‡ p•r¶‡klad poznamenejme, •ze posledn¶‡ slovn¶‡ charakteristikou nen¶‡
kvantil xp ur•cen jednozna•cn•e. Zaveden¶‡ kvantilu pomoc¶‡ kvantilov¶e funkce u•z je
jednozna•cn¶e.
P•r¶‡klad 1.2 Ur•cete kvantily x0:1;x0:25;x0:50 a x0:75 pro znak Y z p•r¶‡kladu 1.1.
Z grafu na Obr.1.6 vid¶‡me, •ze "nejmen•s¶‡ •c¶‡slo x", pro kter¶e plat¶‡, •ze F⁄100(x) ‚ 0:1
je •c¶‡slo x0:1 = 1. Podobn•e stanov¶‡me x0:25 = 2, x0:5 = 3 a x0:75 = 3. Z¶arove•n vid¶‡me,
•ze procento hodnot znaku Y, kter¶e jsou nejv¶y•se rovny x0:25 = 2 je 35%, co•z je v¶‡ce
ne•z 100p%=25% a z¶arove•n procento hodnot znaku Y, kter¶e jsou v•et•s¶‡ nebo rovny
15
ne•z kvantil x0:25 = 2 tvo•r¶‡ 90% hodnot souboru a to je procento v•et•s¶‡ nebo rovno
ne•z 100(1¡p)%=75%. Tak¶e je dob•re patrn¶e, •ze kdybychom m¶‡sto kvantilu x0:25 = 2
zvolili libovoln¶e •c¶‡slo z intervalu h2;3i, po•r¶ad by platilo, •ze p•red x0:25 a v•cetn•e x0:25
le•z¶‡ alespo•n 25% hodnota a za x0:25 v•cetn•e x0:25 tak¶e le•z¶‡ alespo•n 75% hodnot. To je
p•r¶‡klad nejednozna•cnosti ve volb•e kvantilu zm¶‡n•en¶e v p•redchoz¶‡m odstavci.

Stáhnout celý tento materiál

Předchozí

1 2 3

Vloženo: 24.04.2009

Velikost: 193,80 kB

Stáhnout celý tento materiál

Komentáře

Tento materiál neobsahuje žádné komentáře.

Mohlo by tě zajímat:

Skupina předmětu MV011 - Statistika I
Reference vyučujících předmětu MV011 - Statistika I