• 沒有找到結果。

第一章 敘述統計學 2007

N/A
N/A
Protected

Academic year: 2021

Share "第一章 敘述統計學 2007"

Copied!
24
0
0

加載中.... (立即查看全文)

全文

(1)

1

第一章 敘述統計學

2007 年 10 月 30 日 最後修改

1.1 原始資料 1.2 統計表 1.3 統計圖 1.4 統計量值 1.5 一些經驗法則

1.1 原始資料

下表是測量34 個體(items)之 7 個變數的原始資料:

編號 性別 年齡 學歷 年資 職位 城市 月薪

1 36 4 10 5 台北 44,200

2 23 1 3 1 台中 16,600

3 30 3 4 3 高雄 30,100

4 23 1 1 1 高雄 16,400

5 31 2 1 1 台北 20,200

6 37 3 6 3 高雄 29,600

7 27 2 7 4 高雄 34,800

8 37 1 4 2 台北 26,100

9 34 4 9 5 台北 43,200

10 32 2 6 3 台北 32,000

11 34 3 4 2 台北 23,300

12 27 3 7 3 高雄 29,800

13 36 1 13 5 台北 43,100

14 30 3 11 5 台北 43,600

15 23 3 4 3 台中 28,800

16 35 1 7 3 高雄 27,100

17 27 3 5 3 台北 29,600

18 23 1 3 2 台中 21,500

19 28 2 6 3 台中 28,800

20 28 2 2 2 台中 22,200

21 26 3 7 4 高雄 36,700

22 28 3 7 3 台北 32,100

23 25 4 3 3 高雄 30,300

24 27 4 4 4 高雄 36,800

25 30 2 10 4 高雄 34,100

26 26 3 3 2 高雄 21,800

27 34 3 5 3 台北 31,100

28 23 2 3 2 台北 23,000

29 23 3 1 2 台北 23,800

30 24 3 5 3 高雄 28,200

31 23 3 2 2 高雄 24,100

32 31 1 9 4 台中 35,100

33 33 2 6 2 高雄 21,200

(2)

原始資料(source data)

每欄(行)表示一變數,每列表示一個測量的個體。

測量尺度在原始資料中並不一定看得出來。

若只有一個變數,原始資料會如下表(質性資料)

台北 台中 高雄 高雄 台北 高雄

高雄 台北 台北 台北 台北 高雄

台北 台北 台中 高雄 台北 台中

台中 台中 高雄 台北 高雄 高雄

高雄 高雄 台北 台北 台北 高雄

高雄 台中 高雄 台中

或(量化資料)

36 23 30 23 31 37

27 37 34 32 34 27

36 30 23 35 27 23

28 28 26 28 25 27

30 26 34 23 23 24

23 31 33 30

分組(grouping)

原始資料的觀察個數(列數)一般會超過人類可以輕鬆處理的5~9 項。

分組是處理大量資料的典型作法。

統計表(charts)與統計圖(graphs)

統計表類似原始資料表,只是給的是分組後的資料,而且內容是組出現次數。

統計圖是將統計表的訊息(各組出現次數)以圖形來表示。

城市 次數

台北 13

台中 7

高雄 14

合計 34

次數

13

7

14

0 2 4 6 8 10 12 14 16

台北 台中 高雄

統計量(statistic)

另一種處理大量資料的作法為用一個數值來表示。

這個數值稱為統計量。(嚴格而言應為統計量值。)

(3)

最常見的統計量為平均數、變異數、極大值、極小值等。

1.2 統計表

製作統計表有三個動作:

(1)分組;(2)計數;(3)整理成統計表。

其中最重要的是分組。

分組

分組的原則:互斥且周延。

組數最好不要超過9 組,一般建議 5 至 7 組。

組數的決定也與觀測值的個數有關,觀測個數少則不適合分太多組。

質性資料有自然的分組,但仍須注意是否需合併以免過多組數。

量化資料需人工分組。

量化資料分組程序:

(1)決定全距(range), R

(

max min

)

R=xx

= −

全距 極大值 極小值

(2)決定組數

(3)決定組距(class width), w

w R

= n

⎛ = ⎞

⎜ ⎟

⎝ ⎠

組距 全距

組數

(4)寫出組限(class limits), iu i

( )

( )

min min

1 min 1

1

, , 1

i i

i i

x i w

u x i w x + u i

= + − ×

= + ×

= = >

(5)寫出分組準則

(4)

( )

min 1

i i 1

x x u

i x u i

≤ ≤

< ≤ ≠ 第一組:

第 組:

各組組距不一定要相等。

順序尺度以上資料之分組應依次序(由大而小、或由小而大)排列。

範例 1.1 定組限

就以下200 個測量值的資料:

56 56 29 38 59 42 47 51 67 26 60 59 75 34 45 29 56 67 65 22 38 39 54 41 20 49 77 46 52 74 57 35 54 46 54 33 68 70 37 85 45 50 40 65 47 44 77 58 47 84 60 80 48 61 14 35 35 65 52 51 61 54 44 46 46 58 68 72 39 63 39 38 49 36 58 38 55 53 54 31 54 27 53 81 30 58 49 54 57 59 32 65 55 32 58 43 44 66 69 37 51 47 27 60 68 56 50 33 42 64 43 50 59 70 50 43 42 37 40 59 59 56 61 53 30 65 52 24 63 40 48 34 43 61 41 41 65 46 73 17 42 37 24 63 40 27 46 56 54 42 59 49 38 62 51 59 37 55 59 53 51 48 58 43 70 66 50 77 49 55 11 43 44 66 38 62 26 59 39 62 34 42 65 42 27 43 30 35 42 51 72 32 42 77 53 46 60 24 59 34 極小值與極大值分別為xmin = 、11 xmax =85,全距為

85 11 74 R= − =

我們決定分成n= 組,組距應為 8 74 9.25

8 w R

= n = =

為了符合一般習慣,將組距、第一組的下限作以下調整:

1 min

10, 10

w= =x ≈ 則各組上下限依次為

(5)

1 2 20, 2 3 30, 8 90, u = = u = = … u = 各組條件寫出如下表

10 20 20 30 80 90

x x

x

≤ ≤

< ≤

< ≤

如果取得的是離散資料(整數數值),則第一組以後可以寫成

11≤ ≤x 20, 21≤ ≤x 30, … 81≤ ≤x 90。 ■

統計表分類:

(1)次數分配表(frequency tables)

(2)相對次數分配表(relative frequency tables)

(3)累計次數分配表(cumulative frequency tables)、累計相對次數分配表 (4)列聯表(contingency tables、交叉表)

次數分配表

城市 次數

台北 13

台中 7

高雄 14

合計 34

相對次數分配表、累計次數分配表

城市 次數 相對次數

台北 13 13/34

台中 7 7/34

高雄 14 14/34

合計 34 1

年資 次數 相對次數 累計次數(以下) 累計次數(以上)

1~2 6 6/34 6 34

3~5 13 13/34 19 28

6~9 11 11/34 30 15

10 以上 4 4/34 34 4

34 1

只有順序尺度以上資料才可以有累計次數分配表(為什麼?)。

(6)

相對次數分配表有助於不同資料間的比較。

相對次數分配表是推論統計的基礎,需多注意。

列聯表

列聯表(contingency table,交叉表):將兩個變數的次數分配列於同一個統計表。

列聯表中的邊際次數(marginal frequency)即個別變數的次數分配。

年資\城市 台北 台中 高雄 邊際次數

1~2 2 2 2 6

3~5 5 3 5 13

6~9 3 2 6 11

10 以上 3 0 1 4

邊際次數 13 7 14 34

1.3 統計圖

以原始資料為基礎的統計圖:

(1)莖葉圖 —— 分組整理資料並呈現 (2)點圖 —— 分組整理資料並呈現 (3)散佈圖 —— 呈現兩變數的變化關係 以統計表為基礎的統計圖:

(1)長條圖、直方圖 —— 比較分組間的次數大小 (2)圓餅圖 —— 比較分組次數占整體的比例 (3)折線圖、肩形圖 —— 比較組間次數的變化趨勢

長條圖、直方圖

長條圖(bar chart):用於質性資料 直方圖(histogram):用於量化資料

(7)

台北 台中 高雄 4

8 12

城市別長條圖

1~2 3~5 6~9 10 以上

4 8 12

年資直方圖

圓餅圖

圓餅圖(pie chart):用於相對次數分配表

年資

1~2

3~5 6~9

10 以上

(8)

折線圖、肩形圖

折線圖:用於順序尺度以上之資料

肩形圖(ogive):用於累計次數表(累計相對次數表)

1~2 3~5 6~9 10 以上

4 8 12

年資折線圖

1~2 3~5 6~9 10 以上

5 10 30

年資肩形圖

15 20 25 34

莖葉圖

莖葉圖(stem-and-leaf display):保留原始資料

範例 1.2 莖葉圖

例1 資料前 5 筆畫入莖葉圖如下:

(9)

10 20 9 30 8 40

50 6 6 9 60

70 80

其中第一行稱為莖,其餘為葉。圖中表示五十幾的有3 筆,分別是 56、56、59。前 30 筆填入的結果如下:

10

20 9 6 9 2 0 30 8 4 8 9 40 2 7 5 1 9 6 50 6 6 9 1 9 6 4 2 60 7 0 7 5

70 5 7 4 80

莖葉圖只適用於小量資料,200 筆太多了。 ■

點圖

點圖(dot plot):適用於觀測數量大的資料

‧‧

‧ ‧ ‧‧ ‧

‧ ‧ ‧ ‧ ‧

‧ ‧ ‧ ‧ ‧ ‧

‧ ‧ ‧ ‧ ‧ ‧

‧ ‧ ‧ ‧ ‧ ‧ 10 20 30 40 50 60 70 80

散佈圖

散佈圖(scatter diagram):瞭解兩量化資料為正相關或負相關。

(10)

年齡、年資散佈圖

年齡

38 36 34 32 30 28 26 24 22

年資

14 12 10 8 6 4

2 0

1.4 統計量值

順序尺度資料的統計量值:

(1)中位數(median,M ) e

至少有50%的數值小於等於M ,且最少有e 50%的數值小於M 。 e (2)眾數(mode,M ) o

出現次數最多的數值,可能有一個以上的眾數。

(3)四分位數(quartiles,Q 、1 Q 、2 Q ) 3

至少有25%的數值小於等於Q ,且最少有 25%的數值小於1 Q 。 1 Q 稱為第一四分位數,1 Q 稱為第三四分位數。 3

2 e

Q =M

(4)百分位數(percentiles,P 、1 P 、10 P 、90 P ) 99

至少有n%的數值小於等於P ,且最少有n n%的數值小於P 。 n

25 1

P =QP50=Q2=MeP75=Q3 (5)極值

(11)

量化資料的統計值:

(1)位置測量值:平均數(mean,μ)

1 2 N i

x x x x

N N

μ= + + + =Σ

樣本平均數: x1 x2 xn xi

x n n

+ + + Σ

= =

(2)離散測量值:標準差(standard deviation,σ)、變異數(variance,σ2

( )

2 2 2

2 xi xi N

N N

μ μ

σ =Σ =Σ − ×

樣本變異數: 2

( )

2 2 2

1 1

i i

x x x n x

s n n

Σ − Σ − ×

= =

− −

(3)變異係數(coefficient of variance,CV)

CV σ 100%

= ×μ 或 s 100%

CV = ×x

(4)偏態(skewness,α3

( )

3

3 3

xi μ N

α σ

Σ −

=

α3< 的情況稱為左偏(negatively skewed); 0 α3> 的情況稱為右偏(positively skewed)。 0

偏態係數(coefficient of skewness)

( )

3 e

k

S μ M σ

= −

Sk < 稱為左偏、0 Sk > 為右偏。 0

(5)峰態(kurtosis,α4

( )

4

4 4

xi μ N

α σ

Σ −

=

α4< 稱為低闊峰(platy-kurtosis)、3 α4> 稱為高狹峰(lepto-kurtosis) 3

(12)

兩變數間相關性的統計量值:

(1)共變數(covariance,σxy

(

i x

) (

i y

)

i i x y

xy

x y x y N

N N

μ μ μ μ

σ =Σ =Σ − × ×

樣本共變數:

( )( ) ( )

1 1 1

i i i i i i i i

xy

x x y y x y n x y x y x y n

s n n n

Σ − − Σ − × × Σ − Σ Σ

= = =

− − −

(2)相關係數(correlation coefficients,ρ)

( ) ( )

( )

2

( )

2 2 2 2 2

i x i y

xy i i x y

x y i x i y i x i y

x y x y N

x N y N

x y

μ μ

σ μ μ

ρ σ σ μ μ μ μ

Σ − − Σ − × ×

= = =

Σ − × Σ − ×

Σ − Σ −

樣本相關係數:

( )

( ) ( )

2 2 2 2 2 2 2 2

xy i i i i i i

x y i i i i i i

s x y n x y x y x y n

r s s x n x y n y x x n y y n

Σ − Σ Σ Σ − × ×

= = =

Σ − × Σ − × Σ − Σ Σ − Σ − ≤ ≤ ,1 ρ 1 ρ= − 時稱完全負相關、1 ρ= 時稱完全正相關。 1

第 n 百分位數(

Pn

)的求解步驟

(1)求所在位置的名次(令總觀察值數目為 N)

% 0.5 i= ×N n + (2)找第 i 名的數值即為P n

(a)未分組資料

(a1)需要報告觀察值

( )

n round i

P =x

(a2)不需要報告觀察值

( )

1

2

I I

n n i

x x

P + + P x i

= 或 = 為整數

其中,I 為 i 之整數部分。

(b)分組資料

0.5 k % k

n k k k k

k k

i N n N N

P w w

n n

− − × −

= + × = + ×

(13)

其中, kn 、k N 、k w 為所在組的下限、該組個數、該組前累計個數、組寬 k

第 n 百分位數(

Pn

)的求解步驟(課本的作法)

(1)求所在位置的名次(令總觀察值數目為 N)

% i= ×N n

(2)找第 i 名的數值即為P n (a)未分組資料

(a1)若 i 為整數

1

2

i i

n

x x P + +

=

(a2)若 i 不是整數

1

n I

P =x +

其中,I 為 i 之整數部分。

(b)分組資料

k % k

n k k k k

k k

i N n N N

P w w

n n

− × −

= + × = + ×

其中, kn 、k N 、k w 為所在組的下限、該組個數、該組前累計個數、組寬 k

第 n 百分位數(

Pn

)的求解步驟(Excel 內建函數的作法)

(1)求所在位置的名次(令總觀察值數目為 N)

(

1

)

% 1

i= N− ×n + (2)找第 i 名的數值即為P n

(a)未分組資料 (a1)若 i 為整數

n i

P = x (a2)若 i 不是整數

(14)

(

1

)

n I I I

P =x + ×R x+x

其中,I 為 i 之整數部分,R 為 i 之小數部分。

(b)分組資料(Excel 未提供此部分解答)

範例 1.3 未分組資料之P 10 就下列資料:

10

20 9 6 9 2 0 30 8 4 8 9 40 2 7 5 1 9 6 50 6 6 9 1 9 6 4 2 60 7 0 7 5

70 5 7 4 80

P : 10

N =30,i=101 ×30 0.5 3.5+ = ,則 (需給觀察值) P10=xround( )3.5 =x4=29 (不需觀察值) 3 4 26 29

2 2 27.5

n

x x

P + +

= = =

Q 、1 Q : 3

30N = ,i1= ×14 30 0.5 8+ = 、i2= ×24 30 0.5 15.5+ = 、i3= ×34 30 0.5 23+ = ,則

1 8 38

Q =x = 、 2 15.5 15 16 49 51 2 2 50

e

x x

M Q x + +

= = = = = 、Q3=x23=59

3 1 59 38 21 IQR=QQ = − = IQR 稱為四分位數距。

(課本作法)

30

N = ,i1= ×14 30 7.5= 、i2= ×42 30 15= 、i3= ×34 30 22.5= ,則

1 8 38

Q =x = 、 2 15 16 49 51 2 2 50

e

x x

M Q + +

= = = = 、Q3=x23=59

3 1 59 38 21 IQR=QQ = − = (Excel 作法)

30N = ,i1= ×14 29 1 8.25+ = 、i2= ×42 29 1 15.5+ = 、i3= ×34 29 1 22.75+ = ,則

(15)

( ) ( )

1 8 0.25 9 8 38 0.25 39 38 38.25 Q =x + × xx = + × − =

( ) ( )

2 15 0.5 16 15 49 0.5 51 49 50 Me =Q =x + × xx = + × − =

( ) ( )

3 12 0.75 23 22 59 0.75 59 59 59 Q =x + × xx = + × − =

3 1 59 38.25 20.75

IQR=QQ = − = ■

範例 1.4 分組資料之P 10 就下列資料:

組別 次數

20≤X<30 4 30≤X<40 6 40≤X<50 12 50≤X<60 14 60≤X<70 7 70≤X≤80 7

總和 50

P : 10 50

N = ,i=101 ×50 0.5 5.5+ = ,則

2 2 2 2

2, 30, 6, 4, 10

k= = n = N = w =

10

0.5 5.5 0.5 4

30 10 31.67

6

k

k k

k

i N

P w

n

− − − −

= + × = + × =

Q 、1 Q : 3

50N = ,i1= ×14 50 0.5 13+ = 、i2= ×42 50 0.5 25.5+ = 、i3= ×34 50 0.5 38+ = , 則

1 3

1 13 3 3

3

0.5 13 0.5 10

40 10 42.08

12

i N

Q x w

n

− − − −

= = + × = + × =

2 4

2 25.5 4 4

4

0.5 25.5 0.5 22

50 10 52.14

e 14

i N

M Q x w

n

− − − −

= = = + × = + × =

3 5

3 38 5 5

5

0.5 38 0.5 36

60 10 62.14

7

i N

Q x w

n

− − − −

= = + × = + × =

3 1 62.14 40.08 22.06

IQR=QQ = − = ■

盒鬚圖(box chart):將 min、Q 、1 Q 、2 Q 、max 化在同一圖上。 3

(16)

Q1 Q2 Q3 max min

範例 1.5 盒鬚圖 就下列資料:

10

20 9 6 9 2 0 30 8 4 8 9 40 2 7 5 1 9 6 50 6 6 9 1 9 6 4 2 60 7 0 7 5

70 5 7 4 80

min 20

x = 、xmax =77

1 8 38

Q =x = 、 2 15.5 15 16 49 51 2 2 50

e

x x

M Q x + +

= = = = = 、Q3=x23=59 其盒鬚圖如下:

38 50 59 77 20

由盒鬚圖得知這些數值整體而言呈對稱分配,但有一點左偏。 ■

動差(moments)

(1)零動差(zero moments)

n

xi

n N

=Σ 級零動差

(2)主動差(principle moments)

(

i

)

n

(

i

)

n

n

x x

n M

N N

μ μ

Σ − Σ −

= = =

級主動差

( )

2 2

( )

2

2

i i i

x x x N

M N N

μ

Σ − Σ − Σ

= =

1 0

M =

(17)

2

M2

3

3 3

M =α σ×

4

4 4

M =α σ×

範例 1.6 未分組資料之變異數 就下列資料:

x 12 14 22 16 34 16 23 21

計算工作表如下

x

12 144

14 196

22 484

16 256

34 1,156

16 256

23 529

21 441

158 3,462

( )

2 2

( )

x 2 x x x

n

− = Σ − Σ

( )

2 2

2 2

3462 158 8 341.5

42.69

8 8

X

x x n

σ

n

Σ − Σ −

= = = =

母體變異數

( )

2 2

2 2

3462 158 8 341.5

48.79

1 7 7

X

x x s n

n

Σ − Σ −

= = = =

樣本變異數 −

範例 1.7 分組資料之變異數 就下列資料:

組別 次數

20≤X<30 4 30≤X<40 6 40≤X<50 12 50≤X<60 14 60≤X<70 7 70≤X≤80 7

(18)

計算工作表如下

組別 代表數 次數 累計次數 X X2

20≤X<30 25 4 4 100 2,500 30≤X<40 35 6 10 210 7,350 40≤X<50 45 12 22 540 24,300 50≤X<60 55 14 36 770 42,350 60≤X<70 65 7 43 455 29,575 70≤X≤80 75 7 50 525 39,375

總和 50 2,600 145,450

2600 52 50 x

μ=ΣN = =

( )

2

2 2

2 145,450 2,600 50 50 205

x x N

σ =Σ − ΣN = =

205 14.32 σ = =

14.32

0.2754 27.54%

CV σ 52

=μ = = = ■

範例 1.8 分組資料之相關係數 就下列資料:

x 12 14 22 16 34 16 23 21

y 47 51 75 53 90 43 67 64

計算工作表如下

x y xy

12 47 144 2,209 564

14 51 196 2,601 714

22 75 484 5,625 1,650

16 53 256 2,809 848

34 90 1,156 8,100 3,060

16 43 256 1,849 688

23 67 529 4,489 1,541

21 64 441 4,096 1,344

158 490 3,462 31,778 10,409

(

X X

)(

YY

)

= ΣXYΣ × ΣXn Y

( )

2

2 158 158

3,462

8 48.79 6.98

1 8 1

x

x x s n

n

Σ ×

Σ − −

= = = =

− −

(19)

( )

2

2 490 490

31,778

8 252.21 15.88

1 8 1

y

y y s n

n

Σ ×

Σ − −

= = = =

− −

158 490

10,409 8 731.5 104.50

1 8 1 7

xy

x y xy n

s n

Σ × Σ ×

Σ − −

= = = =

− −

104.50 6.98 15.88 0.94

xy x y

r s

= s s = =

× ■

平均數、中位數、眾數的關係

皮爾森公式:

(1)中位數一定介於平均數與眾數之間 (2)眾數 中位數− =2平均數 中位數−

Mo

Me

μ 左偏

Mo Me μ

右偏

範例 1.9 皮爾森公式

已知μ=20、Me =16,求M 。 o

【解】

Me< 知此資料為右偏,且μ Mo<Me =16, 因 MoMe =2μ−Me =2 20 16

(

)

= , 8

Mo=Me− =8 16 8 8− = ■

(20)

1.5 一些經驗法則

z 分數(z-score)

i i

z x μ σ

= − 或 i xi x z s

= −

範例 1.10 z 分數

求以下數值的z 分數:

6 9 11 8 3

【解】

計算平均數與標準差,工作表如下:

x x² z-score 6 36 -0.46

9 81 0.52

11 121 1.18

8 64 0.20

3 9 -1.44

37 311 其中

37, 2 311, 5

x x n

Σ = Σ = =

( )

2

2 2

37 2 311 37 5

7.4, 9.3, 9.3 3.05

5 1 5 1

x x n

x x s s

n n

Σ − Σ

Σ −

= = = = = = = =

− −

1 1

6 7.4 3.05 0.46 x x

z s

− −

= = = −

2 2

9 7.4 3.05 0.52 x x

z s

− −

= = =

Z 分數小於零表示該觀測值小於平均數;z 分數之絕對值越大,表示該觀測值離平均 數越遠。z=1.18表示該觀測值大於平均數有1.18 個標準差。 ■

(21)

柴比雪夫定理(Chebyshev’s theory)

一組觀察值中,至少有1 12

k 比例的觀察值,落在距離平均數 k 個標準差之內。k≥ ) 1

以機率符號表示則為

( )

2

1 1

P x k

μ σ k

− ≤ ≥ −

範例 1.11 柴比雪夫定理

已知企管系100 名學生,統計學的平均分數為 60 分,變異數為 16;

(a)請估計至少有多少人分數落在 55 分到 65 分之間;

(b)請找出至少有 89 個學生在內的區間;

(c)請估計至少有多少人分數落在 55 分到 75 分之間。

【解】

(a)

( )

( )

54 2

55 60 65 60 5 1 9

55 65 1

4 25

16 16 100 36 9

25

k − − P X

= = = ⇒ ≤ ≤ = − =

× =

至少有 位同學。

(b)

{ } { }

2

89 1

1 3.015 100

60 16 60 16 48 72

k k

k X k X

= = − ⇒ =

− × ≤ ≤ + × = ≤ ≤ 機率

範圍為

(c)

1 2

55 60 5 75 60 15

4 , 4

16 16

kk

= = = =

( )

( )

54 2

( )

154 2

1 1 1 1 81 209 29

55 75 1 1

2 2 225 45

P X

⎡ ⎛ ⎞ ⎛ ⎞ ⎤ +

⎢ ⎜ ⎟ ⎜ ⎟ ⎥

⇒ ≤ ≤ = × − + − = × =

⎜ ⎟ ⎜ ⎟

⎢ ⎝ ⎠ ⎝ ⎠ ⎥

⎣ ⎦

經驗法則(the empirical rule)

若資料呈鐘形(單峰、對稱)分佈,則

(22)

(1)約 68% 的觀察值落在離平均數 1 個標準差內;

(2)約 95% 的觀察值落在離平均數 2 個標準差內;

(3)約 99.7% 的觀察值落在離平均數 3 個標準差內;

(4)約1 0.1− k的觀察值落在離平均 k(k≥ )個標準差內。 4

範例 1.12 經驗法則

已知企管系100 名學生,統計學的分數呈常態的鐘形分配,其平均分數為 60 分,變 異數為16;

(a)請估計至少有多少人分數落在 56 分到 64 分之間。

(b)請找出至少有 95 個學生在內的區間。

【解】

60, 16 4 μ = σ = = (a)

( )

56 60 64 60

1 56 64 68%

16 16 68% 100 68

z − − P X

= = = ⇒ ≤ ≤ =

× =

至少有 位同學。

(b)

95 95% 2

100 z

= = ⇒ =

機率

{ 60 − ×

z

16

X

60 + ×

z

16 } = { 52

X

68 }

範圍為

離群值(outliner)

離平均數太遠,以致於被認為不屬於該群資料的數值。

離群值的判斷

(1)z 分數法

zi > ,則3 x 可視為離群值。 i (2)盒鬚圖法

Q1− >xi 1.5×IQRxiQ3>1.5×IQR,則x 認定為懷疑離群值; i

(23)

Q1− > ×xi 3 IQRxiQ3> ×3 IQR,則x 認定為確定離群值。 i

38 50 59 77

20 內圍

外圍

範例 1.13 離群值 就下列資料:

96 105 85 74 110 90 103 106 102 99 請判斷是否有離群資料。

【解】

96 105 85 74 110 90 103 106 102 99 平均數 97.0

樣本標準差 11.1 max 110 min 74

97.0, 11.1, max 110, min 74

x= s= = =

計算結果:

97 3 11.1 63.7, 97 3 11.1 130.3

= − × = = + × =

下界限值 上界限值

沒有任何離群值。 ■

範例 1.14 離群值 就下列資料:

21 37 29 39 26 42 29 25 33 25 65 24 26 26 27 23 29 25 26 44 (a)請分別計算懷疑之離群值的上、下界限值(內圍值);

(b)請分別計算確定之離群值的上、下界限值(外圍值);

(c)請問本組資料有沒有確定之離群值、或懷疑之離群值。

【解】

(24)

21 37 29 39 26 42 29 25 33 25 65 24 26 26 27 23 29 25 26 44

Q1= 25.0 mean = 31.1 Q2= 26.5 median = 26.5 Q3= 34.0 mode = 26 IQR= 9.0

MAX= 65.0 MIN= 21.0 (a)

3 1

3 1

1.5 +1.5 34 1.5 9 47.5

1.5 25 1.5 9 11.5

Q Q IQR

Q IQR

Q IQR

× = + × =

− × = − × =

懷疑離群值之上、下限分別離 、 個 :

(b)

3 1

3 1

3 +3 34 3 9 61

3 25 3 9 2

Q Q IQR Q IQR

Q IQR

× = + × =

− × = − × = −

確定離群值之上、下限分別離 、 個 :

(c)本組資料有確定離群值 65。 ■

參考文獻

相關文件

interface ITextBox : IControl// 繼承了介面 Icontrol 的方法 Paint() { void SetText(string text); }. interface IListBox : IControl// 繼承了介面 Icontrol 的方法 Paint() {

下列哪一段敘述呈現出「動態」畫面?.

( )如圖為自民國 79 年到 88 年臺灣地區每人每年平均用紙量(kg)折線圖,請問哪一年間,每

如圖是臺北地區民國 81~90 年每人每年平均用紙量(kg)折線圖,請問 90 年比 81 年每人每年平

審查整理呈現資料:蒐集到的資料應先審核 是否完整、正確、合理與一致,然後利用敘

第四章: 中學報稅的設計 第五章: 初中諒程主建議 第六章: 高中諒我建議,..

第一章:宋元 經濟蓬勃與民族關係發展的時代 課題

Britain–s £50 Note Will Honor Computing Pioneer Alan Turing.. 盧政良 台大資訊系