• 沒有找到結果。

第 2.4 單元 數據分析

在文檔中 99mathall (頁 77-92)

2.4.1 單變量數據分析

單變量數據分析 : 對某一種變數(變量) 感興趣, 所做的數據資料分析。(一維數據分析) 雙變量數據分析 : 對某兩個變數(變量) 間的關係感興趣, 所做的數據資料關係分析。(二

維數據分析)

多變量數據分析 : 對多個變數(變量) 間的關係感興趣, 所做的數據資料關係分析。 (多 維數據分析)

統計圖表: 對變量所蒐集到的資料用圖表簡化成有用的資訊, 使之比數據或文字提供有 效資訊, 稱為統計圖表。

離散型數據: 統計數據資料分成連續型與離散型數據 。 變量數據無介於兩類別數據資 料之間的類型資料稱為離散型數據。

如性別、 血型、 顏色、 職業等分類的計數數據。 又分次序數據 (以1、2、3、4代表強、

中、 弱、 微) 及名目數據 (無大小次序之分的數據, 如色彩中的紅色、 藍色、 綠色、

白色等)

連續型數據: 變量數據可以有連接性、 有次序數值關係的資料, 稱為連續型數據。

如身高、 體重、 測驗成績等計量的數據。

常用的統計圖表

順伯的窩

https://sites.google.com/site/hysh4math 2.4 數據分析 ·

1. 圓面積圖 (圓餅圖):

type A 24%

type B type C 12%

15%

type D 33%

other 16%

2. 長條圖:

1930 1940 1950 1960 1970 3

4 5 6 7

·107

Population

Far Near

3. 折線圖: 次數分配折線圖或相對累積次數分配折線圖 0 20 40 60 80

0 200 400 600 800 1,000

Discarding unbounded coords

4. 直方圖:

成績

0-59 60-69 70-79 80-89 90-100

百 分 比 %

10 20 30 40 50 60

5. 盒鬚圖:

順伯的窩

Me

Q1 Q3

¯ x

IQR

Box and Whisker Plot

集中趨勢量數: 用一數值來表示這一群數集中趨勢。

一般常見的集中趨勢量數有算術平均數、 中位數、 眾數、 幾何平均數等。

算術平均數(Mean) µ : (簡單, 易算, 靈敏)(易受極端值影響) µ = 1n(x1 + x2 +· · · + xn) = 1n

Pn i=1

xi

中位數(Median) Me: (感應不靈敏)

至少有一半的數值大於或等於中位數, 而且至少有一半的數值小於或等於中位數。

將資料由小至大排列如: x(1) ≤ x(2) ≤ x(3) ≤ · · · ≤ x(n)

若 n = 2k + 1 為奇數筆數據, 則中位數 Me = x(k+1) , 即中間項的數據。

若 n = 2k 為偶數筆數據, 則中位數 Me = 12(x(k) + x(k+1))。

加權平均數: 將各數據分別乘以權數, 再將乘積的總和除以權數總和, 所得之商。

眾數(Mode) Mo : 一群數值中出現次數最多的數值。(次數分配無顯著集中時沒有代表 性)

幾何平均數: √n

x1x2· · · xn

分組資料的集中趨勢量的計算方式:

量數 未分組 分組

普通法 簡捷法

平均數X n1 Pn

i=1

Xi 1

n Pk j=1

xjfj X = A + h· 1n Pk j=1

djfj 其中dj = xi−Ah

中位數 Me n 為奇數Me = x(k+1) *** Lme+

n

2 − F−1

fme· hme

n為偶數Me = 12(x(k)+ x(k+1))

眾數Mo 出現次數最多的數值 ***插值, 比率法

順伯的窩

https://sites.google.com/site/hysh4math 2.4 數據分析 · 資料與平( 均數, 中位數, 眾數三者關係:

平均數 : 機率分配圖的重心位置(槓桿的支撐點)。

中位數 : 將機率分配圖左右等分面積。

眾數 : 機率分配圖的最高點位置。

對稱的單峰分配 (資料直方圖以中間為高峰且左右對稱) : X = Me = Mo

左偏分配 (資料直方圖左端值次數分配拖的較長): X < Me < Mo

右偏分配 (資料直方圖右端值次數分配拖的較長): Mo < Me < X

²³¤¤¥­

¼Æ¦ì§¡

¼Æ¼Æ

¥­¤¤²³

§¡¦ì¼Æ

¼Æ¼Æ

¥k°¾ ¥ª°¾

4-1: 偏斜分布的平均數、 中位數與眾數三者間的關係

離散趨勢的統計量: 全距、 四分位差、 標準差等。

離差: 一群數值, 除了考慮集中趨勢外, 另一重點是分散的程度, 就是離差。

一般常用測量離散程度的量數有全距、 四分位差、 變異數與標準差等。

全距R: 將資料 xi 排序

x(1) ≤ x(2) ≤ x(3) ≤ · · · ≤ x(n), 全距R = X(n)− X(1)

四分位差: Q.D. = Q3 − Q1 有些書定義 Q.D. = Q3 − Q1

第三四分位數 Q3− 第一分位差 Q1 2

例: 未分組 (有多種算法) n=11 , 則 Me = Q2 = Xn+1

2 = X6, Q1 = 5+12 = X3, Q3 = X6+3 = X9

已分組: 原則上可按照比例求 Q3 = X75% = X3n

4 , Q1 = X25% = Xn4 離均差 : xi− x , 所以 P(xi− x) = 0

變異數 : 離均差平方和的平均

1. 母群體: 母群體的算術平均數為 µ , 則變異數為 σ2 = 1N PN i=1

(xi − µ)2 σ = 1N (

PN i=1

x2i)− µ2

2. 樣本: 若樣本資料的算術平均數為 x , 則變異數為 S2 = 1 n− 1

Pn i=1

(xi − x)2 未分組: S2 = 1

n− 1[Pn

i=1

x2i − nX2]

順伯的窩

已分組: S2 = n

https://sites.google.com/site/hysh4math 2.4 數據分析 ·4-1: 各種差異量數的比較

量數 (統計量) 優點 缺點 特殊使用場合

標準差S 定義明確, 感應靈敏,適 合運算, 受抽樣方法變 動影響小

不易計算, 易受極端值 影響

大都會用到(資料 差異的衡量大小) 四分位差 Q.D. 定義明確, 簡單易懂,

算容易, 不受極端值影 響

不適合運算, 感應不靈 敏, 較易受抽樣方法變 動影響

順序資料

全距 R 簡單易懂, 計算容易 不適合運算, 感應不靈 敏, 較易受抽樣方法變 動影響小

常 用 於 品 質 管 制 時

*變異係數 C.V. = s

x 比較不同群組時,

或 在 同 態 下 但 其 平 均 數 相 差 太 大 時

標準化Z 分數 zi = xiσ− µ |Z| 分數愈大表該筆資 料愈遠離中心

必需知道變數的算術平 均數及標準差才能計算 Z分數

可 用 在 不 同變 數 間 的 資 料 排 序 比 較情形

精選範例

例題1 5位學生的數學成績如右:79, 67, 61, 70, 73 求平均數 µ , 離差平方和 Sxx, 變異數 σ2, 標準差 σ ? [Ans:µ = 70, Sxx = 180, σ2 = 36, σ = 6]

例題2 男生隊伍 8 隊員年齡為 14, 14, 16, 16, 16, 17, 17, 18 。 女生隊伍 10 隊員的年齡為 3, 3, 4, 5, 5, 6, 6, 6, 60, 62 分別求男生隊員與女生隊員年齡的四分位距? [Ans:IQR1 = 17− 15 = 2, IQR2 = 6− 4 = 2]

例題3 小溥的期中考數學成績為91分, 而全班的平均分數為75分, 標準差為8分。 而小溥 期末考數學成績為88分, 班上的平均分數為73分, 標準差為5分。 求小溥兩次考試 數學成績標準化的 z 分數? 就全班成績來觀察, 小溥數學成績到底是進步還是退 步呢? [Ans:z1 = 2, z2 = 3 ; 成績進步]

例題4 某籃球隊有10名隊員, 其身高分別為 182,185,186,186,183,175,196,188,186,183 公分, 求此球隊隊員身高的平均數與標準差? [Ans: 平均數 µ = 185 公分, 標準 差為σ = 5 公分]

例題5 某班50名學生的期中考數學成績, 中位數74分, 算術平均數75.2分。 後來發現某 生成績應為 86 分誤登記為76 分, 試問班級的中位數, 算術平均數, 標準差應否更 正? 若該更正, 則變大還是變小? Ans: 中位數不變, µ = 75.4 變大, σ 增大。

例題6 某測驗, 甲、 乙兩班數學成績如下表所示, 求甲、 乙兩班的算術平均數及標準差?

[Ans: (1)X甲 = 67, S甲 = 13; X乙 = 68.5, S乙 = 14.2]

例題7 某公司調查其名下各分公司員工的薪水, 得算術平均數為30000元, 標準差為4000 元。 為激勵員工, 公司提出兩個調薪方案: 甲方案: 每人加薪5000元。 乙方案: 每人

順伯的窩

班級 (次數) 40∼ 50 50 ∼ 60 60 ∼ 70 70 ∼ 80 80 ∼ 90 90 ∼ 100 合計

甲班 2 5 4 6 2 1 20

乙班 1 6 5 3 3 2 20

加薪 5%。 求兩方案員工薪水的算術平均數與標準差? [Ans: 甲: 35000; 4000 乙:

31500; 4200]

例題8 假設有一群十筆資料,11,15,13,15,9,8,4,5,5,15; 如果將最後一筆數據由15改為14, 則下列 7 個統計量, 那幾個對應的統計量會因此有所變動 (說明變大或變小或其 值)? (a) 平均數 (b) 眾數 (c) 中位數 (d) 全距 (e) 變異數 (f) 標準差 [Ans:

(a) 變小 (b) 增加一個 (c) 不變 (d) 不變 (e) 變小 (f) 變小]

習題4-1 單變量數據分析

1. 十位同學的身高 (cm) 如下:155,156,158,158,160,160,161,163,163,166 選出正 確選項? (1) 全距為11 (2) 中位數為160 (3) 四分位距為 5 (4) 平均數是160 (5) 標準差小於4

2. 下列有關 z 分數的敘述, 何者正確?(1) z 分數表示某數與平均數的距離是標準差 的幾倍 (2)z 分數一定是正數 (3) z 分數常被用來比較不同單位之量數間的大小 (4) 將整組數據 z 分數化後的新數據, 其平均數為0 (5) 將整組數據 z 分數化後 的新數據, 其標準差為1

3. 某次段考全班的平均為50分, 標準差為8分, 老師將每各同學的成績除以2再加50 分, 求調整後的算術平均數和標準差?

4. 某工廠連續10天的零件不良數如下:8,7,7,6,8,8,9,8,6,6, 試算出這些零件不良數的 平均數、 中位數及眾數?

5. 求資料 X:1,2,3,4,5等五筆數值的標準差?

求資料 Y:101,102,103,104,105等五筆數值的標準差?

6. 若對班上數學成績作如下改變:(1) 每個同學成績均加10分 (2) 每個同學成績均增 加其原有的 10% , 則此二措施分別對原成績的平均數和標準差各有何影響?

7. 假設有一群十筆資料,11,15,13,15,9,8,4,5,5,15; 如果將最後一筆數據由15改為14, 則下列 7 個統計量, 那幾個對應的統計量會因此有所變動 (說明變大或變小或其 值)? (a) 平均數 (b) 眾數 (c) 中位數 (d) 全距 (e) 變異數 (f) 標準差

8. 甲、 乙、 丙三位同學參加大學學科能力測驗, 五科的原始成績如下表所示, 設 S, S, S

, 分別代表甲、 乙、 丙三位同學五科成績的標準差, 請仔細觀察表中數據, 再判斷 其 S, S, S 的大小關係?

科目 社會 國文 自然 英文 數學 甲 100 70 80 60 5090 60 70 50 4080 56 64 48 40

順伯的窩

https://sites.google.com/site/hysh4math 2.4 數據分析 · 學生 A B C D E F G H I J

身高 (公分) 171 164 164 165 171 167 169 162 166 171 體重 (公斤) 66 65 62 66 66 63 55 68 63 76

9. 下表為10名學生的身高體重:

(a) 求身高體重的算術平均數與標準差?

(b) 計算 A 生身高及體重的 z 分數?

(c) 就整體而言 A 生的身高和體重何者較突出?

10. 下表為20名成年男子每分鐘脈搏跳動的次數分配表: 求脈搏跳動的算術平均數及

組別 40∼ 50 50 ∼ 60 60 ∼ 70 70 ∼ 80 80 ∼ 90

人數 1 8 8 2 1

標準差?

2.4.2 雙變量數據分析

二維數據分析: 討論兩個變數之間是否有關聯, 稱為二為數據分析。 通常先觀察其散佈 圖。

散佈圖: X,Y 兩變量, 將兩數據看成序對 (xi, yi) , 在坐標系上繪出點 (x1, y1),· · · , (xn, yn) 所得的圖, 以利觀察其相關情形。 歐姆定律描述了電壓和電流在導體的關係, 某一 段電線電流與電壓的關係如下:

電流 電壓 電流 電壓 電流 電壓

0 0.4 0.2 0.3 0.4 0.6

0.6 0.6 0.8 0.4 1 1

1.2 0.9 1.4 0.7 1.6 1

1.8 1.1 2 1.3 2.2 1.1

2.4 1.4 2.6 1.6 2.8 1.9

3 1.9 3.2 2 3.4 1.9

3.6 2.1 3.8 2.1 4 2.4

4.2 2.4 4.4 2.5 4.6 2.5

相關係數: 未標準化兩變量 X,Y 之間的相關程度 (高中只討論線性相關)

相關係數就是用標準化新資料計算出的, 可減少不同測量單位的數據對散佈圖的 影響, 使資料分布情形更易觀察其相關程度。

資料標準化 (x, y) 的相關係數: r = Xn

i=1

xiyi

n 與未標準化資料相關係數相等。

順伯的窩

1 2 3 4 5 0

1 2 3

電流

電壓

1 2 3 4 5

0 1 2 3

Yˆ

電流

電壓

4-2: 電流、 電壓關係的散佈圖與迴歸直線

r = Xn

i=1

xiyi

n =

Xn i=1

(xi− X)(yi− Y ) n· SX · SY =

Xn i=1

xiyi − nX · Y

r Xx2i − nX2 Xy2i − nY2

=

Xn i=1

(xi − X)(yi − Y )

qX(xi− X)2qX(yi − Y )2 = p Sxy

Sxx ·pSyy

其中 Sxx = P(xi− x)2, Sxy = P(xi− x)(yi− y); Sx, Sy, 分別為x,y 的標準差 Sxx = n· Sx2, Syy = n· Sy2

1. r = 1 完全正相關

2. 0.7 ≤ |r| ≤ 1 表高度相關 3. 0.3 ≤ |r| ≤ 0.7表中度相關 4. 0 < |r| < 0.3 表低度相關 5. r = 0 表零相關

6. r =−1 表完全負相關 相關係數的意義與性質:

1. 當兩變數的線性相關程度很高時, 兩變數之間未必可解釋存在 「因果關係 」。

相關係數只顯現兩變數之間關連性的強弱程度。

2. 若兩變量 X,Y 的相關係數為 r, X = aX + b, Y = cY + d , 則 X, Y 的 相關係數 r

(a) ac > 0, r = r (b) ac < 0, r = −r

3. 相關係數與單位無關。 變量 X, Y 線性平移後的相關係數與原相關係數一樣 (頂多改變正負相關)。

4. X 和 Y 相關係數與 Y 和 X 的相關係數不變。

5. 相關係數與平均數及標準差一樣, 即易受少數極端數據 (離群數據) 影響。

順伯的窩

https://sites.google.com/site/hysh4math 2.4 數據分析 · 迴歸直線:(最適合直線)

兩變數之散佈圖上呈現類似直線關係, 可用一適當直線方程式來描述兩變量關係。(殘 差最小平方法)。 : 若用最小平方法, 使上述直線與實際資料的誤差值平方和為最小 時, 則此直線為 ybi = a + bxi 稱為 xi, yi 的迴歸線。 必過資料中心點 (X, Y )。 稱 ybi 為第 i 筆資料的擬合值; ei = yi −ybi = yi − a − bxi 為第 i 筆資料的殘差。

迴歸直線斜率 b 的意義: 若變量 X 每增減1單位, 則變量 Y 平均增減 b 單位。

迴歸線的截距 a : 一般無特殊涵義 (只是配合一次函數關係式)

4-2: MinTab 軟體所呈現之體重 () 與身高 () 的散佈圖與迴歸直線

迴歸線 ( y = a + bxb i 為變量 Y 對 X 最適合的直線):

y = a + bxb i 採取平方誤差最小 ⇒ Pe2i = P(yi−by)2 = P(yi− a − bxi)2 為 最小值時, 分別對 a 及 b 取微分等於0, 可得







 Pn i=1

yi = Pn

i=1

a + bPn

i=1

xi

Pn i=1

xiyi = aPn

i=1

xi + bPn

i=1

x2i



a = y− bx b = Sxy

Sxx = rp·pSyy

Sxx

= r · Sy

Sx

b

yi = y + Sxy

Sxx(xi− x)

= y + r· Sy

Sx(xi− x)

變量 X 的離差平方和: Sxx = P(xi− x)(xi − x) = P(xi − x)2 = n· Sx2

變量 Y 的離差平方和: Syy = P(yi− y)(yi− y) = P(yi − y)2 = n· Sy2

變量 X、Y 的離差乘積和: Sxy = P(xi − x)(yi − y) = Pxiyi − nxy 變量 X 的標準差: Sx =

rX(xi − x)2

n =

qSxx n 變量 Y 的標準差: Sy =

rX(yi− y)2

n =

qSyy n

順伯的窩

資料標準化 (x, y) 的迴歸線方程式為 yb = rx 其中 r 為其相關係數。 (此時圖 中的迴歸線過資料中心點 (X, Y ) 即原點)

R2 = r2 值: 迴歸線中的 R2 = Sxy

Sxx · Sxy

Syy 表兩變數 (xi, yi) 可用迴歸線方程式來闡 釋兩資料關係的比率。

迴歸分析的三大功能:

1. 描述資料用: 利用迴歸線模式解釋資料關係。(由 R2 決定兩變量用此模式可 闡釋的比率)

2. 預測資料: 利用迴歸線預測變數 y 3. 控制用: y 若受限制時, 控制 x 變量

精選範例 例題1 某公司近五年的投資金額如表:

精選範例 例題1 某公司近五年的投資金額如表:

在文檔中 99mathall (頁 77-92)