2.4.1 單變量數據分析
單變量數據分析 : 對某一種變數(變量) 感興趣, 所做的數據資料分析。(一維數據分析) 雙變量數據分析 : 對某兩個變數(變量) 間的關係感興趣, 所做的數據資料關係分析。(二
維數據分析)
多變量數據分析 : 對多個變數(變量) 間的關係感興趣, 所做的數據資料關係分析。 (多 維數據分析)
統計圖表: 對變量所蒐集到的資料用圖表簡化成有用的資訊, 使之比數據或文字提供有 效資訊, 稱為統計圖表。
離散型數據: 統計數據資料分成連續型與離散型數據 。 變量數據無介於兩類別數據資 料之間的類型資料稱為離散型數據。
如性別、 血型、 顏色、 職業等分類的計數數據。 又分次序數據 (以1、2、3、4代表強、
中、 弱、 微) 及名目數據 (無大小次序之分的數據, 如色彩中的紅色、 藍色、 綠色、
白色等)
連續型數據: 變量數據可以有連接性、 有次序數值關係的資料, 稱為連續型數據。
如身高、 體重、 測驗成績等計量的數據。
常用的統計圖表
順伯的窩
https://sites.google.com/site/hysh4math 2.4 數據分析 ·
1. 圓面積圖 (圓餅圖):
type A 24%
type B type C 12%
15%
type D 33%
other 16%
2. 長條圖:
1930 1940 1950 1960 1970 3
4 5 6 7
·107
Population
Far Near
3. 折線圖: 次數分配折線圖或相對累積次數分配折線圖 0 20 40 60 80
0 200 400 600 800 1,000
Discarding unbounded coords
4. 直方圖:
成績
0-59 60-69 70-79 80-89 90-100
百 分 比 %
10 20 30 40 50 60
5. 盒鬚圖:
順伯的窩
Me
Q1 Q3
¯ x
IQR
Box and Whisker Plot
集中趨勢量數: 用一數值來表示這一群數集中趨勢。
一般常見的集中趨勢量數有算術平均數、 中位數、 眾數、 幾何平均數等。
算術平均數(Mean) µ : (簡單, 易算, 靈敏)(易受極端值影響) µ = 1n(x1 + x2 +· · · + xn) = 1n
Pn i=1
xi
中位數(Median) Me: (感應不靈敏)
至少有一半的數值大於或等於中位數, 而且至少有一半的數值小於或等於中位數。
將資料由小至大排列如: x(1) ≤ x(2) ≤ x(3) ≤ · · · ≤ x(n)
若 n = 2k + 1 為奇數筆數據, 則中位數 Me = x(k+1) , 即中間項的數據。
若 n = 2k 為偶數筆數據, 則中位數 Me = 12(x(k) + x(k+1))。
加權平均數: 將各數據分別乘以權數, 再將乘積的總和除以權數總和, 所得之商。
眾數(Mode) Mo : 一群數值中出現次數最多的數值。(次數分配無顯著集中時沒有代表 性)
幾何平均數: √n
x1x2· · · xn
分組資料的集中趨勢量的計算方式:
量數 未分組 分組
普通法 簡捷法
平均數X n1 Pn
i=1
Xi 1
n Pk j=1
xjfj X = A + h· 1n Pk j=1
djfj 其中dj = xi−Ah
中位數 Me n 為奇數Me = x(k+1) *** Lme+
n
2 − F−1
fme· hme
n為偶數Me = 12(x(k)+ x(k+1))
眾數Mo 出現次數最多的數值 ***插值, 比率法
順伯的窩
https://sites.google.com/site/hysh4math 2.4 數據分析 · 資料與平( 均數, 中位數, 眾數三者關係:
平均數 : 機率分配圖的重心位置(槓桿的支撐點)。
中位數 : 將機率分配圖左右等分面積。
眾數 : 機率分配圖的最高點位置。
對稱的單峰分配 (資料直方圖以中間為高峰且左右對稱) : X = Me = Mo
左偏分配 (資料直方圖左端值次數分配拖的較長): X < Me < Mo
右偏分配 (資料直方圖右端值次數分配拖的較長): Mo < Me < X
²³¤¤¥
¼Æ¦ì§¡
¼Æ¼Æ
¥¤¤²³
§¡¦ì¼Æ
¼Æ¼Æ
¥k°¾ ¥ª°¾
圖 4-1: 偏斜分布的平均數、 中位數與眾數三者間的關係
離散趨勢的統計量: 全距、 四分位差、 標準差等。
離差: 一群數值, 除了考慮集中趨勢外, 另一重點是分散的程度, 就是離差。
一般常用測量離散程度的量數有全距、 四分位差、 變異數與標準差等。
全距R: 將資料 xi 排序
x(1) ≤ x(2) ≤ x(3) ≤ · · · ≤ x(n), 全距R = X(n)− X(1)
四分位差: Q.D. = Q3 − Q1 有些書定義 Q.D. = Q3 − Q1
第三四分位數 Q3− 第一分位差 Q1 2
例: 未分組 (有多種算法) n=11 , 則 Me = Q2 = Xn+1
2 = X6, Q1 = 5+12 = X3, Q3 = X6+3 = X9
已分組: 原則上可按照比例求 Q3 = X75% = X3n
4 , Q1 = X25% = Xn4 離均差 : xi− x , 所以 P(xi− x) = 0
變異數 : 離均差平方和的平均
1. 母群體: 母群體的算術平均數為 µ , 則變異數為 σ2 = 1N PN i=1
(xi − µ)2 σ = 1N (
PN i=1
x2i)− µ2
2. 樣本: 若樣本資料的算術平均數為 x , 則變異數為 S2 = 1 n− 1
Pn i=1
(xi − x)2 未分組: S2 = 1
n− 1[Pn
i=1
x2i − nX2]
順伯的窩
已分組: S2 = n
https://sites.google.com/site/hysh4math 2.4 數據分析 · 表 4-1: 各種差異量數的比較
量數 (統計量) 優點 缺點 特殊使用場合
標準差S 定義明確, 感應靈敏,適 合運算, 受抽樣方法變 動影響小
不易計算, 易受極端值 影響
大都會用到(資料 差異的衡量大小) 四分位差 Q.D. 定義明確, 簡單易懂,計
算容易, 不受極端值影 響
不適合運算, 感應不靈 敏, 較易受抽樣方法變 動影響
順序資料
全距 R 簡單易懂, 計算容易 不適合運算, 感應不靈 敏, 較易受抽樣方法變 動影響小
常 用 於 品 質 管 制 時
*變異係數 C.V. = s
x 比較不同群組時,
或 在 同 態 下 但 其 平 均 數 相 差 太 大 時
標準化Z 分數 zi = xiσ− µ |Z| 分數愈大表該筆資 料愈遠離中心
必需知道變數的算術平 均數及標準差才能計算 Z分數
可 用 在 不 同變 數 間 的 資 料 排 序 比 較情形
精選範例
例題1 5位學生的數學成績如右:79, 67, 61, 70, 73 求平均數 µ , 離差平方和 Sxx, 變異數 σ2, 標準差 σ ? [Ans:µ = 70, Sxx = 180, σ2 = 36, σ = 6]
例題2 男生隊伍 8 隊員年齡為 14, 14, 16, 16, 16, 17, 17, 18 。 女生隊伍 10 隊員的年齡為 3, 3, 4, 5, 5, 6, 6, 6, 60, 62 分別求男生隊員與女生隊員年齡的四分位距? [Ans:IQR1 = 17− 15 = 2, IQR2 = 6− 4 = 2]
例題3 小溥的期中考數學成績為91分, 而全班的平均分數為75分, 標準差為8分。 而小溥 期末考數學成績為88分, 班上的平均分數為73分, 標準差為5分。 求小溥兩次考試 數學成績標準化的 z 分數? 就全班成績來觀察, 小溥數學成績到底是進步還是退 步呢? [Ans:z1 = 2, z2 = 3 ; 成績進步]
例題4 某籃球隊有10名隊員, 其身高分別為 182,185,186,186,183,175,196,188,186,183 公分, 求此球隊隊員身高的平均數與標準差? [Ans: 平均數 µ = 185 公分, 標準 差為σ = 5 公分]
例題5 某班50名學生的期中考數學成績, 中位數74分, 算術平均數75.2分。 後來發現某 生成績應為 86 分誤登記為76 分, 試問班級的中位數, 算術平均數, 標準差應否更 正? 若該更正, 則變大還是變小? Ans: 中位數不變, µ = 75.4 變大, σ 增大。
例題6 某測驗, 甲、 乙兩班數學成績如下表所示, 求甲、 乙兩班的算術平均數及標準差?
[Ans: (1)X甲 = 67, S甲 = 13; X乙 = 68.5, S乙 = 14.2]
例題7 某公司調查其名下各分公司員工的薪水, 得算術平均數為30000元, 標準差為4000 元。 為激勵員工, 公司提出兩個調薪方案: 甲方案: 每人加薪5000元。 乙方案: 每人
順伯的窩
班級 (次數) 40∼ 50 50 ∼ 60 60 ∼ 70 70 ∼ 80 80 ∼ 90 90 ∼ 100 合計
甲班 2 5 4 6 2 1 20
乙班 1 6 5 3 3 2 20
加薪 5%。 求兩方案員工薪水的算術平均數與標準差? [Ans: 甲: 35000; 4000 乙:
31500; 4200]
例題8 假設有一群十筆資料,11,15,13,15,9,8,4,5,5,15; 如果將最後一筆數據由15改為14, 則下列 7 個統計量, 那幾個對應的統計量會因此有所變動 (說明變大或變小或其 值)? (a) 平均數 (b) 眾數 (c) 中位數 (d) 全距 (e) 變異數 (f) 標準差 [Ans:
(a) 變小 (b) 增加一個 (c) 不變 (d) 不變 (e) 變小 (f) 變小]
習題4-1 單變量數據分析
1. 十位同學的身高 (cm) 如下:155,156,158,158,160,160,161,163,163,166 選出正 確選項? (1) 全距為11 (2) 中位數為160 (3) 四分位距為 5 (4) 平均數是160 (5) 標準差小於4
2. 下列有關 z 分數的敘述, 何者正確?(1) z 分數表示某數與平均數的距離是標準差 的幾倍 (2)z 分數一定是正數 (3) z 分數常被用來比較不同單位之量數間的大小 (4) 將整組數據 z 分數化後的新數據, 其平均數為0 (5) 將整組數據 z 分數化後 的新數據, 其標準差為1
3. 某次段考全班的平均為50分, 標準差為8分, 老師將每各同學的成績除以2再加50 分, 求調整後的算術平均數和標準差?
4. 某工廠連續10天的零件不良數如下:8,7,7,6,8,8,9,8,6,6, 試算出這些零件不良數的 平均數、 中位數及眾數?
5. 求資料 X:1,2,3,4,5等五筆數值的標準差?
求資料 Y:101,102,103,104,105等五筆數值的標準差?
6. 若對班上數學成績作如下改變:(1) 每個同學成績均加10分 (2) 每個同學成績均增 加其原有的 10% , 則此二措施分別對原成績的平均數和標準差各有何影響?
7. 假設有一群十筆資料,11,15,13,15,9,8,4,5,5,15; 如果將最後一筆數據由15改為14, 則下列 7 個統計量, 那幾個對應的統計量會因此有所變動 (說明變大或變小或其 值)? (a) 平均數 (b) 眾數 (c) 中位數 (d) 全距 (e) 變異數 (f) 標準差
8. 甲、 乙、 丙三位同學參加大學學科能力測驗, 五科的原始成績如下表所示, 設 S甲, S乙, S丙
, 分別代表甲、 乙、 丙三位同學五科成績的標準差, 請仔細觀察表中數據, 再判斷 其 S甲, S乙, S丙 的大小關係?
科目 社會 國文 自然 英文 數學 甲 100 70 80 60 50 乙 90 60 70 50 40 丙 80 56 64 48 40
順伯的窩
https://sites.google.com/site/hysh4math 2.4 數據分析 · 學生 A B C D E F G H I J
身高 (公分) 171 164 164 165 171 167 169 162 166 171 體重 (公斤) 66 65 62 66 66 63 55 68 63 76
9. 下表為10名學生的身高體重:
(a) 求身高體重的算術平均數與標準差?
(b) 計算 A 生身高及體重的 z 分數?
(c) 就整體而言 A 生的身高和體重何者較突出?
10. 下表為20名成年男子每分鐘脈搏跳動的次數分配表: 求脈搏跳動的算術平均數及
組別 40∼ 50 50 ∼ 60 60 ∼ 70 70 ∼ 80 80 ∼ 90
人數 1 8 8 2 1
標準差?
2.4.2 雙變量數據分析
二維數據分析: 討論兩個變數之間是否有關聯, 稱為二為數據分析。 通常先觀察其散佈 圖。
散佈圖: X,Y 兩變量, 將兩數據看成序對 (xi, yi) , 在坐標系上繪出點 (x1, y1),· · · , (xn, yn) 所得的圖, 以利觀察其相關情形。 歐姆定律描述了電壓和電流在導體的關係, 某一 段電線電流與電壓的關係如下:
電流 電壓 電流 電壓 電流 電壓
0 0.4 0.2 0.3 0.4 0.6
0.6 0.6 0.8 0.4 1 1
1.2 0.9 1.4 0.7 1.6 1
1.8 1.1 2 1.3 2.2 1.1
2.4 1.4 2.6 1.6 2.8 1.9
3 1.9 3.2 2 3.4 1.9
3.6 2.1 3.8 2.1 4 2.4
4.2 2.4 4.4 2.5 4.6 2.5
相關係數: 未標準化兩變量 X,Y 之間的相關程度 (高中只討論線性相關)
相關係數就是用標準化新資料計算出的, 可減少不同測量單位的數據對散佈圖的 影響, 使資料分布情形更易觀察其相關程度。
資料標準化 (x′, y′) 的相關係數: r = Xn
i=1
x′iyi′
n 與未標準化資料相關係數相等。
順伯的窩
1 2 3 4 5 0
1 2 3
電流
電壓
1 2 3 4 5
0 1 2 3
Yˆ
電流
電壓
圖 4-2: 電流、 電壓關係的散佈圖與迴歸直線
r = Xn
i=1
x′iyi′
n =
Xn i=1
(xi− X)(yi− Y ) n· SX · SY =
Xn i=1
xiyi − nX · Y
r Xx2i − nX2 Xy2i − nY2
=
Xn i=1
(xi − X)(yi − Y )
qX(xi− X)2qX(yi − Y )2 = p Sxy
Sxx ·pSyy
其中 Sxx = P(xi− x)2, Sxy = P(xi− x)(yi− y); Sx, Sy, 分別為x,y 的標準差 Sxx = n· Sx2, Syy = n· Sy2
1. r = 1 完全正相關
2. 0.7 ≤ |r| ≤ 1 表高度相關 3. 0.3 ≤ |r| ≤ 0.7表中度相關 4. 0 < |r| < 0.3 表低度相關 5. r = 0 表零相關
6. r =−1 表完全負相關 相關係數的意義與性質:
1. 當兩變數的線性相關程度很高時, 兩變數之間未必可解釋存在 「因果關係 」。
相關係數只顯現兩變數之間關連性的強弱程度。
2. 若兩變量 X,Y 的相關係數為 r, X′ = aX + b, Y′ = cY + d , 則 X′, Y′ 的 相關係數 r′ 為
(a) ac > 0, r′ = r (b) ac < 0, r′ = −r
3. 相關係數與單位無關。 變量 X, Y 線性平移後的相關係數與原相關係數一樣 (頂多改變正負相關)。
4. X 和 Y 相關係數與 Y 和 X 的相關係數不變。
5. 相關係數與平均數及標準差一樣, 即易受少數極端數據 (離群數據) 影響。
順伯的窩
https://sites.google.com/site/hysh4math 2.4 數據分析 · 迴歸直線:(最適合直線)
兩變數之散佈圖上呈現類似直線關係, 可用一適當直線方程式來描述兩變量關係。(殘 差最小平方法)。 : 若用最小平方法, 使上述直線與實際資料的誤差值平方和為最小 時, 則此直線為 ybi = a + bxi 稱為 xi, yi 的迴歸線。 必過資料中心點 (X, Y )。 稱 ybi 為第 i 筆資料的擬合值; ei = yi −ybi = yi − a − bxi 為第 i 筆資料的殘差。
迴歸直線斜率 b 的意義: 若變量 X 每增減1單位, 則變量 Y 平均增減 b 單位。
迴歸線的截距 a : 一般無特殊涵義 (只是配合一次函數關係式)
圖 4-2: MinTab 軟體所呈現之體重 (磅) 與身高 (吋) 的散佈圖與迴歸直線
迴歸線 ( y = a + bxb i 為變量 Y 對 X 最適合的直線):
y = a + bxb i 採取平方誤差最小 ⇒ Pe2i = P(yi−by)2 = P(yi− a − bxi)2 為 最小值時, 分別對 a 及 b 取微分等於0, 可得
Pn i=1
yi = Pn
i=1
a + bPn
i=1
xi
Pn i=1
xiyi = aPn
i=1
xi + bPn
i=1
x2i ⇒
a = y− bx b = Sxy
Sxx = rp·pSyy
Sxx
= r · Sy
Sx
b
yi = y + Sxy
Sxx(xi− x)
= y + r· Sy
Sx(xi− x)
變量 X 的離差平方和: Sxx = P(xi− x)(xi − x) = P(xi − x)2 = n· Sx2
變量 Y 的離差平方和: Syy = P(yi− y)(yi− y) = P(yi − y)2 = n· Sy2
變量 X、Y 的離差乘積和: Sxy = P(xi − x)(yi − y) = Pxiyi − nxy 變量 X 的標準差: Sx =
rX(xi − x)2
n =
qSxx n 變量 Y 的標準差: Sy =
rX(yi− y)2
n =
qSyy n
順伯的窩
資料標準化 (x′, y′) 的迴歸線方程式為 yb′ = rx′ 其中 r 為其相關係數。 (此時圖 中的迴歸線過資料中心點 (X, Y ) 即原點)
R2 = r2 值: 迴歸線中的 R2 = Sxy
Sxx · Sxy
Syy 表兩變數 (xi, yi) 可用迴歸線方程式來闡 釋兩資料關係的比率。
迴歸分析的三大功能:
1. 描述資料用: 利用迴歸線模式解釋資料關係。(由 R2 決定兩變量用此模式可 闡釋的比率)
2. 預測資料: 利用迴歸線預測變數 y 3. 控制用: y 若受限制時, 控制 x 變量
精選範例 例題1 某公司近五年的投資金額如表:
精選範例 例題1 某公司近五年的投資金額如表: