二維數據分析: 討論兩個變數之間是否有關聯, 稱為二為數據分析。 通常先觀察其散佈 圖。
散佈圖: X,Y 兩變量, 將兩數據看成序對 (xi, yi) , 在坐標系上繪出點 (x1, y1),· · · , (xn, yn) 所得的圖, 以利觀察其相關情形。 歐姆定律描述了電壓和電流在導體的關係, 某一 段電線電流與電壓的關係如下:
電流 電壓 電流 電壓 電流 電壓 0 0.4 0.2 0.3 0.4 0.6
0.6 0.6 0.8 0.4 1 1
1.2 0.9 1.4 0.7 1.6 1 1.8 1.1 2 1.3 2.2 1.1 2.4 1.4 2.6 1.6 2.8 1.9
3 1.9 3.2 2 3.4 1.9
3.6 2.1 3.8 2.1 4 2.4 4.2 2.4 4.4 2.5 4.6 2.5
相關係數: 未標準化兩變量 X,Y 之間的相關程度 (高中只討論線性相關)
相關係數就是用標準化新資料計算出的, 可減少不同測量單位的數據對散佈圖的 影響, 使資料分布情形更易觀察其相關程度。
資料標準化 (x′, y′) 的相關係數: r = Xn
i=1
x′iyi′
n 與未標準化資料相關係數相等。
1 2 3 4 5
迴歸直線:(最適合直線)
資料標準化 (x′, y′) 的迴歸線方程式為 yb′ = rx′ 其中 r 為其相關係數。 (此時圖 中的迴歸線過資料中心點 (X, Y ) 即原點)
R2 = r2 值: 迴歸線中的 R2 = Sxy
Sxx · Sxy
Syy 表兩變數 (xi, yi) 可用迴歸線方程式來闡 釋兩資料關係的比率。
迴歸分析的三大功能:
1. 描述資料用: 利用迴歸線模式解釋資料關係。(由 R2 決定兩變量用此模式可 闡釋的比率)
2. 預測資料: 利用迴歸線預測變數 y 3. 控制用: y 若受限制時, 控制 x 變量
精選範例 例題1 某公司近五年的投資金額如表:
年度 x 1 2 3 4 5
投資金額 y 1 1 3 4 6 (
單位:億元)
請繪 x, y 的散佈圖, 並求出迴歸直線方程式? 利用此迴歸線來預測此公司第7年度
的投資金額大約為多少元?
1 2 3 4 5 6 01
23 45 67
Yˆ
年度
投 資 金 額 ( 億 元 )
[Ans: ˆy = −0.9+1.3x; x = 7, ˆy = 8.2]
例題2 某飲料公司想瞭解廣告費用 X(百萬元) 與飲料銷售金額 Y(億元) 之間的關係:
於是進行調查, 連續10 個月的每月廣告金額與銷售金額資料整理如下: P10
i=1
xi = 28,P10
i=1
x2i = 303.4,P10
i=1
yi = 75,P10
i=1
y2i = 598.5,P10
i=1
xiyi = 237 求迴歸方程 式? 若廣告費用每增加1 百萬元預算則銷售金額可期待增加多少元? [Ans: ˆy = 7.164 + 0.12x;0.12 億元]
例題3 某班上10位學生的基測數學成績與高一數學成績如表:
(a) 將10位學生的基測數學成績與高一數學成績標準化:
順伯的窩
表 4-2: 基測數學成績與高一數學成績
成績 \ 編號 1 2 3 4 5 6 7 8 9 10 平均數 標準差
基測 x 52 40 40 48 40 42 42 46 46 44 44 4
高一數學 y 82 58 60 80 76 64 68 72 68 72 70 8
表4-2: 標準化基測數學成績與高一數學成績
成績 \ 編號 1 2 3 4 5 6 7 8 9 10 平均數 標準差 基測 x’ 2 -1 -1 1 -1 -0.5 -0.5 0.5 0.5 0 0 1 高一數學 y’ 1.5 -1.5 -1.25 1.25 0.75 -0.75 -0.25 0.25 -0.25 0.25 0 1
(b) 承上題, 計算前述10位同學基測數學成績與高一數學成績的相關係數?
[Ans:r = 0.75]
(c) 計算前述10位同學高一數學成績 y 對基測數學成績 x 的最佳直線?
[Ans:y = 4 + 1.5x]
(d) 若此班上某生基測數學成績為50分, 試預測此同學高一數學成績為多少?
[Ans:79分]
例題4 計算未標準化的兩抽樣數據 (x, y) 的相關係數? [Ans:r = 29/40 = 0.725]
X 3 4 7 11 15 Y 5 40 15 35 55
xi− x yi− y (xi− x)2 (yi− y)2 (xi − x)(yi− y)
總和
習題4-2 雙變量數據分析
1. 某群學生練習準備課業時間與考試成績關係如表: 請做出這群學生練習時間與名 次的散佈圖? 依你的觀察請簡單描述練習時間與名次的趨勢關係?
2. 5名考生的數學級分 X 與自然級分 Y 如表: 求甲乙丙丁四名考生之 Y 對 X 的 迴歸直線方程式? 若戊考生未發生意外, 依照前4位考生迴歸線預測, 其自然科成
時間 154 390 130 70 240 280 175 103 成績排名 5 1 6 8 3 2 4 7
考生 甲 乙 丙 丁 戊 數學級分 x 13 11 9 7 15 自然級分 y 14 12 8 10 6
績應為多少級分?
3 6 9 12 15 3
6 9 12 15
數學級分
自 然 級 分
3. 二維數據24筆資料 (xi, yi) 其中 P24
i=1
xi = 1080,P24
i=1
yi = 960,P24
i=1
x2i = 57600,P24
i=1
yi2 = 48000,P24
i=1
xiyi = 50400 求相關係數 r ?
4. 某大學校系以往申請入學分口試與筆試兩項測驗, 因口試相當耗時, 若根據過去錄 取者資料其筆試與口試平均成績相關係數 r > 0.8 則今年研議取消口試, 過去 5年錄取者的平均成績如表: 試繪錄取者筆試平均成績與口試平均成績的散佈圖?
年度 甲 乙 丙 丁 戊 筆試平均 x 5 5 4 7 9 口試平均 y 3 1 4 3 9
今年口試有取消嗎? 求近5年錄取者 Y 對 X 的相關係數及其迴歸直線方程式?
已知今年某考生筆試成績為8分, 若依照過去迴歸線經驗此生口試成績應至少要達 多少分時此生可望錄取此校系?
5. 某城市近年的人口數統計如下表: 標準化後求迴歸直線方程式並預測這城市2012 年的人口數?
6. 有兩組成對資料, 已知其相關係數為 r = 0.8 , 其中一筆 X 之算術平均數 X = 20 , 標準差 Sx = 1; 另一筆算術平均數 Y = 10, 標準差 Sy = 2 ; 試求 (1) y 對 x 的迴歸直線方程式 Ly? (2) x 對 y 的迴歸直線方程式 Lx? (3) 兩迴歸直線 Ly, Lx 的斜率乘積?
7. 已知甲、 乙、 丙、 丁四名考生的數學成績 X 與 英文 Y 級分及戊的數學成績如下:
求甲乙丙丁四名考生 Y 對 X 的迴歸直線方程式? 並依此迴歸線預測考生戊的英 文成績應為多少級分?
順伯的窩
年度 x 2002 2004 2006 2008 2010 人口 (百萬) y 2 6 8 10 14
平移 x 0 2 4 6 8
y 2 6 8 10 14
x 標準化x’ −√2 −√2
2 0 √22 √
2 y 標準化y’ −1.5 −0.5 0 0.5 1.5
考生 甲 乙 丙 丁 戊 數學級分 13 11 9 7 15 英文級分 14 12 8 10 *
8. 一群資料 (xi, yi) , 若將資料 (Xi, Yi) = (log xi, log yi) 的迴歸線繪製如下: 且 知算術平均數 X = 4, Y = 7 ,L 為資料 (Xi, Yi) 的迴歸線, 則下列敘述何者為 真? (A) 資料 xi 的算術平均數至少為 104 (B) 資料 (xi, yi) 的關係曲線可能為
b
yi = 10· x2i (C) 資料 xi 的算術平均數 x , 則 log x = 4 (D) 資料 yi 的算術平 均數 y , 則 log y = 7 (E) 資料 yi 的算術平均數 y , 則 y > 107
9. 已知母群體100筆 (xi, yi) 資料的標準差 sx = 0.1, sy = 0.2 , 相關係數為0.9及 迴歸線 L 如下: 則下列有關迴歸線方程式何者為真? (A) L : y = 1.8x + 1 (B) L : y = 59x + 1 (C) L : y = 2x + 1 (D) L : y = 12x + 1 (E) L : y = 0.45x + 1 10. 有4筆資料 A(1, 2), B(2, 1), C(2, 4), D(3, 3) 求 Y 對 X 的最適合直線方程式?
11. 設一組資料的平均 X = 10, 標準差 Sx = 4 , 且資料 X 和 Y 資料的相關係數 rxy = 0.69 , 求 (1)3X + 5 =?(2)S3x+5(3)r3x+5,5y+3 =?
12. 研究6位學生的性向測驗與成就測驗的關係, 已知6位學生兩種測驗的得分如下表:
(1) 求 x,y 的相關係數 (小數點第二位, 以下四捨五入) ?(2) 求 y 對 x 的最適合 直線 ? (3) 推測 X = 12 時,y 之值為何?
13. 調查10名學生的某次英文與數學考試成績如下表: 試求 Y 對 X 的最小偏差直線 方程式?
14. 一研究人員想了解風力發電, 風速 x (MPH) 與電力 y (AMP) 之間的關係, 其模 型設為 yi = a + bxi , 由25個資料 (xi, yi) i = 1 、2、3 · · · 、25 利用最小平方法 計算得迴歸方程式為 y = 0.13 + 0.25x 試回答下列問題:b
學生代號 A B C D E F 總計 性向 X 5 6 8 9 9 11 48
成就 Y 5 8 8 12 13 14 60
英文 (Y) 84 82 81 78 85 87 87 88 88 89 數學 (X) 68 67 66 69 68 70 71 72 74 75
(a) 當風速增加1MPH 時, 電力估計平均變動多少?
(b) 在25個資料中, 改為 (xi+ 10, yi+ 20) i = 1 、2、3 · · · 、25 則直線迴歸方程 中 x 的係數0.25變為多少?
(c) 若已知 P25
i=1
xi = 150 則 P25
i=1
yi =?
(d) 若 Sxx = 146.88, Syy = 10.2 則 X 與 Y 之相關係數為何?
15. 研究人員收集20 筆資料 (xi, yi) 其中 P20
i=1
xi = 1330,P20
i=1
yi = 1862.8,P20
i=1
x2i = 90662,P20
i=1
yi2 = 173554.26,P20
i=1
xiyi = 124206.9 (a) 試以最小平方法求迴歸線 y = a + bx ? (b) 求 X 與 Y 之相關係數?