2-4-1數據分析-一維數據分析

全文

(1)(99 課綱) 第二冊第四章數據分析 4-1 一維數據分析【目標】首先能了解算術平均數﹑幾何平均數等兩種數據代表值的意義及求法；再者，能以算術平均數為中心，求出測定數據離散程度的標準差，並理解算術平均數與標準差的關係及性質；進而能推算或利用計算機進行數據的標準化，以便應用。【說明】日常生活中的許多複雜的訊息，適當地用數值表示，再經過適當的整理分析，以了解數值中隱含的意義，可提供我們解決問題或決策的參考，這就是數據分析的意義。統計量有很多種，適用於各種不同類型的資料，並不是一種統計量就可以解釋所有的各種資料，而要針對不同的資料選取不同的統計量來用。檢討過去可以展望未來。大自國家，小至個人，都不斷將既有的現況資料經過整理，進而分析，得到一些特徵或趨勢，作為未來發展的依據。而對現況精確的描述必須要有數據。本章將說明如何從不易解讀的原始數據，整理出有用的資訊，讓數字說話。平均數是一筆數據的集中趨勢，也可以說平均數是表示一個資料分布的中心，它可以作為整筆數據的代表值。在統計課程中，常用的平均數有四種：算術平均數﹑ 中位數﹑幾何平均數﹑眾數，它們各有適用的時機及其意義。在本節的課題中，我們討論的平均數以算術平均數為主，再者，討論一些幾何平均數的問題與其應用，其餘的平均數就不再處理。 1 n. 算術平均數是一筆 n 個數據之總和除以 n 所得的數值，也就是每個數據乘以之和，所以算術平均數具有數學期望值的意涵。當數據很多時(即 n 很大時)，我們可用分組的方式推算算術平均數，但現代科技發展，我們可利用電算器或電腦處理，所以不再討論分組方式的算術平均數。【定義】 1. 算術平均數(平均數)：一筆數據 X  x1 , x2 ,, xn (即數據 X 中有 n 個數 x1 , x2 , , xn )，總和為 n 1  xk ，再除以 n (即乘以 )，就是平均數，此平均數稱為算術平均數，常以  n k 1 n 1 1 表示，即    xk  ( x1  x2   xn ) 。有時為了註明是數據 X 的算術平均 n k 1 n. 數，也記為  X 。. 1.

(2) 【性質】 1. 算術平均數的可平移性：設數據 X  x1 , x2 ,, xn ，若 c 是常數，而數據 Y  X  c ，即 Y  y1 , y2 , , yn ，其中 yk  xk  c, k  1, 2, 則 Y . 2.. n. n. n. 當原數據一律加(或減)一常數 c 時，新數據的算術平均數就會是原算術平均數加(或減)常數 c ，一性質稱為算術平均數的可平移性。算術平均數的可伸縮性：設數據 X  x1 , x2 ,, xn ，若 c 是常數，而數據 Y  cX ，即 Y  y1 , y2 , , yn ，其中 yk  cxk , k  1, 2, , n ，則 Y . 3.. 1 n 1 n 1 n  yk   cxk  c(  xk )  c X 。 n k 1 n k 1 n k 1. 當原數據一律乘一常數 c 時，新數據的算術平均數就會是原算術平均數乘常數 c ，此一性質稱為算術平均數的可伸縮性。註：由算術平均數的可伸縮性及可平移性知：當 a, b 為常數時，若 Y  aX  b ，則 Y  a X  b 。求證： (1)任意兩個正實數的算術平均數大於或等於幾何平均數。 (2)正實數 a 與 b 的算術平均數. ab 等於幾何平均數 ab 2. 1 2. 的充要條件為 ( a  b )2  0 ，亦即 a  b 。註：一般而言，任意 n 個正實數 x1 , x2 ,, xn ， 1 恆有 ( x1  x2  n.  xn )  ( x1 x2. xn. 1 )n.  n x1 x2. xn ，. 即算術平均數大於或等於幾何平均數， 1 n. 且 ( x1  x2 .  xn )  n x1 x2. xn 的充要條件為 x1  x2 .  xn 。. 證明：設 a, b 為正實數，則算術平均數為. ab ，幾何平均數為 ab 。 2. ab 1 1  ab  (a  b  2 ab )  ( a  b )2  0 。 2 2 2 ab  ab ，即算術平均數大於或等於幾何平均數。故 2 n. 4.. , n，. 1 1 1 1  yk   ( xk  c)  (  xk  nc)   xk  c   X  c 。 n k 1 n k 1 n k 1 n k 1 n.  (x i 1. i.  X )  0。. 【問題】 1.. 至少一半或一半以上資料  X ？至少一半或一半以上資料  X ？. 2.. 至少一半資料  X ？至少一筆資料  X ？. 2.

(3) 【定義】 1. 幾何平均數：設 x1 , x2 ,, xn 是 n 個正實數，則 G.M .  n x1  x2    xn 稱為 x1 , x2 ,, xn 的幾何平均數。註： (1) 幾何平均數通常用於一筆數據中的數值大約按照一定的比例變化時適用之。例如：求物價指數﹑人口增加率或貨幣的年增率，常用幾何平均數求其平均值。 (2) 當 x1 , x2 ,, xn 為 n 個正數時，其算術平均數恆大於或等於幾何平均數，因此，一筆正數的數據如果較適合用幾何平均數作代表值，而我們錯用了算術平均數作代表值，這時，我們就高估了這筆數據。【定義】 1. 平均成長率：設 n 年的成長率分別為 r1 , r2 ,, rn 且 (1  r1 ), (1  r2 ),, (1  rn )  0 ，則平均成長率為 n (1  r1 )(1  r2 )(1  rn )  1。例如：設本金為 P ，連續兩年之成長率分別為  50%,50% ，則本金變化分別為 P, P(1  0.5), P(1  0.5)(1  0.5) ，也就是為 P,1.5P,0.75P ， (50%)  (50%) 現若以算術平均數  0% 來解釋其平均成長率為 0% ， 2 則不恰當，若以 P(1  0.5)(1  0.5)  P(1  r )(1  r ) ，求出 r  1.5  0.5  1  0.866  1  0.134 來當成平均成長率解釋較為恰當，此時滿足 P(1  0.134)(1  0.134)  0.75P 。. 3.

(4) 【定義】 1. 變異數：偏差量的總和永遠是 0 。為了避免正的偏差量與負的偏差量相互抵消，可以考慮偏差量的絕對值或偏差量的平方，其總和分別如下： n. n. k 1. k 1. 2  | xk   | ，  ( xk   ) 。. 絕對值在數學上比較不好處理。在此，我們選擇偏差量的平方。當數據 X  x1 , x2 ,. 2.. , xn 時，令 V ( X ) . 1 n 2  ( xk   ) (注意： V ( X )  0 )，稱為 X 的變 n k 1. 異數，其中偏差平方的總和再除以 n，表示偏差平方的平均值。標準差：我們真正關切的是各數值與平均數  之間的偏差，而非偏差平方，故再取 V ( X ) 的正平方根，為 X 的標準差，以  表示，即   V ( X ) . 1 n 2  ( xk   ) n k 1. （  2  V ( X ) 且   0 ）。有時為了註明是數據 X 的標準差，也記為  X 。【說明】 1. 離散量數： (1) 一筆數據的算術平均數代表著這筆數據的集中趨勢，但無法呈現數據是否集中在中心周圍的離散程度，因此，要了解全體呈現更多的訊息，就需理解數據間的離散情況，這就是離差的意義。 (2) 統計學中常用的離散量有三種：平均偏差﹑變異數與標準差。 n 個數據 x1 , x2 ,. , xn 與平均數  X 的差 xi   X 稱為偏差，但. 現離散程度，故我們取. 2.. 1 n  ( xi   X )  0 無法顯 n i 1. 1 n | xi   X | 為平均偏差作為度量離散程度的依 n i 1. 據。本章中只考慮標準差作為離差的代表。 (3) 常討論的標準差有兩種：母群體標準差與樣本標準差。討論樣本標準差時，我們必須先探討抽樣的概念，目前的課程僅就給予的數據加以討論﹑ 分析，不涉及抽樣的問題，我們目前不討論樣本標準差。標準差的意義： (1) 一筆數據 X 中， n 個數值的算術平均數  X 作為整筆數據的代表值。要知道  X 的代表性，我們可用 ( xi   X )2 的平均數來衡量，即用 1 n 1 n ( xi   X )2 來衡量，我們定義 V ( X )   ( xi   X )2 ，V ( X ) 稱為 X 的變  n i 1 n i 1. 異數。 (2) 當變異數 V ( X ) 愈小，則  X 的代表性愈大。 (3) 為了評估數值分散程度的大小，其單位應與  X 相同。因此，我們取 V ( X ) 的平方根來評估數值的分散程度，以  X  V ( X ) . 1 n ( xi   X )2 。  n i 1. (4) 當數據資料多或數據很大時，可利用電算器處理之。. 4.

(5) 【性質】 1. 數據 X  x1 , x2 , 平均數  . , xn 時，. 1 n  xk ， n k 1 n. n. n. n. k 1. k 1. k 1. k 1. 則偏差量的總和為  ( xk   )   xk  n   xk   xk  0 。 2.. 當數據 X  x1 , x2 , 平均數  . , xn 時，. 1  xk ， n k 1 n. 而變異數 V (X ) . 1 n 1 n 2 2 2  ( xk   )   ( xk  2 xk   ) n k 1 n k 1. n 1 n 2 (  xk  2  xk  n 2 ) n k 1 k 1 1 n 2  (  xk  2  n  n 2 ) n k 1 1 n 2 1 n 2  (  xk  n 2 )   xk   2 ， n k 1 n k 1 1 n 1 n 1 n 得到  2  V ( X )   xk 2   2   xk 2  (  xk )2 ， n k 1 n k 1 n k 1. . 3.. 即變異數等於平方的平均減去平均的平方，我們可以用此公式計算變異數  2 ，進而求標準差  。算術平均數  常用來表示一筆數據的集中量數，作為一筆數據的代表，是因為  與所有數據的差異數的平方和最小，這個特性只要利用「級數和」的性質與二次式運算即可得知。 n. 偏差總和公式： f ( x)   ( x  xi )2  n[( x   )2   2 ] 。 i 1. 證明：當數據 X  x1 , x2 ,. , xn 時，想要以一個數 x 來代表這些數， 1 n 可用偏差平方的平均值評估 x 的適切性，令 e( x)   ( xk  x)2 ， n k 1 則使 e( x) 的值最小的 x 就是最恰當的 x ，. 由於 n n 1 n 2 1 2 2 2  ( x  2 xk x  xk )  [nx  2(  xk ) x   xk ] n k 1 n k 1 k 1 1 n 1 n 2 1 n 2  x 2  2(  xk ) x   xk  x 2  2 x   xk n k 1 n k 1 n k 1 n 1 2  ( x   )2  (  xk   2 )  ( x   )2   2   2 ， n k 1 2 故 e( )   為最小值，即 e( x) 的最小值是變異數  2 ，. e( x) . 而最小值發生在取 x 為平均數  時。此結果說明了為何平均數  可擔當代表值的角色，也使變異數  2 及標準差  的意義更為明白。. 5.

(6) 4.. 標準差的平移不變性：設數據 X  x1 , x2 , , xn ，又 c 是常數，數據 Y  X  c ，則 Y   X  c ， 1 n 1 n 1 n 2 2 2  ( yk  Y )   [( xk  c)  (  X  c)]   ( xk   X )  V ( X ) 。 n k 1 n k 1 n k 1 於是  Y  V (Y )  V ( X )   X 。. 故 V (Y ) . 5.. 可知數據的平移不影響標準差，此性質稱為標準差的平移不變性。直觀而言，標準差是度量數據的分散趨勢，平移數據不改變其分散性，故標準差不改變。標準差的可伸縮性：設數據 X  x1 , x2 , , xn ， c 是常數，數據 Y  cX ，則 Y  c X ， 1 n 1 n 2 2  ( yk  Y )   (cxk  c X ) n k 1 n k 1 n 1 n 2 1   c ( xk   X )2  c 2  ( xk   X )2  c 2V ( X ) ， n k 1 n k 1. 故 V (Y ) . 於是  Y  V (Y )  c2V ( X )  | c | V ( X )  | c |  X 。當 c  0 時，  Y  c X 。由此可知伸縮數據時，其標準差會跟著伸縮，此性質稱為標準差的可伸縮性。由標準差的平移不變性及可伸縮性知：當 a, b 是常數，且 a  0 時，若 Y  aX  b ，則  Y  a X ，即 Y 的標準差可由 X 的標準差推導出，且標準差與數值的起始點無關，但與單位有關，不論 a 之值為正數或負數，標準差  X 與  Y 恆為正數或 0 。. 6.

(7) 【例題】 1. 已知某地區 40 戶住家房屋的面積，如下表所示：(單位：坪) 房屋面積 X 17.5 22.5 27.5 32.5 37.5 42.5 戶數 f 3 5 13 7 6 4. 47.5 2. 1 5. 試利用數據 Y  ( X  32.5) ，推算 Y 的算術平均數及標準差。解答： Y 的平均數與標準差推算如下： 2. yi. fi. yi fi. yi. 3 2 1 0 1 2 3 總和. 3 5 13 7 6 4 2. 9 10 13 0 6 8 6 12. 9 4 1 0 1 4 9. 2. yi fi. 27 20 13 0 6 16 18 100. 1 3  (12)   0.3 ， 40 10 1 Y   100  (0.3)2  2.5  0.09  2.41  1.55 。 40 設某次測驗的數學成績 x1 , x2 , , x42 的算術平均數 56 分，標準差 3.5 分，設二. 故 Y . 2.. 42. 次函數 f ( x)   ( x  xi )2，試求 f ( x) 的最小值，並求 f ( x) 發生最小值時 x 之值。 i 1. 解答：利用偏差總和公式得 42. 1 42 ( x  xi ) 2 ]  42[( x   ) 2   2 ] ，  42 i 1 i 1 故 f ( x) 的最小值為 42 2  42  3.52  514.5 ， f ( x) 最小值發生在 x    56 (分)之處。 f ( x)   ( x  xi )2  42[. 7.

(8) 【定義】 1. 標準化數據：設數據 X  x1 , x2 , , xn 的平均數為  ，標準差為  ，其中   0 ， X  1  令數據 Z  ，則由於 Z  X  ( ) ，    故 Z 的平均數  Z 及標準差  Z 分別如下： 1 1   Z    ( )  0 ，  Z     1 。    我們稱 Z 為 X 的標準化數據。【說明】 1. 一筆數據 X 以其平均數  X 為中心，標準差  X 為單位， x  X X  X 可以將它標準化為 Z  ，即 zi  i ， i  1, 2, , n 。 X X 由 xi 的標準化數據 zi 即可得知 xi 與平均數  X 的差是標準差的幾倍，也就是如果以標準差  X 為單位，那麼由 zi 就可知道 xi 在平均數  X 之上或之下幾個單位的位置。 2. 兩個不同單位的數據，比如：一個班級的學生之身高 X 與體重 Y ，如果我們要了解某同學的身高 xi ，體重 yi ，到底是身高偏高或體重偏重，我們不容易由 xi , yi 得知，可是將 xi , yi 標準化之後，得 z x , z y ， i. 3.. i. 即可知道這位同學的身高與體重在全班同學中所占的地位了。假設一個母群體的某個特性，如身高，我們用公分與呎為單位，得到兩組數據 X 與 Y ，雖然 xi , yi ﹐ i  1, 2, , n 都不同，可是經過數據標準化， z x 與 z y 必然是相同的， i. i. 這也是標準化數據的特性。數據 X 經標準化後得數據 Z ，此時 Z 的平均數恆為 0 ，標準差恆為 1 。【問題】 1. 平移：若 yi  xi  b ，則各種統計量如何變化？ 2. 伸縮：若 yi  axi ，則各種統計量如何變化？ 3. 伸縮平移：若 yi  axi  b ，則各種統計量如何變化？ 4. 設數據 X  x1 , x2 , , xn 的平均數為  ，標準差為  。若去掉了 xn 後，試問： (1)平均值變大、不變、變小？ (2)標準差變大、不變、變小？ 5. 設數據 X  x1 , x2 , , xn 的平均數為  ，標準差為  。若去掉了最大值與最小值後，試問： (1)平均值變大、不變、變小？ (2)標準差變大、不變、變小？. 8.

(9)