Ch 4.1 一維數據分析 一年____班 座號:____ 姓名:
重點 1:一維數據分析
1.意義:一維數據是指只有一個變數的數據,如:身高、體重、數學成績、產量等。
而如何解讀數據,就是數據分析的意義。
2.數據分析指標:
(1)表示數據資料的集中趨勢集中趨勢集中趨勢集中趨勢程度:包含算術平均數 µ、加權平均數 W、幾何平均數 G、中位數 Me、眾數 M0
(2)表示數據資料的離散趨勢離散趨勢離散趨勢離散趨勢程度:包含標準差σ、變異數σ2
重點 2:算術平均數 µ (讀作 mu)
1.定義:設一群 n 個數據 x1,x2,…,xn,以 µ 來表示此一群數據的算術平均數(簡稱平均數) 即算術平均數 µ=x1 x2 xn
n
+ + +L =
∑
= n
k
xk
n 1
1
註:算術平均數可分為未分組資料未分組資料未分組資料未分組資料、分組資料分組資料分組資料分組資料兩種方式的計算
2.性質:算術平均數受極端值(特別大或特別小數值)的影響很大,為了消弭極端數據所造成的偏差,一般如溜冰、跳水、
體操等國際比賽中,常見去掉最高與最低兩分數再求平均的作法。
◎未分組之算術平均數
例 2.1:經調查新竹縣 尖石鄉 鎮西堡第二區神木群的 11 棵神木,其樹齡分別約為 1600,2000,1800,2400,2500,2000,
2000,2000,1500,1000,2100 年,試求神木之平均樹齡是多少?
◎去掉最高與最低兩分數,再求平均數
例 2.2:依體操比賽規定:七位裁判所給的分數中,將最高與最低的兩分數刪除,剩下五個分數的平均就是該體操選手的 成績。已知一名體操選手在完成動作後,螢幕上出現七個分數,因畫面停留時間不夠長,只看到前六位裁判的分 數分別為 8.8,8.6,8.7,8.8,8.9,8.6,下一個畫面即顯示了該選手在這項體操的最後成績為 8.74。
試求第七位裁判打的分數。
◎分組資料
例 2.3:下表為甲生 30 天的每日消費金額次數分配表,求消費金額的算術平均數。
消費(元) 0~20 20~40 40~60 60~80 80~100 次數 2 4 7 11 6
重點 3:加權平均數 w
1.意義:一群數據中,當各項數據的重要性不盡相同時,為了衡量各項數據彼此之間的輕重關係,給予相對的權數權數權數 權數 將各項數據乘以其相對應的權數,然後把各項乘積的總和除以總權數所得的商,就稱為加加加權平均數加權平均數權平均數 權平均數
2.計算法:設有 n 個數值x1,x2,…,x ,其對應的權數分別為n w1,w2,…,w ,如下表 n
則加權平均數為 w=
n n n
w w
w
w x w
x w x
+ + +
+ + +
L L
2 1
2 2 1
1 =
∑
∑
=
= n
k k n
k k k
w w x
1 1
註:當各數據所占比重不相同時,適合用加權平均數。而各數據所占比重相同時,即為算術平均數 3.應用:生活中,跳水,溜冰,體操等體育比賽中,常常會剔除最高分與最低分各一個,再計算平均。
此時,視同被剔除的兩個成績相當於權數為 0,其餘權數為 1
例 3.1:小芬參加某系的申請入學。她學測成績國文、英文、數學、社會、自然分別為 13、13、15、14、14 級分。
已知小芬通過第一階段篩選,且筆試一 70 分、筆試二 80 分。試問小芬收到成績單上的分數為多少分?
學科能力測驗篩選方式 甄選總成績採計方式及占總成績比例
第一階段 第二階段
××大學××系
科目 檢定 篩選 倍率
學測成績 採計方式
占甄選總 成績比例
指定
項目 檢定 占甄選總 成績比例 校系代碼 005566 國文 - - * 1.00 筆試一 - 45 % 招生名額 40 英文 均標 - * 1.00 筆試二 - 40 % 性別要求 無 數學 前標 3 * 2.00
預計甄試人數 120 社會 - - - 原住民外加名額 1 自然 - - * 1.00
離島外加名額 無 總級分 - 5 -
15 %
重點 4:幾何平均數 G、平均成長率
1.意義:關切數據的變化率,常以幾何平均數來表示。即 n 個正數乘積的正 n 次方根。
2.定義:設有數據 x1,x2,…,xn (xi都是正數),則幾何平均數 G=n x1x2Lxn
註:幾何平均數(G)常用於平均成長倍率(k)
假設一開始的數量為 A,每個時期成長為前一期的 xi倍,i=1,2,…,n,則第 n 期的結果為 Ax1x2 … xn 若設平均成長倍率為 k 倍,則第 n 期的結果為 Akn,
由 Ax1x2 … xn=Akn,∴得知平均成長倍率 k=n x1x2Lxn (即 x1,x2,……,xn的幾何平均數) 3.平均成長率:
某物件的價格成長率為 x%,指的是現在價格是前一期的(1+x%)倍。依此,可以利用幾何平均數來求其平均成長率 當 n 年的成長率分別為 r1,r2,……,rn時,其平均成長率為 x=n (1+r1)(1+r2)L(1+rn)-1
即平均成長率=平均成長倍率-1
數值 x1 x2 x3 … xn
權數 w1 w2 w2 … wn
例4.1:某都市房價在2008年年初每坪是64000元,至2008年底每坪增加至80000元、2009年底每坪增加至121000元,試問:
(1) 2008年當年的房價成長率為何?
(2) 2009年當年的房價成長率為何?
(3)自 2008 年至 2009 年這兩年來,房價每年的平均成長率為何?
例 4.2:某公司統計某產品近三個月銷售量成長率分別為 10%,21%,33.1%,試求這三個月銷售量的平均成長率。
重點 5:中位數 Me
1.定義:一群數據從小到大排列之後,排在正中間位置的數稱為中位數中位數中位數,以 Me 表示。 中位數 2.求法:設有一群由小到大排列的數據 x1≤ x2 ≤ ……≤ xn,則:
(1)若 n 是奇數,令 k=
2 +1
n ,則中位數恰為位於正中間的數,即 Me=xk
(2)若 n 是偶數,令 k=
2
n,則中位數為位於中間兩個數的算術平均數,即 Me=
2
+1
+ k
k x
x
2.特性:
(1)中位數是整筆數據的中間點,即有一半的數據小於(或等於)中位數,而另一半的數據大於(或等於)中位數,
因此中位數不受極端值影響
(2)中位數比算術平均數更能代表一群數據的代表值 例 5.1:試求下面這兩組數據的中位數:
(1) 8,4,9,1,6 (2) 8,4,9,1,6,8
例 5.2:有一旅遊團成員年齡如下:7,50,5,60,6,6,7,5,7 歲。求年齡之算術平均數及中位數。何者較能代表這 群數據?
重點 6:眾數 M0
定義:一群數據中,出現次數最多的數值,稱為眾數
例 6.1:試求數值 10,2,5,9,8,7,3,7,7,10 的眾數。
重點 7:變異數與標準差σ 1.數據離散趨勢的指標:
用來衡量數據分散程度的數,稱為離差離差離差離差。離差愈小,表示數據集中;離差愈大,表示數據間彼此的差異愈高,
也就是數據愈分散。常用的離差有全距全距全距全距、四分位距四分位距四分位距四分位距及標準差標準差標準差標準差、變異數變異數變異數變異數 2.全距全距全距:一群數據中最大數與最小數的差,稱為全距全距 全距全距,以 R 表示 全距
註:全距計算只採用首尾兩端的數據,忽略中間數據的變動情形,只在數據集中時才較有意義 3.設一組數據 x1,x2,…,xn的算術平均數是 µ,而數據 xi的離均差離均差離均差離均差為 xi-µ,則:
(1)離均差有的是正值,有的是負值,而離均差的和
∑
= n −
i
xi 1
) ( µ =
1 1 1
n n n
i i
i i i
x µ x µ nµ nµ
= = =
− = − = − =
∑ ∑
-∑
1 1 1
n n n
i i i
x µ x µ nµ nµ
= = =
− = − = − =
∑
x −µ x=∑
−µx=−∑
xµ=−=nµµ-−=nnµµ=−=0 nµ= (2)變異數:離均差平方的平均值稱為變異數變異數變異數變異數,記為σ2即變異數σ2=1
n[(x1-µ)2+(x2-µ)2+…+(xn-µ)2]=1 n
2 1
( )
n i i
x µ
=
∑
− =1 n2 2
1 n
i i
x µ
=
∑
−(3)標準差:變異數的正平方根稱為標準差標準差標準差標準差,記為σ (讀作 sigma) 即標準差σ= 1 1 2 2 2 2
((x ) (x ) (xn ) )
n −µ + −µ + +L −µ = 2
1
1 ( )
n i i
n x µ
=
∑
− = 2 21
1 n
i i
n x µ
=
∑
−註:σ2=1
n[(x1-µ)2+(x2-µ)2+…+(xn-µ)2]=1 n
2 1
( )
n i i
x µ
=
∑
− =1 n2 2
1
( 2 )
n
i i
i
x xµ µ
=
− +
∑
=1 n
2 1 n
i i
x
=
∑
-2n µ
1 n
i i
x
=
∑
+1n
2 1 n
i
µ
=
∑
=1n 1 n
i i
x
=
∑
-2n
µ (nµ)+1
n(nµ2) =1 n
2 1 n
i i
x
=
∑
-2µ2+µ2=1 n2 1 n
i i
x
=
∑
-µ2 4.特性:(1)準差愈大,資料愈分散;標準差愈小,資料愈集中;反之亦然。
(2)一般利用標準差的大小,描述資料分散的程度
(3)如果數據都很靠近平均數,標準差σ 就較小;只有在所有數據都完全相等時,σ 才會等於 0 例 7.1:參加趣味競賽兩個隊伍的隊員年齡如下,試分別求兩隊隊員年齡的全距。
男生隊:14,14,16,16,16,17,17,18 女生隊:3,3,4,5,5,6,6,6,60,62
例 7.2:試求 6,1,3,10 這四個數的變異數與標準差。
背
背
例 7.3:試求數據 1,2,3,…,49 的變異數。
例 7.3:現有 A,B 兩班考試成績如下:
A:1,1,1,1,1,10,10,10,10,10 B:1,2,3,4,5,6,7,8,9,10 試比較考試成績哪班較分散?
重點 8:數據的伸縮與平移
1.意義:將每筆資料同時加(或減)一個定數稱為平移平移平移,而同時乘以一個非零常數稱為伸縮平移 伸縮伸縮 伸縮 2.性質:
設原始資料 x1,x2,…,xn,平均數為 µx,標準差為 σx,經函數 yi=axi+b,i=1,2,…,n,變換後 得新的資料 y1,y2,…,yn,平均數為 µy,標準差為 σy,則:
(1)µy =aµx+b (2)σy =| |a σx
說明:(1) µy=(ax1 b)+(ax2 b)+ +(axn b) n
+ + L + =a x( 1 x2 + )xn nb n
+ +L + =a x( 1 x2 + )xn n
+ +L +b=aµx+b
(2) σy2=
2 2 2
1 2
(y y) (y y) (yn y) n
µ µ µ
− + − + +L −
=
2 2 2
1 2
((ax b) (a x b)) ((ax b) (a x b)) ((axn b) (a x b)) n
µ µ µ
+ − + + + − + + +L + − +
=
2 2 2 2 2 2
1 2
( x) ( x) ( n x)
a x a x a x
n
µ µ µ
− + − + +L − =a2‧
2 2 2
1 2
(x x) (x x) (xn x) n
µ µ µ
− + − + +L − =a2σx2
∴σy=aσx
例 8.1:(1)設一組資料為 1,2,3,4,5,6,7,試求其平均數 µ 與標準差 σ
(2)試觀察下列各組資料與(1)的資料有何關係?並試以此關係計算各組資料的平均數 µ 與標準差 σ A:2,3,4,5,6,7,8
B:2,4,6,8,10,12,14 C:3,5,7,9,11,13,15
D:-2,-5,-8,-11,-14,-17,-20
例8.2:國外某一女子排球隊來訪,陣容整齊,九位隊員身高登記分別為:
1.73,1.76,1.74,1.71,1.75,1.78,1.76,1.77,1.75,試求平均身高及標準差(以米為單位)
重點 9:數據的標準化(標準分數、z 分數)
1.意義:一般不同性質的數據要經過「標準化」,確定某個數據在整組數據中的相對位置相對位置相對位置,成為標準常態分布後, 相對位置 才能進行分析比較。
註:數據在轉變成 z 分數後,單位就消失了 2.定義:
已知數據 x1,x2,……,xn,則將此數據先減去算術平均數 µ,再除以標準差 σ (設 σ>0),
得數據 z1,z2,……,zn,其中z =i σ
µ
i−
x ,i=1,2,……,n,則稱z 為原數據i x 的標準化數據i 標準化數據標準化數據 標準化數據
註:(1) σ
µ
i −
x 表示數據 xi與算術平均數 µ 相距了幾個標準差,即得知數據 xi在整組數據資料中的相對位置
(2)若數據中的每一筆資料皆相同,則標準差 σ=0
3.標準化數據的性質:標準化數據的算術平均數為 0,標準差為 1 說明:標準化數據的定義 zi=xi µ
σ
− ,由平移與伸縮性質,得知:
算術平均數 µz= 1 σ µx-
µ σ =
1 σ µ-
µ
σ =0 標準差 σz= 1 σ σx=
1 σ σ=1
例 9.1:假設有一組數據的平均數與標準差分別是 µ=8,σ=4。將其中的幾個數據 2,12,10,8,6,4,14 標準化後的 新數據為何?
例 9.2:小明期中考的數學成績為 73 分,班上的平均是 68 分,標準差 5 分;而小明期末考的數學成績為 65 分,班平均 60 分,標準差 4 分,則:
(1)將小明兩次考試的數學成績標準化
(2)就全班而言,小明到底是進步還是退步呢?