• 沒有找到結果。

4-3-4機率與統計(I)-分析一維數據

N/A
N/A
Protected

Academic year: 2021

Share "4-3-4機率與統計(I)-分析一維數據"

Copied!
10
0
0

加載中.... (立即查看全文)

全文

(1)第四冊 3-4 機率與統計(I)-分析一維數據 【方法】 1. 統計資料的的類型: (1) 連續型(continuous)資料:由測量得到的資料。 如身高、體重、容量、價格、重量、長度,一般為 a < x < b 之型式。 (2) 離散型(discrete)資料:由分類計數得到的資料。 如性別、宗教信仰、教育程度、比賽名次、類別資料,一般與 x = 0,1,2,3,L 成一對一對應。 2. 以下(上)累積次數: (1) 以下累積次數:以較小數值至較大數值累積次數。 (2) 以上累積次數:以較大數值至較小數值累積次數。 3. 累積次數分配表: (1) 從小而大的組別,將次數分配表內各組的次數,從上而下順次累積起 來,所得的結果記在對應的組內,就得以上累積次數分配表。 (2) 若將各組的次數由下而上累加起來,則所得的表稱為以下累積次數分配 表。 4. 以下(上)累積次數分配曲線: (1) 以下累積次數分配折線圖:以較小數值至較大數值累積,並以(以下累 積次數,各組上限)為坐標點繪圖,並將各點以及第一組下限點相連成 折線圖。 (2) 以上累積次數分配折線圖:以較大數值至較小數值累積,並以(以上累 積次數,各組下限)為坐標點繪圖,並將各點以及最後一組上限點相連 成折線圖。 5. 離散型資料之次數分配表: (1) 資料分類。 (2) 歸類畫記。 (3) 統計次數(frequency)。 6. 連續型資料之次數分配表: (1) 資料排序(sort)。 (2) 決定組數: 7~15 組。 (3) 決定組距: H −L (通常取整數)。 組距=(最大資料-最小資料)/組數 = k (4) 決定組界: 規定含下界,不含上界。 (5) 歸類畫記: 計算各組次數。 7. 基本假設: 原始資料分組歸類後,假設為均勻分佈於組距上或集中於組中點處較為合 理,如此的平均值即為組中點,故取組中點代表之。通常最大組或最小組之 次數為零時則去掉不計,中間組之次數為零時則不去掉。. 第四冊 第三章. 機率與統計(I) — P7.

(2) 8.. 離散型資料圖: (1) 長條圖:用分離的長條,以(類別資料,次數)為坐標點繪圖,以長條的 長短來表示分類資料中各類次數的分配情形。 優點:便於比較各類別的大小。 (2) 圓形圖(派圖):以圓區域內的扇形區域的大小,來表示資料所占比例的 圖形,扇型面積與百分比成正比。 優點:可以表現一個整體的分配概念。 9. 連續型資料圖: (1) 直方圖:以(分組資料,次數)為坐標點繪圖,以連接的長方形面積來表 示數值資料中,各組數值之次數分配的情形。 (2) 折線圖:在直方圖上,將各長方形頂邊的中點(即橫坐標為組中值,縱 坐標為該組次數)用線段連接起來,就可做成一折線圖,這個折線圖稱 為次數分配折線圖。 【問題】 1. 為何以各組上界為橫坐標,而不以各組組中點為橫坐標? 2. 以下累積次數折線圖為增函數?斜率越小表示數增加越少? 【名詞】 1. 統計量中形容集中程度的有: (1) 算數平均數(Mean)。 (2) 加權平均數(Weight)。 (3) 去頭尾平均數。 (4) 幾何平均數(G.M.)(geometry mean)。 (5) 中位數(Me)(median)。 (6) 眾數(Mo)(mode)。 2. 統計量中形容分散程度的有: (1) 全距(R)(range)。 (2) 四分位差(Q.D.)(quartile deviation)。 (3) 平均絕對離差(M.A.D.)(mean absolute deviation)。 (4) 變異數(Variance)。 (5) 標準差(S)(standard deviation)。 3. 比較兩筆資料的分散程度: 變異係數(C.V.)(coefficient of variance)。 4. 比較兩筆資料的相關程度: 相關係數(R)(relation coefficient)。 註: 1. 統計量有很多種,適用於各種不同類型的資料,並不是一種統計量就可以解 釋所有的各種資料,而要針對不同的資料選取不同的統計量來用。 2. 數據的集中趨勢:常用的有算數平均數、中位數、眾數,它是表達數據的集 中位置。 3. 數據的離散趨勢:常用的有全距、四分位差、樣本標準差,它是表達數據之 差異。. 第四冊 第三章. 機率與統計(I) — P8.

(3) 【定義】 1. 平均數: (1) 未分組資料: 設 n 筆 資 料 為 x1 , x 2 ,L , x n , 則 其 算 數 平 均 數 定 義 為 n x + x2 + L + xn x X = 1 =∑ i 。 n i =1 n (2) 已分組資料: k fx 算 數 平 均 數 定 義 為 X = ∑ i i , 其 中 x1 , x 2 ,L , x n 為 各 組 組 中 值 , n i =1 f1 , f 2 ,L, f n 為各組次數。 2. 優點: (1) 簡單易算,適於代數處理。 (2) 表質量重心。 3. 缺點: (1) 易受極端值影響。 (2) 資料要有相等重要性。 (3) 看不出資料實際內涵。 4. 性質: (1) 設兩變數 X 與 Y 的關係為 Y = aX + b ,其中 a, b 為兩定數,則兩變數的 算術平均數 x 與 y 的關係為 y = a x + b 。 n. (2). ∑ (x i =1. i. − X ) = 0。. (3) yi = axi + b ⇒ Y = a X + b 。 (4) 已分組資料用組中點代表。 【問題】 1. 至少一半或一半以上資料 ≥ X ? 2. 至少一半或一半以上資料 > X ? 3. 至少一半資料 ≥ X ? 4. 至少一筆資料 ≥ X ? 5. 分組資料為何以各組組中點代表? 是否會有誤差?. 第四冊 第三章. 機率與統計(I) — P9.

(4) 【定義】 1. 中位數: (1) 未分組資料: 設 n 筆資料由小到大排序後為 x (1) , x ( 2 ) ,L , x ( n ) ,則排序最中間的數(或中 間兩數的平均),稱中位數。 分 n 奇數與偶數討論如下: (a) 若 n 為奇數,則 Me = x n +1 。 2. xn + xn (b) 若 n 為偶數,則 Me =. 2. 2. 2. (2) 已分組資料: 設資料分組後如下: 組別 次數 L1 ~ U1 f1 L2 ~ U 2 f2 M M Li ~ U i fi M Lk ~ U k. +1. 。. 累積次數 S1 = f1 S 2 = f1 + f 2 M S i = f1 + f 2 + L + f i. M S k = f1 + f 2 + L + f k n 設某一組滿足 S i −1 = f1 + f 2 + L + f i −1 < 2 n 及 S i = f1 + f 2 + L + f i −1 + f i ≥ , 2 則 Me 落於此組中,又已假設各組內之資料均勻分布於各組內, Me − Li 故 = U i − Li. M fk. n − Si −1 2. fi. 亦可得 Me = U i − 2. 3.. ,得 Me = Li + Si −. fi. n 2. n − Si −1 2. fi. (U i − Li ) ,. (U i − Li ) 。. 優點: 不受極端值影響,較不敏感。 注意: (1) 未分組資料找中間的資料。. n (2) 已分組資料(設資料平均分布),用相似三角形概念以 位置求之。 2 【問題】 1. 至少一半或一半以上資料 ≥ Me ? 2. 至少一半或一半以上資料 ≤ Me ? 3. 至少有一個資料 ≥ Me ?. 4.. n. n. i =1. i =1. 證明: ∑ ( xi − Me) 2 ≤ ∑ ( xi − p ) 2 , p 為任意實數。. 第四冊 第三章. 機率與統計(I) — P10.

(5) 【定義】 1. 眾數: (1) 未分組資料:資料中出現次數最多的數。 (2) 已分組資料:分組中次數最多那一組的組中點。 2. 意義: 表多數決之意。 3. 注意: (1) 資料越對稱,眾數越靠近平均數與中位數。 (2) 分組資料以次數最多的那組的組中點當眾數。 (3) 若出現次數最多,不只一次,規定以最小者為眾數。 【問題】 1. 眾數必大於平均數? 2. 眾數必大於中位數? 【問題】 1. 若全班每人成績加 3 分,則何種統計量增加 3 分? 2. 若全班每人成績乘 3 倍,則何種統計量變 3 倍? 3. 當資料對稱、左偏與右偏時,試分別討論平均數、中位數與眾數的大小關係? (右偏:平均數<中位數<眾數,左偏:眾數<中位數<平均數) 【定義】 1. 全距: (1) 未分組資料:最大值與最小值之間的差距,即 R = Max xi − Min xi 。 (2) 已分組資料: R = (最大組上限)-(最小組下限)。 2. 優點: (1) 只由兩個資料決定。 (2) 易於瞭解、計算簡單。 3. 缺點: (1) 感應不靈敏、受樣本數的影響很大。 (2) 忽視了中間數值變動情形。. 第四冊 第三章. 機率與統計(I) — P11.

(6) 【定義】 1. 第一四分位數( Q1 ):所有小於中位數資料的中位數。 2. 第二四分位數( Me ):也就是中位數。 3. 第三四分位數( Q3 ):所有大於中位數資料的中位數。 4. 四分位距:(第三四分位數)減去(第一四分位數),即 Q.D. = Q3 − Q1 。 (1) 未分組資料: n = 2m + 1 或 n = 2 m ⎪⎧Q1 = x( k +1) (1) m = 2k + 1 ⇒ ⎨ 。 ⎪⎩Q3 = x( n − k ) x( k ) + x( k +1) ⎧ Q = ⎪⎪ 1 2 (2) m = 2k ⇒ ⎨ 。 ⎪Q = x( n − k ) + x( n − k +1) ⎪⎩ 3 2 (2) 已分組資料: n 2n 3n 用 , , 位置求 Q1 , Q2 , Q3 。 4 4 4 Q1 求法: 設資料分組後如下: 組別 次數 累積次數 L1 ~ U1 f1 S1 = f1 L2 ~ U 2 f2 S 2 = f1 + f 2 M M M Li ~ U i fi S i = f1 + f 2 + L + f i M Lk ~ U k. M S k = f1 + f 2 + L + f k n 設某一組滿足 S i −1 = f1 + f 2 + L + f i −1 < 4 n 及 S i = f1 + f 2 + L + f i −1 + f i ≥ 4 則 Q1 落於此組中, 又已假設各組內之資料均勻分布於各組內,. Q − Li = 故 1 U i − Li 得 Q1 = Li +. M fk. n − Si −1 4. fi n − Si −1 4. fi. 亦可得 Q1 = U i −. ,. (U i − Li ) , Si −. fi. n 4. (U i − Li ) 。. 第四冊 第三章. 機率與統計(I) — P12.

(7) Q3 求法: 設資料分組後如下: 組別 次數 L1 ~ U1 f1 L2 ~ U 2 f2 M M Li ~ U i fi M Lk ~ U k. 累積次數 S1 = f1 S 2 = f1 + f 2 M S i = f1 + f 2 + L + f i. M S k = f1 + f 2 + L + f k 3n 設某一組滿足 S i −1 = f1 + f 2 + L + f i −1 < 4 3n 及 S i = f1 + f 2 + L + f i −1 + f i ≥ , 4 則 Q3 落於此組中, 又已假設各組內之資料均勻分布於各組內,. Q − Li = 故 3 U i − Li. M fk. 3n − Si −1 4. fi. 亦可得 Q3 = U i − 5.. ,得 Q3 = Li + Si −. 3n 4. fi. 3n − Si −1 4. fi. (U i − Li ) ,. (U i − Li ) 。. 意義: 四分位差表示將資料排序後,位於中間百分之五十數值分布的範圍大小,可 以粗略的顯示資料的離散程度,不像全距會受到極端值影響。對於大於 Q3 的. 百分之二十五的資料、小於 Q1 的百分之二十五的資料及介於 Q1 ,Q3 之間的百 分之五十資料的散佈情形則沒有訊息。 6. 優點: (1) 簡單明瞭,易於瞭解,而且計算容易。 (2) 受隨機抽樣不確定性的影響較小,不受極端值影響。 7. 缺點: (1) 感應不靈敏。 (2) Q1 , Q2 , Q3 都至多使用兩個資料決定。 (3) Q.D. 至多使用 4 個資料決定。 (4) 只觀察中央 50%資料分散的情形。 【問題】 1. 求資料 3,5,6,6,9,11,12,14,16,17,21 之 Q1 , Q2 , Q3 , Q.D. 。 (解: Q1 = 6, Q2 = 11, Q3 = 16, Q.D. = 10 。) 2. 求料 3,5,6,6,9,11,12,14,16,17 之 Q1 , Q2 , Q3 , Q.D. 。 (解: Q1 = 6, Q2 = 10, Q3 = 14, Q.D. = 8 。). 第四冊 第三章. 機率與統計(I) — P13.

(8) 【定義】 1. 母體平均數: 設樣本有 n 個資料 x1 , x 2 ,L , x n ,則 µ = 2.. 1 n ∑ xi = E ( X ) 稱為母體平均數。 N i =1. 母體變異數: 設樣本有 n 個資料 x1 , x 2 ,L , x n ,則 σ 2 =. 3.. 1 n 2 ∑ ( xi − µ ) 稱為母體變異數。 N i =1. 母體標準差:. 1 n 2 ∑ ( xi − µ ) 稱為母體標準差。 N i =1 註:如此定義是為了要知道 µ = E ( X ) 的代表性。 4. 優點: (1) 以算術平均數為中心的標準差,較任何其它平均數為中心的標準差小。 (2) 標準差的特性與算術平均數相同。 (3) 標準差易於做代數運算。 【討論】 1. 從母體中抽樣後,如何估計母體平均數及母體變異數? 1 n (1)母體平均數 µ 已知:用 ∑ ( xi − µ ) 2 估計 σ 2 。 n i =1 1 n 1 n 2 2 (2)母體平均數 µ 未知:用 X = ∑ xi 估計 µ ,再用 ∑ ( xi − X ) 估計 σ 。 n i =1 n − 1 i =1 原因一(直觀原因): 設樣本有 n 個資料 x1 , x 2 ,L, x n ,則 σ =. n. n. i =1 n. i =1 n. 因 ∑ ( xi − µ ) 2 = ∑ ( xi − X + X − µ ) 2 n. = ∑ ( xi − X ) 2 + 2∑ ( xi − X )( X − µ ) + ∑ ( X − µ ) 2 i =1 n. i =1. i =1. = ∑ ( xi − X ) 2 + 0 + n( X − µ ) 2 i =1. 1⎛ n 1 n 1 n 2 2⎞ 2 2 2 ∑ ( xi − µ ) = ⎜ ∑ ( xi − X ) + n( X − µ ) ⎟ = ∑ ( xi − X ) + ( X − µ ) ⎠ n i =1 n ⎝ i =1 n i =1 說明: 1 n 理論上應該用 ∑ ( xi − µ ) 2 來計算變異數,但實務上來說,通常 µ 是未知數, n i =1 n 1 n 1 故用 X = ∑ xi 來估計 µ 並代入變異數公式得 ∑ ( xi − X ) 2 , n i =1 n i =1 1 n 1 n 由上等式結果可知 ∑ ( xi − X ) 2 比理論上的變異數 ∑ ( xi − µ ) 2 較小, n i =1 n i =1 1 n 1 n 即 ∑ ( xi − µ ) 2 ≥ ∑ ( xi − X ) 2 , n i =1 n i =1 n 1 1 n 2 所以適當修正 ∑ ( xi − X ) 2 為 ∑ ( xi − X ) 以調大數值。 n i =1 n − 1 i =1 1 n 2 2 ∴用 ∑ ( xi − X ) 估計 σ 。 n − 1 i =1 ⇒. 第四冊 第三章. 機率與統計(I) — P14.

(9) 原因二(理論原因): ⎛ n ⎞ ⎛ n ⎞ E ⎜⎜ ∑ ( xi − µ ) 2 ⎟⎟ = E ⎜⎜ ∑ ( xi − X ) 2 ⎟⎟ + nE ( X − µ ) 2 , ⎝ i =1 ⎠ ⎝ i =1 ⎠ n ⎛ ⎞ 則 nS 2 = E ⎜⎜ ∑ ( xi − X ) 2 ⎟⎟ + nE ( X − µ ) 2 , ⎝ i =1 ⎠ 其中 ⎛ n x −µ 2⎞ 1 ⎛ n ⎞ ) ⎟⎟ = 2 E ⎜⎜ ∑ ( xi − µ ) 2 ⎟⎟ E ( X − µ ) 2 = E ⎜⎜ ∑ ( i n ⎠ ⎝ i =1 ⎠ n ⎝ i =1. (. (. (. 1 = 2 n. ). ). ). ⎛ n ⎞ 1 E ⎜⎜ ∑ ( xi − µ ) 2 ⎟⎟ = S 2 。 ⎝ i =1 ⎠ n. 第四冊 第三章. 機率與統計(I) — P15.

(10) 【定義】 1. 樣本平均數: 1 n ∑ xi 稱為樣本平均數。 n i =1. 設樣本有 n 個數據 x1 , x 2 ,L , x n ,則 X = 2.. 樣本變異數: 設樣本有 n 個數據 x1 , x 2 ,L , x n ,則 S 2 =. 3.. 1 n 2 ∑ ( xi − X ) 稱為樣本變異數。 n − 1 i =1. 樣本標準差:. 1 n 2 ∑ ( xi − X ) 稱為樣本標準差。 n − 1 i =1. 設樣本有 n 個數據 x1 , x 2 ,L , x n ,則 S =. 註: (1) 當變異數小時, X 對資料更具代表性。 (2) 將樣本變異數適當放大,才能更適當推測全體數值的變異數。 (3) 將變異數開根號後,如此單位才會一致,在意義上的解釋也才有實際意義。 【性質】 1. 離差平方和: n. n. n. n. n. S XX = ∑ ( xi − X ) 2 = ∑ xi 2 − 2∑ xi X + ∑ X = ∑ xi 2 − 2n X + n X i =1. SX = 3. 4.. i =1. i =1. i =1. 2. 2 1 2 2 = ∑ xi − n X = ∑ xi − ⎛⎜ ∑ xi ⎞⎟ 。 i =1 n ⎝ i =1 ⎠ i =1 樣本標準差: n. 2.. i =1. 2. n. n. 1 n 2 ∑ ( xi − X ) = n − 1 i =1. 1 ⎛ n 2 1 ⎛ n ⎞2 ⎞ ⎜ ∑ xi − ⎜ ∑ xi ⎟ ⎟⎟ 。 n − 1 ⎜⎝ i =1 n ⎝ i =1 ⎠ ⎠. 當未說明是母體或樣本資料時,皆視為樣本資料。 伸縮平移: 設 yi = axi + b ⇒ Y = a X + b 且 S Y =| a | S X 。 證明:. SY =. 1 n 2 ∑ ( yi − Y ) = n − 1 i =1. 1 ⎛n 2⎞ ⎜ ∑ ((axi + b) − (a X + b)) ⎟ ⎠ n − 1 ⎝ i =1. 1 n 1 n 2 2 ∑ (a( xi − X )) =| a | ∑ ( xi − X ) =| a | S X 。 n − 1 i =1 n − 1 i =1 【問題】 1. 平移:若 yi = xi + b 時,則各種統計量如何變化? 2. 伸縮:若 y i = axi 時,則各種統計量如何變化? 3. 伸縮平移:若 y i = axi + b 時,則各種統計量如何變化? =. 第四冊 第三章. 機率與統計(I) — P16. 2. 2.

(11)

參考文獻

相關文件

上列兩個範例是屬於連續型資料相同,但是組距不相同,比較看看,統計圖表有

推理論證 批判思辨 探究能力-問題解決 分析與發現 4-3 分析文本、數據等資料以解決問題 探究能力-問題解決 分析與發現 4-4

相關分析 (correlation analysis) 是分析變異數間關係的

In addition , from the result of The Manpower Utilization Survey and Family Income and Expenditure Survey, this study has shown that the minimum wages hike has a greater

將一群統計資料由小而大排成一列,則中位數(Me)前段數值之中位數稱為第 一四分位數(Q1),中位數(Me)後段數值之中位數稱為第三四分位數(Q3),而中

微陣列玻片資料庫 (The Microarray Database,以下簡稱 TMD) 為本研究嘗 試建置的一套提供存取、分析微陣列玻片 (Microarray)

Kaiser 提出 MSA(Measure of Sampling Adequacy,資料做因 素分析適合性指標),雖然 MSA 的大小沒有統計上的判斷臨 界點,但實證經驗,當 MSA &gt; 0.8 表示此組資料作因素分析

以某種特定規則形成之統計邏輯,這些統計邏輯可用於檢測各種不同類型資料 之特徵。在計量學方面以 Bradford 定律及 Zipf 定律影響最為深遠,故本節將針