初等統計學
講義
編著: 周松田 博士
中華民國 102 年
目錄
第 1 章 緒論 ………..……….… 1
第 2 章 統計資料之蒐集與整理 ……….. 3
第 3 章 統計(測)量數 …………..………. 9
第 4 章 機率論 ……….. 14
第 5 章 隨機變數與機率分配 ……….……... 20
第 6 章 常用的機率分配 ……….……... 26
第 7 章 抽樣與抽樣分配 ……….……... 30
第 8 章 統計估計 ………..……….………... 39
第 9 章 假設檢定 …………..……….………... 48
第 10 章 兩母體的統計估計與假設檢定 ……….…………. 60
第 11 章 變異數分析(ANOVA) …………..………….…………. 70
第 12 章 迴歸分析與相關分析 ……….……... 78
第 2 章 - 統計資料之蒐集與整理 1. 資料的意義
所謂資料,意指在一定的時空下,針對人類的各項活動或大自然的現象等群 體中,有關人、事或物,依個體之特性加以描述或記載而得之紀錄。而所謂統計 資料則指依既定之目的,以有系統的方法,在某特定的時空下,點計(Count)
或度量(Measure)母体的特性而所得的數字資料。統計資料具有:(a)數量性,
(b)大量性,與(c)客觀性。
2. 資料之蒐集
2.1. 資料之分類
(1) 依來源(取得方式)可分為初級資料與次級資料兩種。
a. 初級資料:直接由研究人員或資料使用者依研究的目的去調查、實 驗、或觀察而獲得之資料稱為初級(或原始)資料。
b. 次級資料:他人所蒐集、整理分析的統計資料稱為次級資料。
(2) 依性質可分為靜態資料與動態資料兩種。
a. 靜態資料:發生於同一時點或期間的資料稱為靜態(或橫斷面)資料。
b. 動態資料:發生於不同時點或期間的資料稱為動態(或時間數列)資 料。
(3) 依屬性可分為類別(質的)資料與數量資料兩種。
a. 類別資料:凡是不以數值來表示,而是以類別來區分的資料稱為類別 資料。
b. 數量資料:凡是可以數值來表示的資料稱為數量資料(包括計數與計 量資料)。
2.2. 蒐集的方法
最常見的方法為調查,包括
(1) 普查:乃就所欲研究某種現象的所有個體,一一加以調查。
(2) 抽查:即抽樣調查,乃就所欲研究某種現象的所有個體中,抽取一部分 個體加以調查,並期就此部分個體以推出該現象之全部。
※ 對影響母体特性的各種因素不做控制的情況下,進行資料蒐集的方法稱為調 查;對影響母体特性的某些因素或其他因素加以控制的資料蒐集方法稱為實驗;
利用觀看、查察、記錄,而不與研究對象有任何接觸晤談的資料蒐集方法稱為觀 察。
3. 資料之衡量
所謂資料,亦即有關母体(或組成母体之個体)特徵之描述(或表達)情形。
不同的個体,其特徵若不同,其描述的內容便有所不同。習慣上,有關母体(或 組成母体之個体)之特徵,我們便以變數(Variable)來表示,而描述的內容,
即 為 變 數 的 變 數 值 。 變 數 有 質 的 變 數 ( Qualitative Variable ) 與 量 的 變 數
(Quantitative Variable)。通常,變數值應以數值來衡量或測度以利統計分析。
所謂衡量(Measurement)通常是用數值來表達我們觀察、調查、實驗、或 測量所得之結果,亦即衡量是將性別、職業、年齡、身高及体重等轉換成具有明 確意義的變數之過程。衡量的工具稱為衡量尺度(Measurement Scale),而資料 的衡量尺度是給予資料一個實數值,以作為比較或計算的基礎。常用的衡量尺度 包括名目尺度、順序尺度、區間尺度及比例尺度。
3.1. 名目尺度
衡量類別資料的尺度稱為名目尺度,又稱為類別尺度。在衡量或處理類別資 料時,必須將資料數值化才能作計算,進而加以分析與比較,通常是將各個類別 以數字 0、1、2、…來表示。這些數字只是用來區分資料的類別,沒有大小、順 序及比例的關係。每一資料必須歸屬於類別中的一類,但不能同時歸屬於兩個或 以上的類別。
3.2. 順序尺度
衡量具有重要、好壞、強弱程度等級順序資料的尺度稱為順序尺度。由於這 些資料具有等級順序的特性,對於這類資料的衡量時,通常是依資料之等級順序 給予大小不同的數值,而這些數值則具有順序指標的意義,但數值間的差值並不 具明確的意義,亦即,順序尺度只問兩數量間的相對次序,而不問其差距的大小。
3.3. 區間尺度
衡量無真正原點(基準點;0)的「量」的資料的尺度稱為區間尺度,又稱 為等距尺度。區間資料可任意設置原點,有相等或固定的衡量單位(間隔),具 有大小的意義,數值的差距有意義,但其比例不具任何意義。例如:智商、溫度、
時間等,無真正的原點。所謂無真正的原點是指當其數值為 0 時,並不代表沒有,
而區間尺度其數值差具有意義。
3.4. 比例尺度
衡量有固定原點的「量」的資料的尺度稱為比例尺度,又稱為等比尺度。所 謂固定原點(絕對零點)是指當其數值為 0 時,代表”沒有”的意思。比例尺度有 固定的衡量單位,其數值具有大小順序的意義,比例值亦具意義,它可以用加、
減、乘、除的運算法則來處理。
4. 抽樣
4.1. 抽樣之基本概念
抽樣是指由母體抽出樣本的程序或方法,其主要的目的,在於如何在各種限 制下,取得具有代表母體特性的樣本,以作為統計推論的依據。
4.2. 隨機抽樣
隨機性的特性有三:
(a)母體中的每一個元素(或個體)皆有被抽出的可能。
(b)任一組樣本被抽出的機率皆為已知(或可加以計算得知。
(c)各組樣本被抽出的過程是獨立的。符合此三條件之抽樣即稱為「隨機 抽樣」。若隨機抽樣中,母體內的任一組樣本被抽出的機率皆相同時,則稱為「簡 單隨機抽樣」。例如,從母體含有 A,B,C,…,I,J 等 10 個字母中抽出兩個 字母為一組樣本,則共有 45 組樣本,如 (A,B),(A,C),…,(I,J),且每一組樣 本被抽出的機率為 1/45。此時所抽出的樣本便稱為「簡單隨機樣本」。
4.3 抽樣之種類 4.3.1. 非機率抽樣
(1) 方便抽樣:以現有或方便取得樣本的方法。
(2) 立意抽樣(Purposive Sampling):又稱計畫抽樣,調查人員根據自己的專 長、知識、經驗與研究目的,自母體中選取具有代表性的個體以為調查的對象。
4.3.2. 機率抽樣
(1) 簡單隨機抽樣(Simple Random Sampling):簡稱「隨機抽樣」,乃不受任 何人為的影響,自母體中隨機抽取一部分個體為樣本的抽樣方法 (註:母體內的 每個個體,其被抽出的機率皆相等)。
(2) 系統抽樣(Systematic Sampling):將全體之個體編號或排列整齊後,每隔 一定的間隔抽取一個樣本,直到抽足所需的樣本大小(即樣本個數)為止的抽樣方 法。
(3) 分層隨機抽樣(Stratified Random Sampling):將母體按某種分類標準區分 為若干類,每一類別稱為一層(Stratum),再就各層中隨機抽取一部分個體為樣本。
其分類的標準,應使層與層間之差異大,而每一層內之差異小。
(4) 集體抽樣(Cluster Sampling):或稱集群抽樣,部落抽樣;將母體劃分為 若干個集體(Cluster),再就全部集體加以編號,隨後採簡單隨機抽樣方式抽取 r 個集體,並就其全部個體進行普查。故「集體內差異大,集體間差異小」,(主要 用於地理區域的抽樣)。直覺上,分層隨機抽樣與集體抽樣似乎非常相似,但二 者實際上有很大的不同,主要的差異有:
(a) 分層隨機抽樣以各層的個體為抽樣對象,由各層抽出的個體合成樣本。
集體抽樣則以整個集體為抽樣對象,被抽出的集體內所有個體皆為研究對象。
(b) 分層抽樣要求「層內之個體同質,層與層之間則異質」;相反的,集體 抽樣則為「集體內之個體異質,集體與集體之間則同質」。
一般而言,集體抽樣有較大的誤差,但為何仍被採用呢?主要是因為它 具有可就近集中調查,較節省時間與費用的優點。例如,假定我們想調查全 台小學五年級學生之身高,若以簡單隨機抽樣法,且以學校為抽樣單位,則 有可能抽出的學校分散在全台各地,使得調查訪問人員疲於奔波,浪費時間 且費用龐大。若用用集體抽樣,且以縣市為集體,只要抽出那些縣市,並就 該縣市之所有學校加以調查即可。由於集體中的單位是相鄰的,較易取得,
因此集體抽樣乃是相當便利的抽樣方法。而其所付出的代價是估計值的準確 度較低。
5. 資料之整理與陳示
搜集到的資料如不加以分類整理,看起來雜亂無章,不能顯示資料的特性與 意義,也無法達到統計的目的。在整理資料時,通常先做成統計表或統計圖,如 有需要時,則再進一步計算出各種摘要性的統計測量數,以顯示資料之某些特性,
如中央趨勢、分散程度。
5.1. 統計表
將蒐集得到的資料,整理成表格的形式,並以文字及數字表現出來,而為所
謂的統計表。其內容包括:(1)標題(Title),即統計表的名稱;(2)標目(Label),用 來標示表身所要表示的項目或事實;(3)表身(Body),是資料的主體;(4)資料來 源(Source)與註記。
表號 名稱
縱標目
橫標目 表身
資料來源:
註:
5.2. 統計圖
將資料以點、線、面、體等圖形為主,以文字及數字為輔的表現方式即為統 計圖。意即利用點的多寡,線的長短粗細,起伏趨勢,面積與體積的大小,與顏 色的深淺來表示資料的特性者,稱之為統計圖。
5.2.1. 圖形之種類
依其表現的形式,可分為:(a)線圖(Line Chart),(b)煙囪或長條圖(Bar Chart;
分橫條圖及直條圖),(c)圓形圖(Circle Chart)或圓餅圖(Pie Chart),(d)直方圖 (Histogram),(e)多邊圖(Polygon),…,等。
5.2.2. 製圖的步驟與原則
其內容包括:(a)確定圖形的名稱,(b)圖形的種類(例如屬質數列可用長條 圖;數量數列可用直方圖;時間數列宜用線圖等),(c)圖形的尺度(或大小)、及(d) 其他(如圖形位置、線之粗細)。
5.3. 資料整理的方法(次數分配) 5.3.1. 類別(或屬質)資料的整理
類別資料在整理時,先依類別分類,建立次數分配表,然後再以統計表或 統計圖表示出來,以顯示資料的特質。
a. 統計表:分次數分配表與相對次數表兩種。
b. 統計圖:常用煙囪圖(即長條圖)、Pareto 圖、圓形圖或圓餅圖來表示。
註:包括類別資料及順序資料。
5.3.2. 非類別(或數量)資料的整理
數量資料在整理時,首先將資料分成若干組,同時計算列示各組次數的統 計表,再以統計表或統計圖表示出來,以顯示資料的特質。
a. 統計表:分次數分配表與相對次數表兩種。
b. 統計圖:常用的有直方圖、次數多邊圖、肩形圖、與枝葉圖。
6. 箱 - 線圖或稱盒鬚圖(Box-and-Whisker Plot)
6.1. 中位數(Median)
所謂中位數,是數量資料從小排到大之排序後,最中間的數,也就是大約有 一半的數據小於或等於中位數,也大約有一半的數據大於或等於中位數,M
e
表 示之。X (n+1)/2
當 n 為奇數[X (n/2) + X (n/2) + 1 ]/2
當 n 為偶數 註: X(1)
≦ X(2)
≦ X(3)
≦ … ≦ X(n-1) ≦ X(n)
(順序統計量;Order Statistic)
[]:高斯符號;即
a
表示小於或等於 a 之最大整數。例如:
10 . 1
= 10 ; 10 . 8
=1 0 ; 10
= 10 6.2. 位置統計量通常以四分位數(Quartile)及百分位數(Percentile)來表示。
6.2.1. 四分位數
有三個,分別為 Q
1
,Q2
,與 Q3
Q
1
Q2
Q3
0 25 50 75 100
6.2.2. 百分位數
設樣本數(或稱樣本大小)為 n,則 P-百分位數定義如下:
令 K =
100p n
a. 若
100p
n
之值非為整數,即 K
100p
n
,則 P-百分位數 =X
K1
M e =
b. 若
100p
n
之值為整數,即 K =
100p
n
,則 P-百分位數 =
21
KK
X
X
註:Q
1
= 25-百分位數; Q2
= 50-百分位數( = 中位數);Q3
= 75-百分位數。** 四分位距
(Inter-Quartile Range; IQR)
IQR = Q3
- Q1
6.3. 盒鬚圖
盒鬚圖
外 內 中 內 外
籬 籬 位 籬 籬
數
Q
1
Q3
IQR
*
內籬(Inner Fences); 外籬(Outer Fences):
若資料落在內籬與外籬之間,則稱為輕度界外值(Mild Outliners)。若資料落在外籬之外,則稱為極端界外值(Extreme Outliners)。
1.5 IQR
3 IQR 1.5 IQR 3 IQR