為何抽樣而不普查(群體中的每一元素均研究)經濟目的
何謂“好樣本”正確的(Valid)樣本,有二因素:
準確性(accuracy):樣本無偏差(unbiased)的程度。準確 樣本即無系統偏差(System bias) (高 估值會與低估值平衡)。
(系統偏差=測量中因已知/未知影響致分數偏向一邊。例如 區域房價測量以“角落屋”為樣本元素)
又 如 1936 年 美 國 總 統 大 選 , Literary Digest 預 估 Landon 當選,(200 萬的樣本大小);結果卻由羅斯福當選。
(原因:調查對象以中、高階級為主,但羅斯福卻獲低階層 民眾的支持。)
精確性(precision) :機遇原因引起的誤差變異,或抽樣誤 差;變異(deviation)愈小、愈精確。
用標準差x = / n 表示。
(此僅“機率性抽樣”可估計)(x愈小,在相同信賴水準下,
信賴區間愈小)。
抽樣設計的類型
抽樣方法依計劃之要求而定(目標、可用的資金)
如
依元素選擇分成無限制(就整個大群體挑選個別元 素)
有限制(在某些條件下抽樣)。
依代表基礎分成
機率:i)簡單隨機 ii)複雜隨機(系統抽樣、分層抽 樣、集群抽樣、雙重抽樣)。
非機率:i)便利抽樣;
ii) 故意抽樣(判斷、配額);
iii) 雪球抽樣。
機率性抽樣(以簡單隨機抽樣為基礎,說明抽樣設計的步驟)
抽樣設計的 6 個工作(不必固定順序)
相關群體為何:由管理問題或研究目標而定,群體元素係
以個人、家庭...等為單位亦須考慮,最好能有操作性定義使 更明確。
有興趣的參數(母數)為何:對(mean)有興趣,須用X估 計;對(deviation)有興趣須用 s 估計須用等距/等比尺 度
抽樣架構(Frame)為何:即「從群體得到樣本元素的名單
(list)」,如名錄(但應注意名錄的編製日期,如差太久 應加上更正名單),但有時如找“亞裔”則可能在住戶名 單上找不到,可從某集區(都住在亞洲城,eg.)或其他方 法找“架構”。
樣本為何類型:即用何方法抽樣(如前述)。但有“拒答”,
“不在家”等回收問題。
需多大的樣本?依“群體母數之變異”和“需要的(估計)精 確性”而定。(變異愈大,抽樣量愈多。精確性高(在一定信 賴水準下信賴區間界限小),則抽樣大小愈大。以上係考慮 無限群體,有限群體(且 n/N 5%)須作校正(× (N-n)/(N-1) )。
另外,a)“抽樣方法”也會影響樣本大小;b)若對子群體也 要作分析,則在子群體的樣本也須夠大,影響整個群體 大小。一般愈小的群體的抽樣比重須愈高(以減少機率變異)。
抽樣成本:成本會影響可用的抽樣方法。如機率抽樣的調查 須考慮回收成本,抽樣架構(list)成本。(而電話、問卷、調查、
訪談的成本也都不同)。
執行:用亂數抽樣
抽樣概念(
X = / n,可用 s 估計)的信賴區間:X Z/2ss/ n(t/2(n-1)),P 的信賴區間:
PZ/2 P(1-P)/n 。
複雜的機率性抽樣(即非簡單隨機)
有時無群體 list,故簡單隨機抽樣不可能(執行上不可能)
(有時)簡單隨機浪費時間、金錢(去找 list)(經濟上無效 益)。
簡單隨機固然好,但所得之群體資訊可能用不到(統計上 無效益)。
(有效率的樣本統計上以較小樣本得到一個給定的精確性(
X)) 系 統 抽 樣 :1~k 個 隨 機 取 一 個 , 以 後 再 加 k 個又 取 一 個,....
優點:簡單。
缺點:週期性群體(此缺點可用“警戒”克服)或單調變化
(此可先對群體隨機化處理,再進行系統抽樣)
(or)時不適用。
分層抽樣
大部份群體可依某些特性(如:性別、年級、學校....)分成 互斥子群體 稱之層(strata)。
即先分層,再各層進行簡單隨機抽樣為樣本。
採用原因:
增加樣本的統計效率。
可分析子群體的特性。
可在不同層用不同研究方法、程序。
永遠比簡單抽樣好(至少一樣)
理想的分層抽樣,應“層內同質”(Min 變異小),“層 間異質”(max 變異大)(層之數目愈多,愈能達此理 想)。
限制:當每一層的mean,variance 有一些相似(不夠理 想)時,則統計效率增加不多。
每一層之樣本大小如何決定:(先考慮全部群體的樣本 大小,再考慮其分配到各層的大小)
a)比例配置:好處有三
i) 較高的統計效率(比簡單隨機);ii)簡單;
iii)樣本可自我加權(代表群體比重)。
其限制:當各層的mean,variance 有些相似時,則 統計效率增加不多。
b) 非比例配置:依
Ni(第 i 層的大小);
i(第 i 層的變異);
Ci(第 i 層的抽樣成本)等為權數來分配樣本 大小。
集群抽樣:先分群,再隨機選幾群作為樣本。
採用原因:比簡單隨機的經濟效率高。
有時無可用的抽樣架構。
限制:因群內常同質,致統計效率比簡單隨機差(理想 應“群間同質”“群內異質”)。
(經濟效率卻可彌補統計效率,故可用淨相對效率(=經濟 效率/統計效率)來看其採用性。)
重要型式:地區(area)抽樣可用於國家、省(郡)、....及 更小的區域。
集群抽樣的設計,必須考慮下列五個問題:
群內有多同質?(太同質則無統計效率,應使之異 質)。
群的大小應一樣嗎?(一樣較好,如此群內的 X才 可作為整個群體的不偏估計)。但通常都不一樣,使 之一樣的方法如下:
A)將大群拆開,並合成小群(如地理區之劃分)。
B) 將群大小分層,再對每層抽取群(各抽取不同大 小的群若干個)。
C) 大小與分層併行,即愈大群的層,抽取較多群 但每群抽取元素比例較小,使每層中抽中群的比 例乘上每群中抽取元素的比例為定值。
群的大小應多少?(不一定)。
分成單階或多階的群?(地區抽樣一般為多階,用 多階可使各群在所要的經濟大小程度)。
一組樣本應多大?(此與群的大小是否相同,是否 多階分群有關,若然則相當複雜;若是單層且等大 時,(即“簡單集群抽樣”)則大小與簡單隨機抽 樣同。
雙重抽樣:因便利/經濟之考慮,先經由樣本收集一些資訊,
再經由這些樣本資訊決定繼續抽樣的依據。(如 逐次抽樣,多階抽樣檢驗時)
非機率性抽樣
因低成本故常用,但無統計意義(不可估計母數)。其準確性 僅能由專家評論, 且常不可靠。
採用原因(實際本質):
可滿意的達成抽樣目標(不須瞭解群體真正特性,或不想 知其母數)如探勘性研究。
成本時間的考慮。
因為機率抽樣受到人性因素的限制致不隨機,故不如用此 種抽樣。
因無法用機率抽樣時。
有時機率抽樣選出的樣本元素,卻可能是由別人代答。
(如問卷由別人收到)。
方法:
便利抽樣:(未給予任何限制)最不可靠!但最簡單、
便 宜 ( 但 在 探 勘 性 研 究 之 早 期 即 適 用 !可得 一些 ideas)
故意抽樣:符合某種準則的抽樣,有兩種:
i)判斷抽樣:研究者依某些準則找樣本元素(在探勘性研 究初期,很適合;還有在篩選目的時,如讓公司員工 評估新產品觀念:因為員工較懂產品)。
ii)配額抽樣:使樣本可代表群體(如依男女性比例配額抽 樣)。
可用好多個特性配額,即“次數控制”,如依各特性之 群體比例多重配額(經由控制達成不同特性均能符合次 數比例)。
缺點:實際並不能保證代表性;用以作為配額控制資 料可能不準;真正抽樣仍是由人判斷。
但常為民意測驗專家、行銷研究使用。(根據實際使用,仍 有預測效度)
雪球抽樣:對象難確認,須經由介紹網找到。(如吸毒 文化、青年幫派、權力菁英、社區關係、內部交易之研究 時!)