第四章、 實證分析
第二節、 補值與合意度分析
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
50
第二節、補值與合意度分析
首先,資料補值使用原始資料的 1010 筆,變數包含性別、滿意度、學歷、
滿意度評分和年齡五個變數,基本資料當中,五個變數的遺漏值個數分別佔 0 個、209 個、9 個、62 個和 5 個,共 285 個,佔總資料大約 5%。研究目標是觀 察經過補值後,五個變數當中的類別型變數滿意度和連續型變數滿意度評分之間 的合意度判斷。將連續型變數經過轉換而變成類別型變數,分別使用等級轉換和 常態分數轉換兩種方法進行分析。連續型變數滿意度評分經過轉換後,將兩個類 別型變數使用第二章所提到的統計量,分析評分者給予滿意度分數和滿意度評分 之間的合意度。
如圖 14 為模擬 5000 次補值後算出各個統計量的箱型圖,其中橫線條表示原 始資料刪去遺漏值後剩下的 768 筆資料所做出的統計量值,從圖 14 中可以很明 顯的看出差異。使用等級轉換方法,經過此轉換後,兩類別變數滿意度和滿意度 評分的各個尺度次數大致相同,因此不考慮系統差異的合意度統計量。經過補值 後統計量 Kendall’s W、Spearman、Kappa、MA 值都明顯合意度變差,RV 值變大 表示合意度變差。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
51
圖 14、模擬 5000 次經等級轉換後各統計量箱型圖
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
52
使用常態分數轉換方法與等級轉換方法不同,不會有滿意度和滿意度評分的 尺度次數大致相同的情況,因此要多考慮到系統差異的合意度統計量 RP 和 RC。
如圖 15 趨勢與等級轉換後的結果相同,經過補完值後統計量 Kendall’s W、
Spearman、Kappa、MA 值都明顯合意度變差,RV 值變大同理。同第三章模擬情 形一樣,使用常態分數轉換的結果相較於等級轉換方法隨機差異有稍微小一點。
而系統差異經過補值後的 RP 和 RC 合意度都有稍微變好的趨勢,代表評分者在 給予滿意度和滿意度評分的分數時,不會有給予其中一種分數較高的情況,且評 分者對於兩變數不會給予滿意度較集中在中間尺度的分數。
由圖 15 的結果,可以從遺漏值的比例來看,性別、滿意度、學歷、滿意度 評分和年齡這 5 個變數的遺漏值個數分別佔 0 個、209 個、9 個、62 個和 5 個,
共 285 個。看似遺漏值個數大約只有 5%,但遺漏值大多集中在滿意度和滿意度 評分,這跟用來判斷合意度的變數相同,只關注在這兩個變數就會發現遺漏值比 例高達有 13%之多,導致差異會如此之大的原因。另一個可能是當中的遺漏值並 非隨機產生,而當中的遺漏值是受到某特定變數所影響。
如表 26、27 看到女生較容易產生不填答的情況,學歷有越低越不填答的趨 勢,且年齡大於 70 歲的人最容易產生不填答的情況。與第三章表 22、23 當中顯 示學歷越低的評分者合意度也越低,且表 26、27 顯示學歷越低也越有不填答的 趨勢,因此這也是原因之一,使得模擬 5000 次的各統計量與刪去遺漏值樣本時 的結果差異狀況,會比第三章模擬 10%遺漏值來的較大。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
53
圖 15、模擬 5000 次經常態分數轉換後各統計量箱型圖
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
54
五、結論
第三章資料的模擬包含遺漏值比例 1%和 5%的結果,遺漏值比例越高,越 會造成補完值後與實際狀況差異越大,因此對資料分析時,要先考量資料的遺漏 值比例狀況。等級轉換下的資料系統差異較小,但隨機差異的結果會與實際狀況 來的偏頗,反觀常態分數轉換後的資料雖然無法將系統差異化為極小,但隨機差 異的結果會與實際狀況更接近,因此兩種轉換都可被使用做分析的依據。
第三、四章模擬結果顯示填補遺漏值後與實際狀況差異不大,但是還可以有 改進的空間,在補值時所使用資料增廣法的模型是未經過給予限制條件的模型 (Unrestricted model),這種情況下補完值的變異較不穩定,因此還需要做進一步 的改進,就是使用資料增廣與貝氏結合的方法(Data augmentation Bayesian IPF)。
這個方法將所要的模型給予一些限制的條件,但如果要使用此模型就需要再對資 料擁有更進一步的了解,找出資料的重要性與相關性及文獻支持才有辦法使用,
並可做為未來改進的目標。
合意度的判別方法很多,如同較早期提出的 Kappa 和 Kendall’s W 與 Svensson and Holm (1994)中提到的合意度判別方法,如將合意度分為系統差異與隨機差異 分別做判斷。其中 Kappa 變數容易受到對角線個數影響,此值的變動幅度很明 顯;Kendall’s W 和 MA 值比較相似,都是將資料先做等級化,且出來的值都在 0.9 左右;系統差異的 RP 跟 RC,兩統計量只受到邊際次數的影響;而隨機差異 RV 代表如資料邊際次數都相等,此時差異無法經由 RP 跟 RC 值做判斷,就只能 由 RV 來對資料合意度不佳的原因做解釋,經由此多種統計量就可以把資料的合 意度做更完善的解釋。
‧
Agresti, A. (1988). A model for agreement between ratings on an ordinal scale.
Biometrics, 539-548.
Agresti, A. (1992). Modelling patterns of agreement and disagreement. Statistical methods in medical research, 1(2), 201-218.
Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1), 37-46.
Dempster, A. P., Laird, N. M., & Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal statistical
Society,39(1), 1-38.
Fieller, E. C., Hartley, H. O., & Pearson, E. S. (1957). Tests for rank correlation coefficients. I. Biometrika, 470-481.
Jensen, J. L. W. V. (1906). Sur les fonctions convexes et les inégalités entre les valeurs moyennes. Acta Mathematica, 30(1), 175-193.
Kendall, M. G. (1938). A new measure of rank correlation. Biometrika, 81-93.
Kendall, M. G., & Smith, B. B. (1939). The problem of m rankings. The annals of mathematical statistics, 10(3), 275-287.
Kendall, M. G. (1945). The treatment of ties in ranking problems. Biometrika, 239-251.
Little, R. J., & Schluchter, M. D. (1985). Maximum likelihood estimation for mixed continuous and categorical data with missing values. Biometrika, 72(3), 497-512.
Rhodes, A., Jasani, B., Barnes, D. M., Bobrow, L. G., & Miller, K. D. (2000).
Reliability of immunohistochemical demonstration of oestrogen receptors in routine practice: interlaboratory variance in the sensitivity of detection and
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
56
evaluation of scoring systems. Journal of clinical pathology, 53(2), 125-130.
Saris, W. E., Van Wijk, T., & Scherpenzeel, A. (1998). Validity and Reliability of Subjective Social Indicators: The effect of different measures of association.
Social indicators research, 45(1-3), 173-199.
Schafer, J. L. (1997). Analysis of incomplete multivariate data. CRC press.
Svensson, E. (2000). Comparison of the quality of assessments using continuous and discrete ordinal rating scales. Biometrical Journal, 42(4), 417-434.
Svensson, E. (2001). Construction of a single global scale for multi‐item assessments of the same variable. Statistics in medicine, 20(24), 3831-3846.
Svensson, E. (2012). Different ranking approaches defining association and agreement measures of paired ordinal data. Statistics in medicine, 31(26), 3104-3117.
Svensson, E., & Holm, S. (1994). Separation of systematic and random differences in ordinal rating scales. Statistics in medicine, 13(23‐24), 2437-2453.
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
57