世代之爭爭什麼 ?
使用R套件探索民意調查資料的意義
劉正山
中山大學政治學研究所 教授 Director, Smilepoll.tw
@ R Taiwan 2016 2016.12.23
1
一年前的自我對話話說…
做實證的社會科學家,理應也能做做不同於描述和假設檢定的事。
§
一般市場與民意調查只被拿來做簡單描述分析;在學術界則被拿來作理論與假設的檢定。
§
隨機抽樣的樣本,獲取成本很高(面訪>電訪);§
商業上的焦點團體與立意抽樣等方法,因為樣 本少而和大數據相形失色。§
問卷題(多是類別型變數)看似只能做做描述 統計或兩兩之間的相關分析;技術含金量有限。我們需要有能讓資料分析者發從調查資料中掘出消費者、選民的 價值和偏好組合的探索工具。
2
MCA 方法帶來的新視野
§
Multiple Correspondence Analysis (MCA)早在二戰前就出現在歐洲,但其潛力目前尚未 受到社會科學的重視。2000左右介紹進美國之 後,已經應用在語言學的研究中,成為該學門 中的重要研究方法(Glynn, et al., 2014; Glynn,
& Robinson, 2014)。商管學門也已在使用,
但並未在國內形成氣候。
§
最近五年則因為R語言及套件的開發,使這個由 法國學者為開發主力的方法經由專書及多個套 件的出版得以在全球資料分析者之間傳開。民眾看似多重的民族、國家、政黨認同 之間,能夠說清楚它們之間的關聯嗎?
我們知道世代之間的政治傾向上不同,
到底怎麼呈現出來才能解答那些是真相,
那些是誤解?
§
中央研究院社會學研究所執行收集的面訪資料:傅仰止、章英華、杜素豪、廖培珊主持的「台 灣社會變遷基本調查計畫第六期第四次:國家 認同組」。
§
面訪調查於2013年9月22日至12月10日執行,於2014年2月釋出,N=1,952。[有代表性!]
§
這筆資料包含了當前學界所認可的國家認同測 量題,如「台灣人/中國人認同」、兩岸關係偏 好,亦包含了民族認同題組、條件統獨題組等。第一次,民調資料可以用這個面貌呈現
§
如果有人問您的祖國是哪裡,請問您會怎麼回答?§
請問您覺得下列這些歷史事件是不是很重要,要 讓下一代永遠記得?§
目前社會上有人會說自己是台灣人,有人會說自 己是中國人,也有人會說兩者都是。請問您認為 自己是台灣人、中國人還是兩者都是§
對於未來台灣與中國大陸的關係,有人主張台灣 獨立,也有人主張與大陸統一。請問您比較贊成 哪一種主張?> install.packages("FactoMineR")
> install.packages("devtools")
> devtools::install_github("kassambara/factoextra")
> library(FactoMineR)
> library(factoextra)
> library(dplyr)
> load("tscs2013.rda")
> tscs2013forMCA <- select(tscs2013,
+ c(# 核心變數 (core vars)
+ gen.1, gen.2, gen.3, gen.4, gen.5, # 世代
+ v15r, #「祖國」是哪裡
+ v54ar, v54br, v54cr, v54dr,#最有承傳價值的歷史事件
+ v57r, #台灣人/既是台灣人也是中國人/其他
+ v61r, # 統獨立場
+ v76r, # 國號
+ v89ar, v89br, v89cr, v89dr,
+ v89er, v89fr, v89gr, v89hr, v89ir, # 民族-國家
+
+ # quantatative supplementary vars
+ v58r, # 自認台灣人程度
+ v59r, # 自認中國人程度
+ # v84ar, # 去大陸次數(1-6)
+
+ #qualitative supplementary vars
+ sex,
+ college, # 大專教育程度
+ camp, # 政黨傾向
+ v71ar, # 中華民族包含台灣原住民
+ v71er, # 中華民族包含台灣居民
+ v75r # 國家領土範圍
+ ))
> #
將無效值剔除(list-wise deletion
)。> tscs2013forMCA.nona <- na.omit(tscs2013forMCA)
> nrow(tscs2013forMCA.nona) [1] 1496
> names(tscs2013forMCA.nona)
> res<-MCA(tscs2013forMCA.nona, ncp=10, quanti.sup=c(23,24),
quali.sup=25: 30, graph= F)
#ncp 10個維次> fviz_screeplot(res, ncp=10)
將其中最重要變數類別(選項)的組合挑出:
> plot(res, axes=c(1, 2), new.plot=TRUE, col.var=“red”,
col.ind=“black”, col.ind.sup=“black”,
col.quali.sup=“darkgreen”, col.quanti.sup=“blue”,
label=c(“var”), cex=0.7,
selectMod = “cos2 30”, #
共52
個選項組合invisible=c(“ind”, “quali.sup”),
xlim=c(-1.2,1.2), ylim=c(-0.6,2), autoLab = “yes”,
# title=“Top 30 Critical Elements on the MCA Factor Map”)
title="")
§
第二維次的代表題:「請問您覺得下列這些歷史事 件是不是很重要,要讓下一代永遠記得?」§
「推翻滿清,建立中華民國」(v54c) 與「八年對日抗戰勝利」(v54d) 一組;
§
「二二八事件」(v54ar)與「美麗島事件、黨外民主運動」(v54br)一組
> # 輔助連續型變數的影響值
> plot(res, axes=c(1, 2), new.plot=TRUE, choix="quanti.sup",
+ col.quanti.sup ="blue", label=c("quanti.sup"),
+ title="Quantitative Supplementary Variables")
受訪者在兩個維度的分佈
> plot(res, axes=c(1, 2), new.plot=TRUE, choix=“ind”, + col.var=“red”, col.quali.sup=“darkgreen”,
+ label=c(“var”), + xlim=c(-1,1),
+ selectMod ="cos2 15", select="cos2 1",
+ invisible=c("quali.sup", "var"),
+ )
第一軸線的代表概念:
民族認同
(中華民族或台灣民族)第二軸線的代表概念:
國家正當性
(接受中華民國與否)世代分佈的差異
> library(factoextra)
> plotellipses(res,
keepvar =
c(“gen.1”,“gen.2”,
"gen.3","gen.4","gen.5"))
4
1 2 3
5
§
從人數的分佈來看(桃紅色的點)§
從每個世代的所在位置來看§
這些點所代表的都是每個選民不太容易移動的 認同與立場。§
不同的認同結構是造成選民、媒體、及政治人 物所說出來的話差異的原因。§
若能解讀這張圖,你就看得出§ 2014年太陽花學運的社會氣氛、
§ 2014年縣市長選舉、
§ 甚至是 2016年選民大致在想什麼、選票在那裡,
以及為什麼政黨推出的競選策略。
維‧持‧現‧狀
以上的所有資訊,都是用
2013
年的資料就可以挖掘出來的的意義哦。若我們2016年再收集一次資料,再來分析一次,你又會看見什麼?要不要一 起來解答「太平”礁“事件對台灣民心的衝擊」呢?
A: 台灣人的中華民國 + 中國人的中華民國。
要如何團結(或分裂)台灣民眾,方法和策略已經浮現。
用傳統民調分析方法,要看出這件事可不容易啊。
現在,若我們能夠將這整套MCA方法用 於瞭解其他民眾的行為…
那我們就發
(現新大陸)了 J
讓問卷題的分析可以像因素分析一樣,選項之間的關係(不只有 題目之間的關係!)可以重新整併出樣貌。
§
在更短時間內掌握民眾的行為圖像;§
發掘出資料背後更豐富的意義§
若大數據分析或大小數據一起來,如虎添翼。3
重新看待民調市調資料的價值
DATA MINING
MEANING
小數據的意義探勘可以是資料科學重要的一環。它將是社科
人及民調 /市調專業者踏入資料科學領域的彩虹橋,也將是資
料科學吸納更多調查及傳播專業人才的磁石。
義的能力和訓練, 發掘意
只是,這種抽取出意義的能力往往是經歷過專業訓練以及對產業及世 界的觀察與思考(以及人生起伏)之後才累積出的能力。基本上可以 透過閱讀及學術訓練取得。高階經理人尤其需要這種訓練與能力。
因此,若要讓開拓性的研究途徑成為資料科學的一環,資料科學家必須 保有科學家open to challenge的精神,虛心地確保每一個分析環節及結 果詮釋都透明,並接受社群的檢驗及論辯。換言之,本講所呈現的,還 未達到所謂的「真相」或「事實」。真相是逐漸被「逼進」而顯示出來 的。沒有人能一步到位,或是一次就宣稱拿到了聖杯。
THICK DATA
(APPROACH)
資料科學中的
厚資料
視野FB: thickdatabarbor/
資料吼
劉正山 csliu@mail.nsysu.edu.tw
§ Blasius, J., & Greenacre, M. (Eds.). (2014). Visualization and
Verbalization of Data. CRC Press.
§ Husson, F., Le, S., & Pages, J. (2010). Exploratory Multivariate
Analysis by Example Using R (1 edition). CRC Press.
§ Pagès, J. (2014). Multiple Factor Analysis by Example Using R (1 edition). Boca Raton: Chapman and Hall/CRC.
§ Pasek, J., Jang, S. M., Cobb, C. L., Dennis, J. M., & Disogra, C.
(2014). Can marketing data aid survey research? Examining accuracy and completeness in consumer-file data. Public
Opinion Quarterly, 78(4), 889–916.
§ Roux, B. L., & Rouanet, H. (2009). Multiple Correspondence
Analysis. SAGE Publications.
§ 範例資料檔(rda)下載:http://jmp.sh/pvLZWYE
§ R操作講義下載:http://jmp.sh/UHJd7OV
同場 加映
如何動手收集價值型的厚資料
§
資料科學家從資料聆聽者(被動爬梳挖來或買 來的數據)轉換為資料創造者(主動收集到被 研究對象價值和偏好)。§
降低資料雜訊及更快速的決策。§
形成社群後可以創造定群追蹤樣本(panel data),產生變數的合併帶來的巨大價值。§
先以小數據作初探(pilot stud),之後再啟動 隨機電話抽樣,將大幅增加推論力度。§
初探階段便可以進行隨機分派實驗(A/A前測、A/B對照),找出意義和印證想法。
微笑小熊調查小棧
[ smilepoll.tw ]
~歡迎學術, 產學及官學合作 &
歡迎跨領域新星申請中山政研究所~