世代之爭爭什麼 ?

(1)

世代之爭爭什麼 ?

使用R套件探索民意調查資料的意義

劉正山

中山大學政治學研究所教授 Director, Smilepoll.tw

@ R Taiwan 2016 2016.12.23

(2)

1

一年前的自我對話話說…

(3)

做實證的社會科學家，理應也能做做不同於描述和假設檢定的事。

(4)

§

一般市場與民意調查只被拿來做簡單描述分析；

在學術界則被拿來作理論與假設的檢定。

§

隨機抽樣的樣本，獲取成本很高（面訪>電訪）；

§

商業上的焦點團體與立意抽樣等方法，因為樣本少而和大數據相形失色。

§

問卷題（多是類別型變數）看似只能做做描述統計或兩兩之間的相關分析；技術含金量有限。

(5)

我們需要有能讓資料分析者發從調查資料中掘出消費者、選民的價值和偏好組合的探索工具。

(6)

2

MCA 方法帶來的新視野

(7)

§

Multiple Correspondence Analysis （MCA）

早在二戰前就出現在歐洲，但其潛力目前尚未受到社會科學的重視。2000左右介紹進美國之後，已經應用在語言學的研究中，成為該學門中的重要研究方法（Glynn, et al., 2014; Glynn,

& Robinson, 2014）。商管學門也已在使用，

但並未在國內形成氣候。

§

最近五年則因為R語言及套件的開發，使這個由法國學者為開發主力的方法經由專書及多個套件的出版得以在全球資料分析者之間傳開。

(8)

(9)

(10)

民眾看似多重的民族、國家、政黨認同之間，能夠說清楚它們之間的關聯嗎？

我們知道世代之間的政治傾向上不同，

到底怎麼呈現出來才能解答那些是真相，

那些是誤解？

(11)

§

中央研究院社會學研究所執行收集的面訪資料：

傅仰止、章英華、杜素豪、廖培珊主持的「台灣社會變遷基本調查計畫第六期第四次：國家認同組」。

§

面訪調查於2013年9月22日至12月10日執行，

於2014年2月釋出，N=1,952。[有代表性！]

§

這筆資料包含了當前學界所認可的國家認同測量題，如「台灣人/中國人認同」、兩岸關係偏好，亦包含了民族認同題組、條件統獨題組等。

(12)

第一次，民調資料可以用這個面貌呈現

(13)

§

如果有人問您的祖國是哪裡，請問您會怎麼回答？

§

請問您覺得下列這些歷史事件是不是很重要，要讓下一代永遠記得？

§

目前社會上有人會說自己是台灣人，有人會說自己是中國人，也有人會說兩者都是。請問您認為自己是台灣人、中國人還是兩者都是

§

對於未來台灣與中國大陸的關係，有人主張台灣獨立，也有人主張與大陸統一。請問您比較贊成哪一種主張？

(14)

(15)

(16)

(17)

> install.packages("FactoMineR")

> install.packages("devtools")

> devtools::install_github("kassambara/factoextra")

> library(FactoMineR)

> library(factoextra)

> library(dplyr)

(18)

> load("tscs2013.rda")

> tscs2013forMCA <- select(tscs2013,

+ c(# 核心變數 (core vars)

+ gen.1, gen.2, gen.3, gen.4, gen.5, # 世代

+ v15r, #「祖國」是哪裡

+ v54ar, v54br, v54cr, v54dr,#最有承傳價值的歷史事件

+ v57r, #台灣人/既是台灣人也是中國人/其他

+ v61r, # 統獨立場

+ v76r, # 國號

+ v89ar, v89br, v89cr, v89dr,

+ v89er, v89fr, v89gr, v89hr, v89ir, # 民族－國家

+

+ # quantatative supplementary vars

+ v58r, # 自認台灣人程度

+ v59r, # 自認中國人程度

+ # v84ar, # 去大陸次數（１－６）

+

+ #qualitative supplementary vars

+ sex,

+ college, # 大專教育程度

+ camp, # 政黨傾向

+ v71ar, # 中華民族包含台灣原住民

+ v71er, # 中華民族包含台灣居民

+ v75r # 國家領土範圍

+ ))

(19)

> #

將無效值剔除（

list-wise deletion

）。

> tscs2013forMCA.nona <- na.omit(tscs2013forMCA)

> nrow(tscs2013forMCA.nona) [1] 1496

> names(tscs2013forMCA.nona)

> res<-MCA(tscs2013forMCA.nona, ncp=10, quanti.sup=c(23,24),

quali.sup=25: 30, graph= F)

^{#ncp 10個維次}

(20)

> fviz_screeplot(res, ncp=10)

(21)

將其中最重要變數類別（選項）的組合挑出：

> plot(res, axes=c(1, 2), new.plot=TRUE, col.var=“red”,

col.ind=“black”, col.ind.sup=“black”,

col.quali.sup=“darkgreen”, col.quanti.sup=“blue”,

label=c(“var”), cex=0.7,

selectMod = “cos2 30”, #

共

₅₂

個選項組合

invisible=c(“ind”, “quali.sup”),

xlim=c(-1.2,1.2), ylim=c(-0.6,2), autoLab = “yes”,

# title=“Top 30 Critical Elements on the MCA Factor Map”)

title="")

(22)

(23)

(24)

§

第二維次的代表題：「請問您覺得下列這些歷史事件是不是很重要，要讓下一代永遠記得？」

§

「推翻滿清，建立中華民國」(v54c) 與

「八年對日抗戰勝利」(v54d) 一組；

§

「二二八事件」（v54ar）與

「美麗島事件、黨外民主運動」（v54br）一組

(25)

> # 輔助連續型變數的影響值

> plot(res, axes=c(1, 2), new.plot=TRUE, choix="quanti.sup",

+ col.quanti.sup ="blue", label=c("quanti.sup"),

+ title="Quantitative Supplementary Variables")

(26)

受訪者在兩個維度的分佈

> plot(res, axes=c(1, 2), new.plot=TRUE, choix=“ind”, + col.var=“red”, col.quali.sup=“darkgreen”,

+ label=c(“var”), + xlim=c(-1,1),

+ selectMod ="cos2 15", select="cos2 1",

+ invisible=c("quali.sup", "var"),

+ )

(27)

第一軸線的代表概念：

民族認同

（中華民族或台灣民族）

第二軸線的代表概念：

國家正當性

^{（接受中華民國與否）}

(28)

世代分佈的差異

> library(factoextra)

> plotellipses(res,

keepvar =

c(“gen.1”,“gen.2”,

"gen.3","gen.4","gen.5"))

(29)

4 1 2 3

5

(30)

§

從人數的分佈來看（桃紅色的點）

§

從每個世代的所在位置來看

§

這些點所代表的都是每個選民不太容易移動的認同與立場。

§

不同的認同結構是造成選民、媒體、及政治人物所說出來的話差異的原因。

(31)

§

若能解讀這張圖，你就看得出

§ 2014年太陽花學運的社會氣氛、

§ 2014年縣市長選舉、

§ 甚至是 2016年選民大致在想什麼、選票在那裡，

以及為什麼政黨推出的競選策略。

(32)

(33)

維‧持‧現‧狀

(34)

以上的所有資訊，都是用

2013

年的資料就可以挖掘出來的的意義哦。

若我們2016年再收集一次資料，再來分析一次，你又會看見什麼？要不要一起來解答「太平”礁“事件對台灣民心的衝擊」呢？

(35)

A: 台灣人的中華民國 + 中國人的中華民國。

要如何團結（或分裂）台灣民眾，方法和策略已經浮現。

(36)

用傳統民調分析方法，要看出這件事可不容易啊。

(37)

現在，若我們能夠將這整套MCA方法用於瞭解其他民眾的行為…

(38)

那我們就發

^{（現新大陸）}

了 J

(39)

讓問卷題的分析可以像因素分析一樣，選項之間的關係（不只有題目之間的關係！）可以重新整併出樣貌。

(40)

§

在更短時間內掌握民眾的行為圖像；

§

發掘出資料背後更豐富的意義

§

若大數據分析或大小數據一起來，如虎添翼。

(41)

3

重新看待民調市調資料的價值

(42)

DATA MINING

(43)

MEANING

小數據的意義探勘可以是資料科學重要的一環。它將是社科

人及民調 /市調專業者踏入資料科學領域的彩虹橋，也將是資

料科學吸納更多調查及傳播專業人才的磁石。

(44)

義的能力和訓練，發掘意

只是，這種抽取出意義的能力往往是經歷過專業訓練以及對產業及世界的觀察與思考（以及人生起伏）之後才累積出的能力。基本上可以透過閱讀及學術訓練取得。高階經理人尤其需要這種訓練與能力。

(45)

因此，若要讓開拓性的研究途徑成為資料科學的一環，資料科學家必須保有科學家open to challenge的精神，虛心地確保每一個分析環節及結果詮釋都透明，並接受社群的檢驗及論辯。換言之，本講所呈現的，還未達到所謂的「真相」或「事實」。真相是逐漸被「逼進」而顯示出來的。沒有人能一步到位，或是一次就宣稱拿到了聖杯。

(46)

THICK DATA

(APPROACH)

資料科學中的

厚資料

^視野

FB: thickdatabarbor/

資料吼

(47)

劉正山 [email protected]

(48)

§ Blasius, J., & Greenacre, M. (Eds.). (2014). Visualization and

Verbalization of Data. CRC Press.

§ Husson, F., Le, S., & Pages, J. (2010). Exploratory Multivariate

Analysis by Example Using R (1 edition). CRC Press.

§ Pagès, J. (2014). Multiple Factor Analysis by Example Using R (1 edition). Boca Raton: Chapman and Hall/CRC.

§ Pasek, J., Jang, S. M., Cobb, C. L., Dennis, J. M., & Disogra, C.

(2014). Can marketing data aid survey research? Examining accuracy and completeness in consumer-file data. Public

Opinion Quarterly, 78(4), 889–916.

§ Roux, B. L., & Rouanet, H. (2009). Multiple Correspondence

Analysis. SAGE Publications.

(49)

§ 範例資料檔(rda)下載：http://jmp.sh/pvLZWYE

§ R操作講義下載：http://jmp.sh/UHJd7OV

(50)

同場加映

如何動手收集價值型的厚資料

(51)

§

資料科學家從資料聆聽者（被動爬梳挖來或買來的數據）轉換為資料創造者（主動收集到被研究對象價值和偏好）。

§

降低資料雜訊及更快速的決策。

§

形成社群後可以創造定群追蹤樣本（panel data），產生變數的合併帶來的巨大價值。

§

先以小數據作初探（pilot stud），之後再啟動隨機電話抽樣，將大幅增加推論力度。

§

初探階段便可以進行隨機分派實驗（A/A前測、

A/B對照），找出意義和印證想法。

(52)

(53)

微笑小熊調查小棧

[ smilepoll.tw ]

~歡迎學術, 產學及官學合作 &

歡迎跨領域新星申請中山政研究所~