世代之爭爭什麼 ?
談談如何從調查資料挖掘出 豐厚的意義
劉正山
中山大學政治學研究所 副教授 Director, Smilepoll.tw
@台灣資料科學協會年會 2016.7.17
1
話說…
八個月前的自我對話
大數據分析的探索精神
, 小數據的擁有者沒有嗎
?
(OF COURSE YES; WE H AVE IT.)
做實證的社會科學家,理應也能做做不同於描述和假設檢定的事。
調查資料正在貶值中 ?!
一般市場與民意調查只被拿來做簡單描述分析;在學術界則被拿來作理論與假設的檢定。
隨機抽樣的樣本,獲取成本很高(面訪 > 電訪);
商業上的焦點團體與立意抽樣等方法,因為樣本少 而和大數據相形失色。
問卷題(多是類別型變數)看似只能做做描述統計 或兩兩之間的相關分析;技術含金量有限。March 2016. Google watched how people use a phone in a van for over an hour at a time. Goal: complete interviewing 500 people.
WELL…
Google 拿質性訪問來確認大數據中看見的樣貌。但這並 不算是正視問卷調查資料用於意義開發的潛力。
只要問了好問題,並運用探索工具 MCA , 民調市調資料與大數據同樣珍貴。
我們需要有能讓資料分析者發從調查資料中掘出消費者、選民的 價值和偏好組合的探索工具。
2
MCA 方法帶來的新視野
多重對應分析
Multiple Correspondence Analysis ( MCA ) 早在二戰前就出現在歐洲,但其潛力目前尚未 受到社會科學的重視。 2000 左右介紹進美國之 後,已經應用在語言學的研究中,成為該學門 中的重要研究方法( Glynn, et al., 2014; G lynn, & Robinson, 2014 )。商管學門也已在 使用,但並未在國內形成氣候。
最近五年則因為 R 語言及套件的開發,使這個 由法國學者為開發主力的方法經由專書及多個 套件的出版得以在全球資料分析者之間傳開。研究問題:
民眾看似多重的民族、國家、政黨認同之 間,能夠說清楚它們之間的關聯嗎?
我們知道世代之間的政治傾向上不同,到 底怎麼呈現出來才能解答那些是真相,那 些是誤解?
拿國內權威資料來分析
中央研究院社會學研究所執行收集的面訪資料:傅 仰止、章英華、杜素豪、廖培珊主持的「台灣社會 變遷基本調查計畫第六期第四次:國家認同組」。
面訪調查於 2013 年 9 月 22 日至 12 月 10 日執行,於 2014 年 2 月釋出, N=1,952 。 [ 有代表性! ]
這筆資料包含了當前學界所認可的國家認同測量題,如「台灣人 / 中國人認同」、兩岸關係偏好,亦 包含了民族認同題組、條件統獨題組等。
第一次,民調資料可以用這個面貌呈現
在此例中被分析的問卷題(共 30 題)
如果有人問您的祖國是哪裡,請問您會怎麼回答?
請問您覺得下列這些歷史事件是不是很重要,要 讓下一代永遠記得?
目前社會上有人會說自己是台灣人,有人會說自 己是中國人,也有人會說兩者都是。請問您認為 自己是台灣人、中國人還是兩者都是
對於未來台灣與中國大陸的關係,有人主張台灣 獨立,也有人主張與大陸統一。請問您比較贊成 哪一種主張?> install.packages("FactoMineR")
> install.packages("devtools")
> devtools::install_github("kassambara/factoextra")
> library(FactoMineR)
> library(factoextra)
> library(dplyr)
> load("tscs2013.rda")
> tscs2013forMCA <- select(tscs2013,
+ c(# 核心變數 (core vars)
+ gen.1, gen.2, gen.3, gen.4, gen.5, # 世代 + v15r, # 「祖國」是哪裡
+ v54ar, v54br, v54cr, v54dr,# 最有承傳價值的歷史 事件+ v57r, # 台灣人 / 既是台灣人也是中國人 / 其他
+ v61r, # 統獨立場 + v76r, # 國號
+ v89ar, v89br, v89cr, v89dr,
+ v89er, v89fr, v89gr, v89hr, v89ir, # 民族-國 家
+
+ # quantatative supplementary vars + v58r, # 自認台灣人程度
+ v59r, # 自認中國人程度
+ # v84ar, # 去大陸次數(1-6)
+
+ #qualitative supplementary vars + sex,
+ college, # 大專教育程度 + camp, # 政黨傾向
+ v71ar, # 中華民族包含台灣原住民 + v71er, # 中華民族包含台灣居民 + v75r # 國家領土範圍
+ ))
> #
將無效值剔除(list-wise deletion
)。> tscs2013forMCA.nona <- na.omit(tscs2013forMCA)
> nrow(tscs2013forMCA.nona) [1] 1496
> names(tscs2013forMCA.nona)
> res<-MCA(tscs2013forMCA.nona, ncp=10, quanti.sup=c(23,24),
quali.sup=25: 30, graph= F) #ncp
10個維次
> fviz_screeplot(res, ncp=10)
將其中最重要變數類別(選項)的組合挑出:
> plot(res, axes=c(1, 2), new.plot=TRUE, col.var=“red”,
col.ind=“black”, col.ind.sup=“black”,
col.quali.sup=“darkgreen”, col.quanti.sup=“blue”,
label=c(“var”), cex=0.7,
selectMod = “cos2 30”, #
共52
個選項組合
invisible=c(“ind”, “quali.sup”),
xlim=c(-1.2,1.2), ylim=c(-0.6,2),
autoLab = “yes”,
# title=“Top 30 Critical Elements on the MCA Factor Map”)
title="")
顯示最重要變數的組合
注意:構成第二維次( Y 軸)的因素
第二維次的代表題:「請問您覺得下列這些歷史事 件是不是很重要,要讓下一代永遠記得?」
「推翻滿清,建立中華民國」 (v54c) 與「八年對日抗戰勝利」 (v54d) 一組;
「二二八事件」( v54ar )與「美麗島事件、黨外民主運動」( v54br )一組
> # 輔助連續型變數的影響值
> plot(res, axes=c(1, 2), new.plot=TRUE, choix="quanti.sup",
+
col.quanti.sup
="blue", label=c("quanti.sup"),+ title="Quantitative Supplementary Variables")
受訪者在兩個維度的分佈
> plot(res, axes=c(1, 2), new.plot=TRUE, choix=“ind”, + col.var=“red”, col.quali.sup=“darkgreen”,
+ label=c(“var”), + xlim=c(-1,1),
+
selectMod ="cos2 15", select="cos2 1",
+
invisible=c("quali.sup", "var"),
+ )
接下來,為概念命名
第一軸線的代表概念:
民族認同
(中華民族或台灣民族)
第二軸線的代表概念:
國家正當性
(接受中華民國與否)
1
位於第一象限的民眾特徵:
第二世代
政黨傾向為藍營 [ 不在第四象限? ]
不認為「二二八事件」是重要歷史事件
不認為「美麗島事件、黨外民主運動」是重要 歷史事件
無大專教育程度
男性2
位於第二象限的民眾特徵 :
政黨傾向為綠營以及「中間/不表態 / 其他」
認為自己的祖國是台灣(不是中華民國、中國或其他)
認為自己是台灣人(不是中國人亦非都是)
認為國土不包含中國大陸
認為國家現在名字應該叫作台灣
不同意「中華民族本來就包含很多族群,不應分離」
不同意「台灣人的祖先就是黃帝,我們要繼承這樣的血統與歷史」
不同意「作為華夏子孫,我們在國際上應該盡力將中華文化發揚光大」
不同意「不管台灣發生任何問題,我都一定會挺它到底,絕對不會想要 移民到國外」
3
位於第三象限的民眾特徵 :
第五世代 [ 不在第二象限 ]
有大專學歷
「維持現狀,以後走向獨立」
如果台灣獨立不會引起戰爭,就應該宣佈獨立
二二八事件、美麗島事件及黨外民主運動算是 歷史上的重要、值得永遠被記得的事件
如果大陸在經濟、社會、政治方面的發展跟台 灣差不多,兩岸也不應該統一4
位於第四象限的民眾特徵 :
自己是台灣人也是中國人
國家現在叫作中華民國比較適合
中華民國是祖國
兩岸維持現狀,以後走向統一
「推翻滿清,建立中華民國」與「八年對日抗戰勝利」很重要,
要讓下一代永遠記得。
「台灣人的祖先就是黃帝,我們要繼承這樣的血統與歷史」
「中華民族本來就包含很多族群,不應該分離」
「不管台灣發生任何問題,我都一定會挺它到底,絕對不會想要 移民到國外」
「作為華夏子孫,我們在國際上應該盡力將中華文化發揚光大」
即使台灣獨立不會引起戰爭,也不該宣佈獨立。
世代之爭爭什麼?
我們來點出不同世代在兩個維度上的分佈差異
世代分佈的差異
> library(factoextra)
> plotellipses(res, keepvar =
c(“gen.1”,“gen.2”,
"gen.3","gen.4","gen.5"))
4
1 2 3
5
你能看見什麼?
從人數的分佈來看(桃紅色的點)
從每個世代的所在位置來看
這些點所代表的都是每個選民不太容易移動的 認同與立場。
不同的認同結構是造成選民、媒體、及政治人 物所說出來的話差異的原因。小數據也能預測 & 協助決策
若能解讀這張圖,你就看得出
2014 年太陽花學運的社會氣氛、
2014 年縣市長選舉、
甚至是 2016 年選民大致在想什麼、選票在那裡,以及為什麼政黨推出的競選策略。
你知道我在暗示什麼嗎?
http://news.ltn.com.tw/news/politics/breakingnews/1559909
在看懂這個世代差異圖之前,你 或許會跟著一起檢討這廣告;但 現在的你是否多了一些了然?
…
選民在那裡,競選團隊就用他們的語言來呼喚他們 可不一定是你。
再看一眼,猜猜看:
什麼是最能爭取到多數選民接受的政治語言
?
維‧持‧現‧狀
你說
「這去年我就知道了,沒什麼了不起」以上的所有資訊,都是用
2013
年的資料就可以挖掘出來的的意義哦。若我們 2016 年再收集一次資料,再來分析一次,你又會看見什麼?要不要一起
” “
來解答「太平 礁 事件對台灣民心的衝擊」呢?
那麼問難一點的題目,我問:
「這些多數選民,認同什麼?」
A: 台灣人的中華民國 + 中國人的中華民國。
要如何團結(或分裂)台灣民眾,方法和策略已經浮現。
用傳統民調分析方法,要看出這件事可不容易啊。
第二世代已開始懷疑他們曾經認定的中華民國
,而年輕世代(第五世代以後)已重新定義中 華民國。
舉一反三
現在,若我們能夠將這整套 MCA 方法用 於瞭解其他民眾的行為…
那我們就發
(現新大陸)了
MCA 最特別的地方
讓問卷題的分析可以像因素分析一樣,選項之間的關係(不只有 題目之間的關係!)可以重新整併出樣貌。
運用 MCA 於研究、行銷、服務
在更短時間內掌握民眾的行為圖像;
發掘出資料背後更豐富的意義
若大數據分析或大小數據一起來,如虎添翼。Let’s think about this approach of mixed mode research,
again.
3
重新看待民調市調資料的價值
新一代的「厚」資料收集流程
一:以探索的角度設計問卷 [ 關鍵 & 最 難 ]
二:收集資料(面訪、電話、網路)
三:描述資料
四:分析、視覺化 & 判讀(說故事)
[ 新 !]
動機
市調與行銷的資料科學家,除了「描述」和「解釋」,現在開始
,可以加上「探索」
發問
將幾想知道的面向轉為題組,是的,聽起來簡單。
but 你真的是那個能夠指出國王新衣的好奇寶寶嗎?
分析
用 MCA 發掘關聯,你從小數據看到的樣貌,跟使用大數據分析所 看見的,會產生高度互補效果。
詮釋
盯著客觀的資料分析結果,把你看見的故事和意義說出來。
這必需要回到你對於自己問的問題瞭解的程度,以及自己專業領 域訓練的視野。
結語:
LET’S THINK AGAIN:
DATA MINING FOR WHAT?
PATTERNS & MEANING
!
小數據的意義探勘可以是資料科學重要的一環。它將是社科 人及民調 / 市調專業者踏入資料科學領域的彩虹橋,也將是 資料科學吸納更多調查及傳播專業人才的磁石。
當資料取得及技術變得平民化,發掘意 義的能力和訓練,將變得與技術能力的 訓練一樣重要。
只是,這種抽取出意義的能力往往是經歷過專業訓練以及對產業及世 界的觀察與思考(以及人生起伏)之後才累積出的能力。基本上可以 透過閱讀及學術訓練取得。高階經理人尤其需要這種訓練與能力。
要注意的是,除了呈現分析結果這個步驟之 外,整個研究過程非常主觀。而這正是大數 據分析的知識論立場,無可厚非。
因此,若要讓開拓性的研究途徑成為資料科學的一環,資料科學家必須保有科學家 ope n to challenge 的精神,虛心地確保每一個分析環節及結果詮釋都透明,並接受社群 的檢驗及論辯。換言之,本講所呈現的,還未達到所謂的「真相」或「事實」。真相是 逐漸被「逼進」而顯示出來的。沒有人能一步到位,或是一次就宣稱拿到了聖杯。
THICK DATA
(APPROACH)
資料科學中的
厚資料
視野FB: thickdatabarbor/
資料吼
野人獻曝 歡迎見笑 & 拜託指教
I do hope this thick data approach and the application of MCA are more than just interesting to you.
非常感謝全球 R 社群的奉獻,以及國內資料科學社群的努力!
劉正山 csliu@mail.nsysu.edu.tw
參考資料
Blasius, J., & Greenacre, M. (Eds.). (2014).
Visualization and Verbalization of Data. CRC Press.
Husson, F., Le, S., & Pages, J. (2010).
Exploratory Multiv ariate Analysis by Example Using R(1 edition). CRC Press.
Pagès, J. (2014).
Multiple Factor Analysis by Example Usin g R(1 edition). Boca Raton: Chapman and Hall/CRC.
Pasek, J., Jang, S. M., Cobb, C. L., Dennis, J. M., & Diso gra, C. (2014). Can marketing data aid survey research? Ex amining accuracy and completeness in consumer-file data.
P ublic Opinion Quarterly,
78(4), 889–916.
Roux, B. L., & Rouanet, H. (2009).
Multiple Correspondence Analysis. SAGE Publications.
資料檔及講義
範例資料檔 (rda) 下載:
http://jmp.sh/pvLZWYE
R 操作講義下載:
http://jmp.sh/UHJd7OV
同場 加映
如何動手收集價值型的厚資料
傳統的長條圖和圓餅圖
透過問受訪者更深刻的問題,我們可以從調 查資料中發掘更多的可能樣貌。
一般民調市調會偏重於詢問行為面及偏好的問題,但我們還可以 問出更多關於價值觀的問題。
你有想過,台灣民眾對於「獨立」的定義有很多種,而且很可能沒有什麼共識嗎?
看懂了之後,
你的發問可以天馬行空繼續下去
你會發現,問卷調查其實是可以讓你打造出專屬於自己研 究領域厚資料礦脈的神器。
打造自己的社群網調平台的好處
資料科學家從資料聆聽者(被動爬梳挖來或買 來的數據)轉換為資料創造者(主動收集到被 研究對象價值和偏好)。
降低資料雜訊及更快速的決策。
形成社群後可以創造定群追蹤樣本( panel dat a ),產生變數的合併帶來的巨大價值。
先以小數據作初探( pilot stud ),之後再啟 動隨機電話抽樣,將大幅增加推論力度。
初探階段便可以進行隨機分派實驗( A/A 前測、 A/B 對照),找出意義和印證想法。
微笑小熊調查小棧
[ smilepoll.tw ]
我們的政治科學 + 資訊管理 + 行銷管理團隊 致力於發問及厚資料意義探勘的訓練及應用
~歡迎學術 , 產學及官學合作 & 歡迎跨領域新星申請中山政治學研究所 ~ littlesmilebear@gmail.com