世代之爭爭什麼 ?
從探索的角度
發掘以問卷調查資料 進行意義探勘的潛力
劉正山
中山大學政治學研究所 教授 Director, Smilepoll.tw 中研院 調查研究專題中心
1
一年多前的自我對話話說…
2
研究問題與探索
3
MCA 方法帶來的新視野
4
世代之爭爭什麼?
我們來點出不同世代在兩個維度上的分佈差異
5
如何動手收集價值型的厚資料
1
一年多前的自我對話話說…
做實證的社會科學家,理應也能做做不同於描述和假設檢定的事。
§ 一般市場與民意調查只被拿來做簡單描述分析;
在學術界則被拿來作理論與假設的檢定。
§ 隨機抽樣的樣本,獲取成本很高(面訪 >電訪);
§ 商業上的焦點團體與立意抽樣等方法,因為樣 本少而和大數據相形失色。
§ 問卷題(多是類別型變數)看似只能做做描述
統計或兩兩之間的相關分析;技術含金量有限。
March 2016. Google watched how people use a phone in a van for over an hour at a time. Goal: complete interviewing 500 people.
Google 拿質性訪問來確認大數據中看見的樣貌。但這並 不算是正視問卷調查資料用於意義開發的潛力。
我們需要有能讓資料分析者發從調查資料中掘出消費者、選民的 價值和偏好組合的探索工具。
2
研究問題與探索
§ 國家:國號台灣或中華民國?
§ 民族/族群: 台灣人、中國人、都是?
§ 兩岸的未來:統一、台灣獨立、維持現狀?
§ 還有許多相關的測量題,例如條件統獨、疆域、歷史記憶等
概念與測量的瓶頸:民族?國家? nation-state?
我們在測量民族與國家的時候,手上的 測量工具是準確的嗎?
我們知道世代之間的政治傾向上不同,
到底怎麼呈現出來才能解答那些是真相,
那些是誤解?
看似客觀的研究但充滿了主觀的預設
「台灣人 /中國人/都是」還是「統/獨/維持現狀」還是…
§ 由下而上「探索」測量題背後的概念
§ 試著釐清這些測量題背後的概念
§ 透過這些概念重新檢視我們的選民認同分佈
§ 本研究先選擇年齡/世代來觀察
3
MCA 方法帶來的新視野
§ Multiple Correspondence Analysis (MCA)
早在二戰前就出現在歐洲,但其潛力目前尚未 受到社會科學的重視。 2000左右介紹進美國之 後,已經應用在 語言學 的研究中,成為該學門 中的重要研究方法( Glynn, et al., 2014; Glynn,
& Robinson, 2014)。商管學門也已在使用,
但並未在國內形成氣候。
§ 最近五年則因為 R語言及套件的開發,使這個由
法國學者為開發主力的方法經由專書及多個套
件的出版得以在全球資料分析者之間傳開。
讓問卷題的分析可以像因素分析一樣,選項之間的關係(不只有 題目之間的關係!)可以重新整併出樣貌。
§ 在更短時間內掌握民眾的行為圖像;
§ 發掘出資料背後更豐富的意義
§ 若大數據分析或大小數據一起來,如虎添翼。
§ 中央研究院社會學研究所執行收集的面訪資料:
傅仰止、章英華、杜素豪、廖培珊主持的「台 灣社會變遷基本調查計畫第六期第四次:國家 認同組」。
§ 面訪調查於 2013年9月22日至12月10日執行,
於 2014年2月釋出 , N=1,952 。 [ 有代表性! ]
§ 這筆資料包含了當前學界所認可的國家認同測
量題,如「台灣人 /中國人認同」、兩岸關係偏
好,亦包含了民族認同題組、條件統獨題組等。
§ 第一世代(出生於1931年前):1949年前後見證了台灣族群的對立;
§ 第二世代(1932與1953年之間出生)在1949與1971年間見證了外交困境;
§ 第三世代(1954與1968年生),在1986至1996年間見證了台灣經濟的起飛;
§ 第四世代(1979至1989年間出生)於1986年至1996年間見證了學運及民主化
§ 第五世代(1979至1988年間出生)經歷了1996年台海飛彈危機及政黨輪替;
§ 第六世代(1989年之後出生)經歷了第二、三次政黨輪替及太陽花學運。
§ 當前學界所認可的國家認同測量題,如「台灣人/中國人/都是」、
兩岸關係偏好、民族認同題組
§ 特別是條件統獨題組:
§ 「有人認為,如果台灣獨立不會引起戰爭,就應該宣佈獨立。請問您同 不同意?」
§ 「有人認為,如果大陸在經濟、社會、政治方面的發展跟台灣差不多,
兩岸就應該統一。請問您同不同意?」
§ 完整題組
第一次,民調資料可以用這個面貌呈現
§ 如果有人問您的祖國是哪裡,請問您會怎麼回答?
§ 請問您覺得下列這些歷史事件是不是很重要,要 讓下一代永遠記得?
§ 目前社會上有人會說自己是台灣人,有人會說自 己是中國人,也有人會說兩者都是。請問您認為 自己是台灣人、中國人還是兩者都是
§ 對於未來台灣與中國大陸的關係,有人主張台灣
獨立,也有人主張與大陸統一。請問您比較贊成
哪一種主張?
> install.packages("FactoMineR")
> install.packages("devtools")
> devtools::install_github("kassambara/factoextra")
> library(FactoMineR)
> library(factoextra)
> library(dplyr)
> load("tscs2013.rda")
> tscs2013forMCA <- select(tscs2013,
+ c(# 核心變數 (core vars)
+ gen.1, gen.2, gen.3, gen.4, gen.5, # 世代
+ v15r, #「祖國」是哪裡
+ v54ar, v54br, v54cr, v54dr,#最有承傳價值的歷史事件
+ v57r, #台灣人/既是台灣人也是中國人/其他
+ v61r, # 統獨立場
+ v76r, # 國號
+ v89ar, v89br, v89cr, v89dr,
+ v89er, v89fr, v89gr, v89hr, v89ir, # 民族-國家
+
+ # quantatative supplementary vars
+ v58r, # 自認台灣人程度
+ v59r, # 自認中國人程度
+ # v84ar, # 去大陸次數(1-6)
+
+ #qualitative supplementary vars
+ sex,
+ college, # 大專教育程度
+ camp, # 政黨傾向
+ v71ar, # 中華民族包含台灣原住民
+ v71er, # 中華民族包含台灣居民
+ v75r # 國家領土範圍
+ ))
> # 將無效值剔除( list-wise deletion )。
> tscs2013forMCA.nona <- na.omit(tscs2013forMCA)
> nrow(tscs2013forMCA.nona) [1] 1496
> names(tscs2013forMCA.nona)
> res<-MCA(tscs2013forMCA.nona, ncp=10, quanti.sup=c(23,24),
quali.sup=25: 30, graph= F)
#ncp 10個維次> fviz_screeplot(res, ncp=10)
將其中最重要變數類別(選項)的組合挑出:
> plot(res, axes=c(1, 2), new.plot=TRUE, col.var=“red”,
col.ind=“black”, col.ind.sup=“black”,
col.quali.sup=“darkgreen”, col.quanti.sup=“blue”,
label=c(“var”), cex=0.7,
selectMod = “cos2 30”, # 共 52 個選項組合 invisible=c(“ind”, “quali.sup”),
xlim=c(-1.2,1.2), ylim=c(-0.6,2), autoLab = “yes”,
# title=“Top 30 Critical Elements on the MCA Factor Map”) title="")
§ 第二維次的代表題:「請問您覺得下列這些歷史事 件是不是很重要,要讓下一代永遠記得?」
§ 「推翻滿清,建立中華民國」 (v54c) 與
「八年對日抗戰勝利」 (v54d) 一組;
§ 「二二八事件」( v54ar)與
「美麗島事件、黨外民主運動」( v54br)一組
> # 輔助連續型變數的影響值
> plot(res, axes=c(1, 2), new.plot=TRUE, choix="quanti.sup", +
col.quanti.sup
="blue", label=c("quanti.sup"), + title="Quantitative Supplementary Variables")受訪者在兩個維度的分佈
> plot(res, axes=c(1, 2), new.plot=TRUE, choix=“ind”, + col.var=“red”, col.quali.sup=“darkgreen”,
+ label=c(“var”), + xlim=c(-1,1),
+
selectMod ="cos2 15", select="cos2 1",
+
invisible=c("quali.sup", "var"),
+ )
第一軸線的代表概念:
民族認同
(中華民族或台灣民族)第二軸線的代表概念:
國家正當性
(接受中華民國與否)1
§ 第二世代
§ 政黨傾向為藍營 [不在第四象限?]
§ 不認為「二二八事件」是重要歷史事件
§ 不認為「美麗島事件、黨外民主運動」是重要 歷史事件
§ 無大專教育程度
§ 男性
2
§
政黨傾向為綠營以及「中間/不表態/其他」
§
認為自己的祖國是台灣(不是中華民國、中國或其他)
§
認為自己是台灣人(不是中國人亦非都是)
§
認為國土不包含中國大陸
§
認為國家現在名字應該叫作台灣
§
不同意「中華民族本來就包含很多族群,不應分離」
§
不同意「台灣人的祖先就是黃帝,我們要繼承這樣的血統與歷史」
§
不同意「作為華夏子孫,我們在國際上應該盡力將中華文化發揚光大」
§
不同意「不管台灣發生任何問題,我都一定會挺它到底,絕對不會想要
移民到國外」
3
§ 第五世代 [不在第二象限]
§ 有大專學歷
§ 「維持現狀,以後走向獨立」
§ 如果台灣獨立不會引起戰爭,就應該宣佈獨立
§ 二二八事件、美麗島事件及黨外民主運動算是 歷史上的重要、值得永遠被記得的事件
§ 如果大陸在經濟、社會、政治方面的發展跟台
灣差不多,兩岸也不應該統一
4
§ 自己是台灣人也是中國人
§ 國家現在叫作中華民國比較適合
§
中華民國是祖國
§
兩岸維持現狀,以後走向統一
§ 「推翻滿清,建立中華民國」與「八年對日抗戰勝利」很重要,
要讓下一代永遠記得。
§
「台灣人的祖先就是黃帝,我們要繼承這樣的血統與歷史」
§
「中華民族本來就包含很多族群,不應該分離」
§
「不管台灣發生任何問題,我都一定會挺它到底,絕對不會想要 移民到國外」
§
「作為華夏子孫,我們在國際上應該盡力將中華文化發揚光大」
§
即使台灣獨立不會引起戰爭,也不該宣佈獨立。
4
世代之爭爭什麼?
我們來點出不同世代在兩個維度上的分佈差異
世代分佈的差異
> library(factoextra)
> plotellipses(res,
keepvar =
c(“gen.1”,“gen.2”,
"gen.3","gen.4","gen.5"))
4
1 2 3
5
§ 從人數的分佈來看(桃紅色的點)
§ 從每個世代的所在位置來看
§ 這些點所代表的都是每個選民不太容易移動的 認同與立場。
§ 不同的認同結構是造成選民、媒體、及政治人
物所說出來的話差異的原因。
§ 若能解讀這張圖,你就看得出
§ 2014年太陽花學運的社會氣氛、
§ 2014年縣市長選舉、
§ 甚至是 2016年選民大致在想什麼、選票在那裡,
以及為什麼政黨推出的競選策略。
維‧持‧現‧狀
A: 台灣人的中華民國 + 中國人的中華民國。
用傳統民調分析方法,要看出這件事可不容易啊。
§ 當前所使用的主要的用來測量「國家認同」的題目,包括台灣人/ 中國人、統獨立場、條件統獨,乃至國號選擇等題目,多屬於同一 個維次「民族」的概念。
§ 「對中華民國正當性的認同」是個與民族認同分立的概念。
§ 傳統的統獨題在本研究的三十道題目中,既不算是民族認同這個概 念的主要構成因子,也無法對應到任何民族認同之外的概念。吳乃 德(2005)所倡議的條件統獨題組則如預期,反映了受訪者的民 族認同。
§ 在2013年時「中華民國的正當性」並未明顯消退,但已浮現「一 個中華民國,不同世代各自表述」的樣貌。
§ 第一、二世代或可以說是「天然統」(結合中華民族主義的中華民 國史觀認同),
§ 但第五世代的並不算是「天然獨」,因為就認同中華民國的正當性 對他們來說並不弱於對其於他世代。
§ 「台灣人的中華民國」(而非台灣人的台灣國)是第四、五世代最 鮮明的國家認同觀,與第二世代「中華民國是全體中國人的中華民 國」對比強烈。
§ 收集第六世代的資料;
§ 國內選舉調查多以「合格選民」(20歲)為訪問對象,因此本研究無法 觀察到更年輕的民眾。經查該筆資料中並無1989年後出生(即受訪時 24歲以下)的受訪者。
§ 需要取得2014年到2016年之間,的資料,分析各個世代經歷學運 以及第三次政黨輪替時認同變化的樣貌。
§ 兩個維次的命名及標籤問題( 本研究目前還無法確切為第二維次 貼上準確的標籤,只能以「中華民國正當性」暫稱 )
§ 期待更多(有創意的)測量題加入潛在概念探索的行列。
5
如何動手收集價值型的厚資料
一般民調市調會偏重於詢問行為面及偏好的問題,但我們還可以 問出更多關於價值觀的問題。
你有想過,台灣民眾對於「獨立」的定義有很多種,而且很可能沒有什麼共識嗎?
你會發現,問卷調查其實是可以讓你打造出專屬於自己研 究領域厚資料礦脈的神器。
微笑小熊調查小棧
[ smilepoll.tw ]
我們的政治科學+資訊管理+行銷管理團隊 致力於發問及厚資料意義探勘的訓練及應用
~歡迎學術, 產學及官學合作 & 歡迎跨領域新星申請中山政治學研究所~
littlesmilebear@gmail.com
§ 資料科學家從資料聆聽者(被動爬梳挖來或買 來的數據)轉換為資料創造者(主動收集到被 研究對象價值和偏好)。
§ 降低資料雜訊及更快速的決策。
§ 形成社群後可以創造定群追蹤樣本( panel data),產生變數的合併帶來的巨大價值。
§ 先以小數據作初探( pilot stud),之後再啟動 隨機電話抽樣,將大幅增加推論力度。
§ 初探階段便可以進行隨機分派實驗( A/A前測、
A/B對照),找出意義和印證想法。
6
可否用電話及網路資料進行探索?
可以看到什麼?效果如何?
§ F2F Survey: Taiwan Social Change Survey 2013 (n=1,952) -- 上述使用的面訪資料
§ CATI Telephone survey 2015 (n=1,100)
§ Web panel 2015-2016 (n=468)
有待我們進一步探索與打磨
The commonly used simple "unification/independence”
question can NOT be grouped into any of the top 10 dimensions.
TSCS2013
I do hope this thick data approach and the application of MCA are more than just interesting to you.
非常感謝全球R社群的奉獻,以及國內資料科學社群的努力!
劉正山 csliu@mail.nsysu.edu.tw
THICK DATA
(APPROACH)
資料科學中的
厚資料
視野FB: thickdatabarbor/
資料吼
§ Blasius, J., & Greenacre, M. (Eds.). (2014). Visualization and
Verbalization of Data. CRC Press.
§ Husson, F., Le, S., & Pages, J. (2010). Exploratory Multivariate
Analysis by Example Using R (1 edition). CRC Press.
§ Pagès, J. (2014). Multiple Factor Analysis by Example Using R (1 edition). Boca Raton: Chapman and Hall/CRC.
§ Pasek, J., Jang, S. M., Cobb, C. L., Dennis, J. M., & Disogra, C.
(2014). Can marketing data aid survey research? Examining accuracy and completeness in consumer-file data. Public
Opinion Quarterly, 78(4), 889–916.
§ Roux, B. L., & Rouanet, H. (2009). Multiple Correspondence
Analysis. SAGE Publications.
同場 加映
從探索的角度重新發掘民調市 調資料在意義探勘上的潛力
§ 一:以探索的角度設計問卷 [關鍵 & 最難]
§ 二:收集資料(面訪、電話、網路)
§ 三:描述資料
§ 四:分析、視覺化 & 判讀(說故事)[新!]
市調與行銷的資料科學家,除了「描述」和「解釋」,現在開始,
可以加上「探索」
將幾想知道的面向轉為題組,是的,聽起來簡單。
but 你真的是那個能夠指出國王新衣的好奇寶寶嗎?
用MCA發掘關聯,你從小數據看到的樣貌,跟使用大數據分析所 看見的,會產生高度互補效果。
盯著客觀的資料分析結果,把你看見的故事和意義說出來。
這必需要回到你對於自己問的問題瞭解的程度,以及自己專業領 域訓練的視野。
DATA MINING
MEANINGS
小數據的意義探勘可以是資料科學重要的一環。它將是社科 人及民調/市調專業者踏入資料科學領域的彩虹橋,也將是資 料科學吸納更多調查及傳播專業人才的磁石。
義的能力和訓練, 發掘意
只是,這種抽取出意義的能力往往是經歷過專業訓練以及對產業及世 界的觀察與思考(以及人生起伏)之後才累積出的能力。基本上可以 透過閱讀及學術訓練取得。高階經理人尤其需要這種訓練與能力。
因此,若要讓開拓性的研究途徑成為資料科學的一環,資料科學家必須 保有科學家open to challenge的精神,虛心地確保每一個分析環節及結 果詮釋都透明,並接受社群的檢驗及論辯。換言之,本講所呈現的,還 未達到所謂的「真相」或「事實」。真相是逐漸被「逼進」而顯示出來 的。沒有人能一步到位,或是一次就宣稱拿到了聖杯。