世代之爭爭什麼?

(1)

世代之爭爭什麼 ?

談談如何從調查資料挖掘出豐厚的意義

劉正山

中山大學政治學研究所副教授 Director, Smilepoll.tw

@台灣資料科學協會年會 2016.7.17

(2)

1

話說…

八個月前的自我對話

(3)

大數據分析的探索精神

，小數據的擁有者沒有嗎

？

(OF COURSE YES; WE H AVE IT.)

做實證的社會科學家，理應也能做做不同於描述和假設檢定的事。

(4)

調查資料正在貶值中 ?!



一般市場與民意調查只被拿來做簡單描述分析；

在學術界則被拿來作理論與假設的檢定。



隨機抽樣的樣本，獲取成本很高（面訪 > 電訪）；



商業上的焦點團體與立意抽樣等方法，因為樣本少而和大數據相形失色。



問卷題（多是類別型變數）看似只能做做描述統計或兩兩之間的相關分析；技術含金量有限。

(5)

March 2016. Google watched how people use a phone in a van for over an hour at a time. Goal: complete interviewing 500 people.

(6)

WELL…

Google 拿質性訪問來確認大數據中看見的樣貌。但這並不算是正視問卷調查資料用於意義開發的潛力。

(7)

只要問了好問題，並運用探索工具 MCA ，民調市調資料與大數據同樣珍貴。

我們需要有能讓資料分析者發從調查資料中掘出消費者、選民的價值和偏好組合的探索工具。

(8)

2

MCA 方法帶來的新視野

(9)

多重對應分析



Multiple Correspondence Analysis （ MCA ）早在二戰前就出現在歐洲，但其潛力目前尚未受到社會科學的重視。 2000 左右介紹進美國之後，已經應用在語言學的研究中，成為該學門中的重要研究方法（ Glynn, et al., 2014; G lynn, & Robinson, 2014 ）。商管學門也已在使用，但並未在國內形成氣候。



最近五年則因為 R 語言及套件的開發，使這個由法國學者為開發主力的方法經由專書及多個套件的出版得以在全球資料分析者之間傳開。

(10)

(11)

(12)

研究問題：

民眾看似多重的民族、國家、政黨認同之間，能夠說清楚它們之間的關聯嗎？

我們知道世代之間的政治傾向上不同，到底怎麼呈現出來才能解答那些是真相，那些是誤解？

(13)

拿國內權威資料來分析



中央研究院社會學研究所執行收集的面訪資料：傅仰止、章英華、杜素豪、廖培珊主持的「台灣社會變遷基本調查計畫第六期第四次：國家認同組」。



面訪調查於 2013 年 9 月 22 日至 12 月 10 日執行，

於 2014 年 2 月釋出， N=1,952 。 [ 有代表性！ ]



這筆資料包含了當前學界所認可的國家認同測量題

，如「台灣人 / 中國人認同」、兩岸關係偏好，亦包含了民族認同題組、條件統獨題組等。

(14)

第一次，民調資料可以用這個面貌呈現

(15)

(16)

在此例中被分析的問卷題（共 30 題）



如果有人問您的祖國是哪裡，請問您會怎麼回答

？



請問您覺得下列這些歷史事件是不是很重要，要讓下一代永遠記得？



目前社會上有人會說自己是台灣人，有人會說自己是中國人，也有人會說兩者都是。請問您認為自己是台灣人、中國人還是兩者都是



對於未來台灣與中國大陸的關係，有人主張台灣獨立，也有人主張與大陸統一。請問您比較贊成哪一種主張？

(17)

(18)

(19)

(20)

> install.packages("FactoMineR")

> install.packages("devtools")

> devtools::install_github("kassambara/factoextra")

> library(FactoMineR)

> library(factoextra)

> library(dplyr)

(21)

> load("tscs2013.rda")

> tscs2013forMCA <- select(tscs2013,

+ c(# 核心變數 (core vars)

+ 　 gen.1, gen.2, gen.3, gen.4, gen.5, # 世代 + v15r, # 「祖國」是哪裡

+ v54ar, v54br, v54cr, v54dr,# 最有承傳價值的歷史事件+ v57r, # 台灣人 / 既是台灣人也是中國人 / 其他

+ 　 v61r, # 統獨立場 + v76r, # 國號

+ v89ar, v89br, v89cr, v89dr,

+ 　 v89er, v89fr, v89gr, v89hr, v89ir, # 民族－國家

+

+ # quantatative supplementary vars + 　 v58r, # 自認台灣人程度

+ 　 v59r, # 自認中國人程度

+ # v84ar, # 去大陸次數（１－６）

+ 　

+ #qualitative supplementary vars + sex,

+ college, # 大專教育程度 + camp, # 政黨傾向

+ 　 v71ar, # 中華民族包含台灣原住民 + 　 v71er, # 中華民族包含台灣居民 + v75r 　# 　國家領土範圍

+ ))

(22)

> #

將無效值剔除（

list-wise deletion

）。

> tscs2013forMCA.nona <- na.omit(tscs2013forMCA)

> nrow(tscs2013forMCA.nona) [1] 1496

> names(tscs2013forMCA.nona)

> res<-MCA(tscs2013forMCA.nona, ncp=10, quanti.sup=c(23,24),

quali.sup=25: 30, graph= F) ^#ncp

10個維次

(23)

> fviz_screeplot(res, ncp=10)

(24)

將其中最重要變數類別（選項）的組合挑出：

> plot(res, axes=c(1, 2), new.plot=TRUE, col.var=“red”,

col.ind=“black”, col.ind.sup=“black”,

col.quali.sup=“darkgreen”, col.quanti.sup=“blue”,

label=c(“var”), cex=0.7,

selectMod = “cos2 30”, #

共

⁵²

個選項

組合

invisible=c(“ind”, “quali.sup”),

xlim=c(-1.2,1.2), ylim=c(-0.6,2),

autoLab = “yes”,

# title=“Top 30 Critical Elements on the MCA Factor Map”)

title="")

(25)

顯示最重要變數的組合

(26)

(27)

注意：構成第二維次（ Y 軸）的因素



第二維次的代表題：「請問您覺得下列這些歷史事件是不是很重要，要讓下一代永遠記得？」



「推翻滿清，建立中華民國」 (v54c) 與

「八年對日抗戰勝利」 (v54d) 一組；



「二二八事件」（ v54ar ）與

「美麗島事件、黨外民主運動」（ v54br ）一組

(28)

> # 輔助連續型變數的影響值

> plot(res, axes=c(1, 2), new.plot=TRUE, choix="quanti.sup",

+

col.quanti.sup

="blue", label=c("quanti.sup"),

+ title="Quantitative Supplementary Variables")

(29)

受訪者在兩個維度的分佈

> plot(res, axes=c(1, 2), new.plot=TRUE, choix=“ind”, + col.var=“red”, col.quali.sup=“darkgreen”,

+ label=c(“var”), + xlim=c(-1,1),

+

selectMod ="cos2 15", select="cos2 1",

+

invisible=c("quali.sup", "var"),

+ )

(30)

接下來，為概念命名

第一軸線的代表概念：

民族認同

^{（中華民族或台灣民}

族）

第二軸線的代表概念：

國家正當性

^{（接受中華民國與}

否）

(31)

1

(32)

位於第一象限的民眾特徵：



第二世代



政黨傾向為藍營 [ 不在第四象限？ ]



不認為「二二八事件」是重要歷史事件



不認為「美麗島事件、黨外民主運動」是重要歷史事件



無大專教育程度



男性

(33)

2

(34)

位於第二象限的民眾特徵 :

 政黨傾向為綠營以及「中間／不表態 / 其他」

 認為自己的祖國是台灣（不是中華民國、中國或其他）

 認為自己是台灣人（不是中國人亦非都是）

 認為國土不包含中國大陸

 認為國家現在名字應該叫作台灣

 不同意「中華民族本來就包含很多族群，不應分離」

 不同意「台灣人的祖先就是黃帝，我們要繼承這樣的血統與歷史」

 不同意「作為華夏子孫，我們在國際上應該盡力將中華文化發揚光大」

 不同意「不管台灣發生任何問題，我都一定會挺它到底，絕對不會想要移民到國外」

(35)

3

(36)

位於第三象限的民眾特徵 :



第五世代 [ 不在第二象限 ]



有大專學歷



「維持現狀，以後走向獨立」



如果台灣獨立不會引起戰爭，就應該宣佈獨立



二二八事件、美麗島事件及黨外民主運動算是歷史上的重要、值得永遠被記得的事件



如果大陸在經濟、社會、政治方面的發展跟台灣差不多，兩岸也不應該統一

(37)

4

(38)

位於第四象限的民眾特徵 :

 自己是台灣人也是中國人

 國家現在叫作中華民國比較適合

 中華民國是祖國

 兩岸維持現狀，以後走向統一

 「推翻滿清，建立中華民國」與「八年對日抗戰勝利」很重要，

要讓下一代永遠記得。

 「台灣人的祖先就是黃帝，我們要繼承這樣的血統與歷史」

 「中華民族本來就包含很多族群，不應該分離」

 「不管台灣發生任何問題，我都一定會挺它到底，絕對不會想要移民到國外」

 「作為華夏子孫，我們在國際上應該盡力將中華文化發揚光大」

 即使台灣獨立不會引起戰爭，也不該宣佈獨立。

(39)

世代之爭爭什麼？

我們來點出不同世代在兩個維度上的分佈差異

(40)

世代分佈的差異

> library(factoextra)

> plotellipses(res, keepvar =

c(“gen.1”,“gen.2”,

"gen.3","gen.4","gen.5"))

(41)

4 1 2 3

5

(42)

你能看見什麼？



從人數的分佈來看（桃紅色的點）



從每個世代的所在位置來看



這些點所代表的都是每個選民不太容易移動的認同與立場。



不同的認同結構是造成選民、媒體、及政治人物所說出來的話差異的原因。

(43)

小數據也能預測 & 協助決策



若能解讀這張圖，你就看得出



2014 年太陽花學運的社會氣氛、



2014 年縣市長選舉、



甚至是 2016 年選民大致在想什麼、選票在那裡，

以及為什麼政黨推出的競選策略。

(44)

你知道我在暗示什麼嗎？

(45)

http://news.ltn.com.tw/news/politics/breakingnews/1559909

在看懂這個世代差異圖之前，你或許會跟著一起檢討這廣告；但現在的你是否多了一些了然？

…

選民在那裡，競選團隊就用他們的語言來呼喚他們可不一定是你。

(46)

再看一眼，猜猜看：

什麼是最能爭取到多數選民接受的政治語言

？

(47)

維‧持‧現‧狀

(48)

你說

「這去年我就知道了，沒什麼了不起」

以上的所有資訊，都是用

2013

年的資料就可以挖掘出來的的意義哦。

若我們 2016 年再收集一次資料，再來分析一次，你又會看見什麼？要不要一起

” “

來解答「太平礁事件對台灣民心的衝擊」呢？

(49)

那麼問難一點的題目，我問：

「這些多數選民，認同什麼？」

A: 台灣人的中華民國 + 中國人的中華民國。

要如何團結（或分裂）台灣民眾，方法和策略已經浮現。

(50)

用傳統民調分析方法，要看出這件事可不容易啊。

第二世代已開始懷疑他們曾經認定的中華民國

，而年輕世代（第五世代以後）已重新定義中華民國。

(51)

舉一反三

現在，若我們能夠將這整套 MCA 方法用於瞭解其他民眾的行為…

(52)

那我們就發

^{（現新大陸）}

了 

(53)

MCA 最特別的地方

讓問卷題的分析可以像因素分析一樣，選項之間的關係（不只有題目之間的關係！）可以重新整併出樣貌。

(54)

運用 MCA 於研究、行銷、服務



在更短時間內掌握民眾的行為圖像；



發掘出資料背後更豐富的意義



若大數據分析或大小數據一起來，如虎添翼。

(55)

Let’s think about this approach of mixed mode research^,

again.

(56)

3

重新看待民調市調資料的價值

(57)

新一代的「厚」資料收集流程

 一：以探索的角度設計問卷 [ 關鍵 & 最難 ]

 二：收集資料（面訪、電話、網路）

 三：描述資料

 四：分析、視覺化 & 判讀（說故事）

[ 新 !]

(58)

動機

市調與行銷的資料科學家，除了「描述」和「解釋」，現在開始

，可以加上「探索」

(59)

發問

將幾想知道的面向轉為題組，是的，聽起來簡單。

but 你真的是那個能夠指出國王新衣的好奇寶寶嗎？

(60)

分析

用 MCA 發掘關聯，你從小數據看到的樣貌，跟使用大數據分析所看見的，會產生高度互補效果。

(61)

詮釋

盯著客觀的資料分析結果，把你看見的故事和意義說出來。

這必需要回到你對於自己問的問題瞭解的程度，以及自己專業領域訓練的視野。

(62)

結語：

LET’S THINK AGAIN:

DATA MINING FOR WHAT?

(63)

PATTERNS & MEANING

!

小數據的意義探勘可以是資料科學重要的一環。它將是社科人及民調 / 市調專業者踏入資料科學領域的彩虹橋，也將是資料科學吸納更多調查及傳播專業人才的磁石。

(64)

當資料取得及技術變得平民化，發掘意義的能力和訓練，將變得與技術能力的訓練一樣重要。

只是，這種抽取出意義的能力往往是經歷過專業訓練以及對產業及世界的觀察與思考（以及人生起伏）之後才累積出的能力。基本上可以透過閱讀及學術訓練取得。高階經理人尤其需要這種訓練與能力。

(65)

要注意的是，除了呈現分析結果這個步驟之外，整個研究過程非常主觀。而這正是大數據分析的知識論立場，無可厚非。

因此，若要讓開拓性的研究途徑成為資料科學的一環，資料科學家必須保有科學家 ope n to challenge 的精神，虛心地確保每一個分析環節及結果詮釋都透明，並接受社群的檢驗及論辯。換言之，本講所呈現的，還未達到所謂的「真相」或「事實」。真相是逐漸被「逼進」而顯示出來的。沒有人能一步到位，或是一次就宣稱拿到了聖杯。

(66)

THICK DATA

(APPROACH)

資料科學中的

厚資料

^視野

FB: thickdatabarbor/

資料吼

(67)

野人獻曝歡迎見笑 & 拜託指教

I do hope this thick data approach and the application of MCA are more than just interesting to you.

非常感謝全球 R 社群的奉獻，以及國內資料科學社群的努力！

劉正山 [email protected]

(68)

參考資料



Blasius, J., & Greenacre, M. (Eds.). (2014).

Visualization and Verbalization of Data

. CRC Press.



Husson, F., Le, S., & Pages, J. (2010).

Exploratory Multiv ariate Analysis by Example Using R

(1 edition). CRC Press.



Pagès, J. (2014).

Multiple Factor Analysis by Example Usin g R

(1 edition). Boca Raton: Chapman and Hall/CRC.



Pasek, J., Jang, S. M., Cobb, C. L., Dennis, J. M., & Diso gra, C. (2014). Can marketing data aid survey research? Ex amining accuracy and completeness in consumer-file data.

P ublic Opinion Quarterly

,

78

(4), 889–916.



Roux, B. L., & Rouanet, H. (2009).

Multiple Correspondence Analysis

. SAGE Publications.

(69)

資料檔及講義

 範例資料檔 (rda) 下載：

http://jmp.sh/pvLZWYE

 R 操作講義下載：

http://jmp.sh/UHJd7OV

(70)

同場加映

如何動手收集價值型的厚資料

(71)

傳統的長條圖和圓餅圖

(72)

透過問受訪者更深刻的問題，我們可以從調查資料中發掘更多的可能樣貌。

一般民調市調會偏重於詢問行為面及偏好的問題，但我們還可以問出更多關於價值觀的問題。

(73)

你有想過，台灣民眾對於「獨立」的定義有很多種，而且很可能沒有什麼共識嗎？

(74)

(75)

(76)

看懂了之後，

你的發問可以天馬行空繼續下去

你會發現，問卷調查其實是可以讓你打造出專屬於自己研究領域厚資料礦脈的神器。

(77)

打造自己的社群網調平台的好處



資料科學家從資料聆聽者（被動爬梳挖來或買來的數據）轉換為資料創造者（主動收集到被研究對象價值和偏好）。



降低資料雜訊及更快速的決策。



形成社群後可以創造定群追蹤樣本（ panel dat a ），產生變數的合併帶來的巨大價值。



先以小數據作初探（ pilot stud ），之後再啟動隨機電話抽樣，將大幅增加推論力度。



初探階段便可以進行隨機分派實驗（ A/A 前測

、 A/B 對照），找出意義和印證想法。

(78)

(79)

微笑小熊調查小棧

[ smilepoll.tw ]

我們的政治科學 + 資訊管理 + 行銷管理團隊 致力於發問及厚資料意義探勘的訓練及應用

~歡迎學術 , 產學及官學合作 & 歡迎跨領域新星申請中山政治學研究所 ~ [email protected]

世代之爭爭什麼?