• 沒有找到結果。

世代之爭爭什麼?

N/A
N/A
Protected

Academic year: 2022

Share "世代之爭爭什麼?"

Copied!
79
0
0

加載中.... (立即查看全文)

全文

(1)

世代之爭爭什麼 ?

談談如何從調查資料挖掘出 豐厚的意義

劉正山

中山大學政治學研究所 副教授 Director, Smilepoll.tw

@台灣資料科學協會年會 2016.7.17

(2)

1

話說…

八個月前的自我對話

(3)

大數據分析的探索精神

, 小數據的擁有者沒有嗎

(OF COURSE YES; WE H AVE IT.)

做實證的社會科學家,理應也能做做不同於描述和假設檢定的事。

(4)

調查資料正在貶值中 ?!

一般市場與民意調查只被拿來做簡單描述分析;

在學術界則被拿來作理論與假設的檢定。

隨機抽樣的樣本,獲取成本很高(面訪 > 電訪);

商業上的焦點團體與立意抽樣等方法,因為樣本少 而和大數據相形失色。

問卷題(多是類別型變數)看似只能做做描述統計 或兩兩之間的相關分析;技術含金量有限。

(5)

March 2016. Google watched how people use a phone in a van for over an hour at a time. Goal: complete interviewing 500 people.

(6)

WELL…

Google 拿質性訪問來確認大數據中看見的樣貌。但這並 不算是正視問卷調查資料用於意義開發的潛力。

(7)

只要問了好問題,並運用探索工具 MCA , 民調市調資料與大數據同樣珍貴。

我們需要有能讓資料分析者發從調查資料中掘出消費者、選民的 價值和偏好組合的探索工具。

(8)

2

MCA 方法帶來的新視野

(9)

多重對應分析

Multiple Correspondence Analysis ( MCA ) 早在二戰前就出現在歐洲,但其潛力目前尚未 受到社會科學的重視。 2000 左右介紹進美國之 後,已經應用在語言學的研究中,成為該學門 中的重要研究方法( Glynn, et al., 2014; G lynn, & Robinson, 2014 )。商管學門也已在 使用,但並未在國內形成氣候。

最近五年則因為 R 語言及套件的開發,使這個 由法國學者為開發主力的方法經由專書及多個 套件的出版得以在全球資料分析者之間傳開。

(10)
(11)
(12)

研究問題:

民眾看似多重的民族、國家、政黨認同之 間,能夠說清楚它們之間的關聯嗎?

我們知道世代之間的政治傾向上不同,到 底怎麼呈現出來才能解答那些是真相,那 些是誤解?

(13)

拿國內權威資料來分析

中央研究院社會學研究所執行收集的面訪資料:傅 仰止、章英華、杜素豪、廖培珊主持的「台灣社會 變遷基本調查計畫第六期第四次:國家認同組」。

面訪調查於 2013 年 9 月 22 日至 12 月 10 日執行,

2014 年 2 月釋出, N=1,952 。 [ 有代表性! ]

這筆資料包含了當前學界所認可的國家認同測量題

,如「台灣人 / 中國人認同」、兩岸關係偏好,亦 包含了民族認同題組、條件統獨題組等。

(14)

第一次,民調資料可以用這個面貌呈現

(15)
(16)

在此例中被分析的問卷題(共 30 題)

如果有人問您的祖國是哪裡,請問您會怎麼回答

請問您覺得下列這些歷史事件是不是很重要,要 讓下一代永遠記得?

目前社會上有人會說自己是台灣人,有人會說自 己是中國人,也有人會說兩者都是。請問您認為 自己是台灣人、中國人還是兩者都是

對於未來台灣與中國大陸的關係,有人主張台灣 獨立,也有人主張與大陸統一。請問您比較贊成 哪一種主張?

(17)
(18)
(19)
(20)

> install.packages("FactoMineR")

> install.packages("devtools")

> devtools::install_github("kassambara/factoextra")

> library(FactoMineR)

> library(factoextra)

> library(dplyr)

(21)

> load("tscs2013.rda")

> tscs2013forMCA <- select(tscs2013,

+ c(# 核心變數 (core vars)

+   gen.1, gen.2, gen.3, gen.4, gen.5, # 世代 + v15r, # 「祖國」是哪裡

+ v54ar, v54br, v54cr, v54dr,# 最有承傳價值的歷史 事件+ v57r, # 台灣人 / 既是台灣人也是中國人 / 其他

+   v61r, # 統獨立場 + v76r, # 國號

+ v89ar, v89br, v89cr, v89dr,

+   v89er, v89fr, v89gr, v89hr, v89ir, # 民族-國

+

+ # quantatative supplementary vars +   v58r, # 自認台灣人程度

+   v59r, # 自認中國人程度

+ # v84ar, # 去大陸次數(1-6)

+  

+ #qualitative supplementary vars + sex,

+ college, # 大專教育程度 + camp, # 政黨傾向

+   v71ar, # 中華民族包含台灣原住民 +   v71er, # 中華民族包含台灣居民 + v75r  #  國家領土範圍

+ ))

(22)

> #

將無效值剔除(

list-wise deletion

)。

> tscs2013forMCA.nona <- na.omit(tscs2013forMCA)

> nrow(tscs2013forMCA.nona) [1] 1496

> names(tscs2013forMCA.nona)

> res<-MCA(tscs2013forMCA.nona, ncp=10, quanti.sup=c(23,24),

quali.sup=25: 30, graph= F) #ncp

10個維次

(23)

> fviz_screeplot(res, ncp=10)

(24)

將其中最重要變數類別(選項)的組合挑出:

> plot(res, axes=c(1, 2), new.plot=TRUE, col.var=“red”,

col.ind=“black”, col.ind.sup=“black”,

col.quali.sup=“darkgreen”, col.quanti.sup=“blue”,

label=c(“var”), cex=0.7,

selectMod = “cos2 30”, #

52

個選項

組合

invisible=c(“ind”, “quali.sup”),

xlim=c(-1.2,1.2), ylim=c(-0.6,2),

autoLab = “yes”,

# title=“Top 30 Critical Elements on the MCA Factor Map”)

title="")

(25)

顯示最重要變數的組合

(26)
(27)

注意:構成第二維次( Y 軸)的因素

第二維次的代表題:「請問您覺得下列這些歷史事 件是不是很重要,要讓下一代永遠記得?」

「推翻滿清,建立中華民國」 (v54c) 與

「八年對日抗戰勝利」 (v54d) 一組;

「二二八事件」( v54ar )與

「美麗島事件、黨外民主運動」( v54br )一組

(28)

 

> # 輔助連續型變數的影響值

> plot(res, axes=c(1, 2), new.plot=TRUE, choix="quanti.sup",

+

col.quanti.sup

="blue", label=c("quanti.sup"),

+ title="Quantitative Supplementary Variables")

(29)

受訪者在兩個維度的分佈

> plot(res, axes=c(1, 2), new.plot=TRUE, choix=“ind”, + col.var=“red”, col.quali.sup=“darkgreen”,

+ label=c(“var”), + xlim=c(-1,1),

+

selectMod ="cos2 15", select="cos2 1",

+

invisible=c("quali.sup", "var"),

+ )

(30)

接下來,為概念命名

第一軸線的代表概念:

民族認同

(中華民族或台灣民

族)

第二軸線的代表概念:

國家正當性

(接受中華民國與

否)

(31)

1

(32)

位於第一象限的民眾特徵:

第二世代

政黨傾向為藍營 [ 不在第四象限? ]

不認為「二二八事件」是重要歷史事件

不認為「美麗島事件、黨外民主運動」是重要 歷史事件

無大專教育程度

男性

(33)

2

(34)

位於第二象限的民眾特徵 :

政黨傾向為綠營以及「中間/不表態 / 其他」

認為自己的祖國是台灣(不是中華民國、中國或其他)

認為自己是台灣人(不是中國人亦非都是)

認為國土不包含中國大陸

認為國家現在名字應該叫作台灣

不同意「中華民族本來就包含很多族群,不應分離」

不同意「台灣人的祖先就是黃帝,我們要繼承這樣的血統與歷史」

不同意「作為華夏子孫,我們在國際上應該盡力將中華文化發揚光大」

不同意「不管台灣發生任何問題,我都一定會挺它到底,絕對不會想要 移民到國外」

(35)

3

(36)

位於第三象限的民眾特徵 :

第五世代 [ 不在第二象限 ]

有大專學歷

「維持現狀,以後走向獨立」

如果台灣獨立不會引起戰爭,就應該宣佈獨立

二二八事件、美麗島事件及黨外民主運動算是 歷史上的重要、值得永遠被記得的事件

如果大陸在經濟、社會、政治方面的發展跟台 灣差不多,兩岸也不應該統一

(37)

4

(38)

位於第四象限的民眾特徵 :

自己是台灣人也是中國人

國家現在叫作中華民國比較適合

中華民國是祖國

兩岸維持現狀,以後走向統一

「推翻滿清,建立中華民國」與「八年對日抗戰勝利」很重要,

要讓下一代永遠記得。

「台灣人的祖先就是黃帝,我們要繼承這樣的血統與歷史」

「中華民族本來就包含很多族群,不應該分離」

「不管台灣發生任何問題,我都一定會挺它到底,絕對不會想要 移民到國外」

「作為華夏子孫,我們在國際上應該盡力將中華文化發揚光大」

即使台灣獨立不會引起戰爭,也不該宣佈獨立。

(39)

世代之爭爭什麼?

我們來點出不同世代在兩個維度上的分佈差異

(40)

世代分佈的差異

> library(factoextra)

> plotellipses(res, keepvar =

c(“gen.1”,“gen.2”,

"gen.3","gen.4","gen.5"))

(41)

4

1 2 3

5

(42)

你能看見什麼?

從人數的分佈來看(桃紅色的點)

從每個世代的所在位置來看

這些點所代表的都是每個選民不太容易移動的 認同與立場。

不同的認同結構是造成選民、媒體、及政治人 物所說出來的話差異的原因。

(43)

小數據也能預測 & 協助決策

若能解讀這張圖,你就看得出

2014 年太陽花學運的社會氣氛、

2014 年縣市長選舉、

甚至是 2016 年選民大致在想什麼、選票在那裡,

以及為什麼政黨推出的競選策略。

(44)

你知道我在暗示什麼嗎?

(45)

http://news.ltn.com.tw/news/politics/breakingnews/1559909

在看懂這個世代差異圖之前,你 或許會跟著一起檢討這廣告;但 現在的你是否多了一些了然?

選民在那裡,競選團隊就用他們的語言來呼喚他們 可不一定是你。

(46)

再看一眼,猜猜看:

什麼是最能爭取到多數選民接受的政治語言

(47)

維‧持‧現‧狀

(48)

你說

「這去年我就知道了,沒什麼了不起」

以上的所有資訊,都是用

2013

年的資料就可以挖掘出來的的意義哦。

若我們 2016 年再收集一次資料,再來分析一次,你又會看見什麼?要不要一起

” “

來解答「太平 礁 事件對台灣民心的衝擊」呢?

(49)

那麼問難一點的題目,我問:

「這些多數選民,認同什麼?」

A: 台灣人的中華民國 + 中國人的中華民國。

要如何團結(或分裂)台灣民眾,方法和策略已經浮現。

(50)

用傳統民調分析方法,要看出這件事可不容易啊。

第二世代已開始懷疑他們曾經認定的中華民國

,而年輕世代(第五世代以後)已重新定義中 華民國。

(51)

舉一反三

現在,若我們能夠將這整套 MCA 方法用 於瞭解其他民眾的行為…

(52)

那我們就發

(現新大陸)

了 

(53)

MCA 最特別的地方

讓問卷題的分析可以像因素分析一樣,選項之間的關係(不只有 題目之間的關係!)可以重新整併出樣貌。

(54)

運用 MCA 於研究、行銷、服務

在更短時間內掌握民眾的行為圖像;

發掘出資料背後更豐富的意義

若大數據分析或大小數據一起來,如虎添翼。

(55)

Let’s think about this approach of mixed mode research,

again.

(56)

3

重新看待民調市調資料的價值

(57)

新一代的「厚」資料收集流程

 一:以探索的角度設計問卷 [ 關鍵 & 最 難 ]

 二:收集資料(面訪、電話、網路)

 三:描述資料

 四:分析、視覺化 & 判讀(說故事)

[ 新 !]

(58)

動機

市調與行銷的資料科學家,除了「描述」和「解釋」,現在開始

,可以加上「探索」

(59)

發問

將幾想知道的面向轉為題組,是的,聽起來簡單。

but 你真的是那個能夠指出國王新衣的好奇寶寶嗎?

(60)

分析

用 MCA 發掘關聯,你從小數據看到的樣貌,跟使用大數據分析所 看見的,會產生高度互補效果。

(61)

詮釋

盯著客觀的資料分析結果,把你看見的故事和意義說出來。

這必需要回到你對於自己問的問題瞭解的程度,以及自己專業領 域訓練的視野。

(62)

結語:

LET’S THINK AGAIN:

DATA MINING FOR WHAT?

(63)

PATTERNS & MEANING

!

小數據的意義探勘可以是資料科學重要的一環。它將是社科 人及民調 / 市調專業者踏入資料科學領域的彩虹橋,也將是 資料科學吸納更多調查及傳播專業人才的磁石。

(64)

當資料取得及技術變得平民化,發掘意 義的能力和訓練,將變得與技術能力的 訓練一樣重要。

只是,這種抽取出意義的能力往往是經歷過專業訓練以及對產業及世 界的觀察與思考(以及人生起伏)之後才累積出的能力。基本上可以 透過閱讀及學術訓練取得。高階經理人尤其需要這種訓練與能力。

(65)

要注意的是,除了呈現分析結果這個步驟之 外,整個研究過程非常主觀。而這正是大數 據分析的知識論立場,無可厚非。

因此,若要讓開拓性的研究途徑成為資料科學的一環,資料科學家必須保有科學家 ope n to challenge 的精神,虛心地確保每一個分析環節及結果詮釋都透明,並接受社群 的檢驗及論辯。換言之,本講所呈現的,還未達到所謂的「真相」或「事實」。真相是 逐漸被「逼進」而顯示出來的。沒有人能一步到位,或是一次就宣稱拿到了聖杯。

(66)

THICK DATA

(APPROACH)

資料科學中的

厚資料

視野

FB: thickdatabarbor/

資料吼

(67)

野人獻曝 歡迎見笑 & 拜託指教

I do hope this thick data approach and the application of MCA are more than just interesting to you.

非常感謝全球 R 社群的奉獻,以及國內資料科學社群的努力!

劉正山 csliu@mail.nsysu.edu.tw

(68)

參考資料

Blasius, J., & Greenacre, M. (Eds.). (2014).

Visualization and Verbalization of Data

. CRC Press.

Husson, F., Le, S., & Pages, J. (2010).

Exploratory Multiv ariate Analysis by Example Using R

(1 edition). CRC Press.

Pagès, J. (2014).

Multiple Factor Analysis by Example Usin g R

(1 edition). Boca Raton: Chapman and Hall/CRC.

Pasek, J., Jang, S. M., Cobb, C. L., Dennis, J. M., & Diso gra, C. (2014). Can marketing data aid survey research? Ex amining accuracy and completeness in consumer-file data.

P ublic Opinion Quarterly

,

78

(4), 889–916.

Roux, B. L., & Rouanet, H. (2009).

Multiple Correspondence Analysis

. SAGE Publications.

(69)

資料檔及講義

範例資料檔 (rda) 下載:

http://jmp.sh/pvLZWYE

R 操作講義下載:

http://jmp.sh/UHJd7OV

(70)

同場 加映

如何動手收集價值型的厚資料

(71)

傳統的長條圖和圓餅圖

(72)

透過問受訪者更深刻的問題,我們可以從調 查資料中發掘更多的可能樣貌。

一般民調市調會偏重於詢問行為面及偏好的問題,但我們還可以 問出更多關於價值觀的問題。

(73)

你有想過,台灣民眾對於「獨立」的定義有很多種,而且很可能沒有什麼共識嗎?

(74)
(75)
(76)

看懂了之後,

你的發問可以天馬行空繼續下去

你會發現,問卷調查其實是可以讓你打造出專屬於自己研 究領域厚資料礦脈的神器。

(77)

打造自己的社群網調平台的好處

資料科學家從資料聆聽者(被動爬梳挖來或買 來的數據)轉換為資料創造者(主動收集到被 研究對象價值和偏好)。

降低資料雜訊及更快速的決策。

形成社群後可以創造定群追蹤樣本( panel dat a ),產生變數的合併帶來的巨大價值。

先以小數據作初探( pilot stud ),之後再啟 動隨機電話抽樣,將大幅增加推論力度。

初探階段便可以進行隨機分派實驗( A/A 前測

、 A/B 對照),找出意義和印證想法。

(78)
(79)

微笑小熊調查小棧

[ smilepoll.tw ]

我們的政治科學 + 資訊管理 + 行銷管理團隊 致力於發問及厚資料意義探勘的訓練及應用

~歡迎學術 , 產學及官學合作 & 歡迎跨領域新星申請中山政治學研究所 ~ littlesmilebear@gmail.com

參考文獻

相關文件

美國人心目中最偉大的總統之一,就是 帶領國家度過南北戰爭難關的總統,你

法新社報導,歐洲國際機場協會(ACI Europe)27 日表示,在新冠肺炎疫情的 影響之下,搭乘飛機的旅客人數驟降,而歐洲機場

但三路之中左右兩 路的主要目的是牽 制敵人,中間沿穎 水南下一路才是主 戰力所在。又,前 秦動員規模過於龐 大,在軍事行動展

中國白話文學由新文學運動肇始,作家即努力求新求變。第二次世

其次,將服裝可視為一種「符號」,在當代已是不爭的事 實。美國服裝社會心理學家 Susan Kaiser 在 The social psychology of clothing 中,進一步提出一「關於服裝符號系

這些問題目前尚未找到可以在 polynomial time 內解決的 algorithm.. 這些問題目前尚未被證明無法在 polynomial time

美國人心目中最偉大的總統之一,就是 帶領國家度過南北戰爭難關的總統,你

1-3 有關臺灣原住民的介紹,重點放在荷 據時期前夕的社會與文化特徵;至於