• 沒有找到結果。

第二章 文獻探討

第二節、 文字探勘

本節分為兩個面向探討文字探勘,第一次節說明文字探勘研究方法現況以及 文字探勘應用,其次整理文字探勘應用於本文相關的大陸議題。

壹、文字探勘應用

當研究對象與研究文本是巨量數據之下,需要借助數位研究法避免人力逐一 閱讀之時,需要數種文字探勘工具與不同分析方法深入解析。誠如邵軒磊(2019)

所提,在詮釋現象時應當配合研究者自身的先驗知識與主體知識或專家學者的意 見,以致本文亟需前節學者歸納並承接後文研究分析結果,得出現象與推論。

文字探勘借助機器學習(machine learning)的應用取向大多為「資料導向」

(Data-driven)的資料探勘(Data mining)方式,但實際上大數據(巨量數據)並 非等價文字探勘。如下圖二. 2 是 Talib 等人(2016)所繪的文字探勘領域文氏圖22

(Venn Diagram),左上的資料探勘與文字探勘僅交集一部份,並且說明尚有 8 成 以上的資料屬於非結構性資料。所以如何藉由文字探勘取得研究者感興趣的部分,

相當具有研究發展性。

22 依循圖二. 2 中心文字探勘部分,本文將會使用到 web mining 部分為網頁爬蟲,以及 conceptual extraction 與 Natural language processing 與 statistics 部分為資料清洗與資料分析,information extraction 為主題分析與 word2vec 分析等項目,待後文一一說明。

圖二. 2 文字探勘與其他領域互動

資料來源︰取自Talib 等人介紹的文字探勘領域文氏圖

文字探勘不僅重疊其他研究領域,其應用的研究方法相當廣泛,包括關鍵字提 取(Keywords Fetch)、檔案摘要(Documentary Summarization)、意見與評語分析

(Opinion Anlysis)、資訊過濾(Information Filtering)、情緒分析(Sentiment Analysis)、 文本分群(Text Clustering)、主題分析(Topic model Analysis)、文本分類(Text Classification)等枚不勝舉(Kudyba 2014、Nassirtoussi 2014、Roiger 2017)23。較常 見研究包括選舉動態、市場分析、政策風向球、民意探勘、學術研究、廣告分析、

使用者傾向,任一項應用可在不同的領域有不同的發揮。

不只是以上應用,使用文字探勘最重要目的在於提升「決策品質」。多數組織

23 Kudyba 與 Roiger 與 Nassirtoussi 提到結構化(數據)與非結構化(文字)資料的應用非常廣 泛,包含投票選舉、股市投資、社交媒體、不動產、智慧家電、商業智能、廣告效益、客戶忠 誠度、支付機制、犯罪預測、零售業顧客模式、智能傳輸系統、即時系統數據探勘、報章媒體 與網路論壇、法院判決文件、醫用系統與醫療日誌等,可謂相當廣泛,也不宜逐一列出。

針對原先欲解決事項上,資料經過資料結構化與分析後,從而提升經營管理效能、

決策有效性、目的成效。最為常見的組織就是企業商家,近年以手機與網際網路為 媒介的社群媒體與其 Apps(手機行動應用程式),紛紛要求使用者提供存取個人 資訊的權限,例如所在位置、即時消息、發文資訊、意見回饋、好感度等。

文字探勘逐年被重視以來,臺灣也出現許多資料庫與有限公司,較為知名的亦 藍資訊與網路溫度計,針對網輿做不同的議題研究。較為普遍的研究方法是聲量分 析研究,如臺北大學劉嘉薇(2017)與亦藍資訊合作研究統獨議題,其資料來源是 各大討論區與社群網站對於某議題的聲量紀錄,分析出臺灣網民是「獨立聲量」分 佈高於「統一聲量」分佈。同時劉嘉薇的研究也提綱出網路政治研究領域的可行性,

廖洲棚等人(2013)欲研究網路民意導入政府決策的可行性。

儘管文字探勘仍有許多應用可能,但是網路匿名性與網路潛水者兩個特性使 得網路意見不如一對一訪談來得直接與確實。而且網路聲量或文字探勘所需文本 皆並非全民母體的民意調查,也往往僅能代表科技易接受者與擅於表達者意見。不 過該低廉調查成本與議題趨勢與分佈卻能帶給研究者更多訊息,倒不如說因為匿 名而更容易激發網民表達意願。

正因為表達成本低,網路文本相當巨量且複雜,文章之間意涵相當不同,也可 能相當接近不易察覺。謝吉隆(2018)提到報導接受者對新聞報導與社會現象受到

「框架」影響,難以看見每個框架內有哪些設定、字詞、隱喻、象徵,是故存有「誤 差」的再次建構我們自己的框架。謝吉隆透過文字探勘找出關鍵字、詞頻、主題分 析、計量資訊、視覺化網路圖解釋,也同於本文目的一致之外,亦可來回量化與質 性之間解釋。

貳、文字探勘應用於大陸議題

利用文字探勘與聲量分析大陸議題的研究不少。Cairns 與 Carlson(2016)研究 釣魚台事件與民族主義、傅景華等人(2013)研究大陸對禁搜字與實名制的現況與 影響、Stockmann(2015)利用微博釋出 API 功能蒐集文本討論香港雨傘革命的研 究、Li Mingmei(2016)利用 Python 研究微博的流言散佈程度、Zhang(2016)不 僅使用文字探勘也使用統計推論增加完整性,並提出香港公民會經由抗議遊行更 加熱衷公民運動,但不一定更加支持選舉運動。

眾多學者當中與本文更為貼切的研究是 King 等人(2013)利用聲量計數與主 題分析言論審查程度。King 的研究文本來源是各大部落格,搜集時間是 2011 年的 上半年至2013 年,並包含 11,382,221 網站資料(微博資料佔 King 等人研究資料達 59 百分比),隨機搜集文章並以關鍵字分三種政治敏感層級(例:艾未未、一胎 化、電玩遊戲)共85 類。研究發現儘管廣泛的網路言論審查下,大陸網民言論並 未感到強烈壓迫程度,持續發文與快速轉發,同時仍有敏感字詞禁止搜尋,刻意斷 開訊息散佈與連結之處。例如2011 年 9 月 27 日上海地鐵工地倒塌事件,旋即一 天快速刪文達250 餘篇,避免負面訊息快速散佈。

除了國家與地方政府探勘網輿之外,許多學者與本文研究對象同樣是大陸最 大的社群媒體微博24,觀察網民在微博的輿論反應與發展現況。沈春媛(2014)則 是觀察傳統官方媒體《人民日報》融合網路社群媒體的轉變與發展。王波與甄峰

(2013)利用微博的好友功能作為串連依據,城市之間的網絡連接度越高與城市的 規模高度相關,具有三大四小25的網絡特性,反應地理實體空間的社會經濟與文化 連繫關係。

中國人民大學新聞學院的劉彪(2013)分析微博的傳播模式,尤其是轉發量大 於6025 以上的文章(可能是網友短時的突發事件或是影視明星的重要動態),予 以分類並觀察深度與寬度。劉彪利用不同事件之間的寬度與深度區分出四個方向 的座標平面圖,藉由此圖分析社會訴求較緊急、被刪除貼文、社會熱點事件等,並 得出中間象限的「合意空間26」。

許多學者藉由突發事件與重大事件觀察微博發展。夏雨禾(2011)討論網路上 的突發事件會因為名人微博、一般網民、新增消息、目標主體形成一種動態組合,

24 筆者於 2020 年 5 月 30 日於 CNKI 學術網站平台搜尋”微博”,期刊共 31922、碩士論文共 18939、

博士論文共1135、中國大陸會議共 590、國際會議共 66、報紙共 4948。數量過於龐大難以窮盡,

僅列出數篇較高引用數做文獻回顧。

25 京津冀區域、珠三角區域、長三角區域、成渝地區(成都、重慶)、海西地區(福州、廈門)、

武漢地區(武漢、長沙)、東北地區(瀋陽、哈爾濱、長春)。

26 引用劉彪內文︰社會熱點事件主要是網路大 V 討論,大 V 們除了擁有網路話語權,將線下的話 語權“平移”到微博話語場域。整個社會話語場域主導權依然被傳統的社會話語精英階層所掌 握。同時說明社會熱點事件傳播過程中,因大V 們具有較高的社會公信力和影響力,其態度、

意見乃至情緒容易傳染給草根用戶,也容易引起民意嘯聚。因此,輿情熱點事件的消弭都是這些 話語精英階層與社會管理者之間在“合意的空間”內妥協的一種結果。

進而轉發與評論數據大增。彭蘭(2013)觀察蘆山地震事件之後的微博自發性組織 之發展過程,尤其原先無序狀態而朝向有序狀態的發展。黃沛(2016)從史蒂芬霍 金(Stephen William Hawking)開啟微博帳號的後續現象,觀察微博網紅趨勢。姜 景等人(2015)研究當微博出現重大事件時候,透過網路分析,並藉由官方微博帳 號以及意見領袖管理,引導網路輿論方向。

所以學者們對於微博有許多研究,大概分為三類研究。第一類型是學者討論大 陸最大社群媒體微博的演進與發展,有助於政務微博或是資訊流通,或是研究微博 社群媒體本身的資訊如何傳播,以及微博網輿如何探勘,以及熱點議題與意見領袖 相關研究等。也就是第一類型學者研究圍繞在微博社群媒體的發展,也透過重大事 件討論輿論發展,以及其他良性作用。

第二類型大約在 2010 至 2013 年之間,討論舊有傳統報章雜誌媒體轉戰網路 媒體,例如人民日報或是機關報,或是比對其他類型媒體。但第二類型的研究較少,

大多針對黨建宣傳或是舊有媒體間的比較,也大多研究在網際網路與社群媒體初 步發展的變化。

第三類型微博研究在2014 年後較多,延伸討論其他網路媒體與手機行動裝置 平臺。羅永雄(2014)研究微信與微博的謠言如何被傳播,也比較兩者差異,鄭雪

(2015)則研究則同樣研究微信與微博如何達到政府宣傳工作,或是比較其他新興 媒體(美拍、鬥魚)以及微視頻(抖音、火山)。還有其他學者研究微博與新興媒 體的比較研究,例如網路大V、形象比較、消費文化改變、網紅商業等(胡洪寧 2018、

侯鵬飛 2018、孫喜嬌 2019)。

最後總結本研究在「維穩」研究的學術位置,本文借助文字探勘可大量計算的 優點來處理龐雜的維穩議題,不似上述任何一位學者僅討論某一重大事件(例如釣 魚台與地方事件),或是僅針對一則政策(例如實名制),或是針對某一維穩層面

最後總結本研究在「維穩」研究的學術位置,本文借助文字探勘可大量計算的 優點來處理龐雜的維穩議題,不似上述任何一位學者僅討論某一重大事件(例如釣 魚台與地方事件),或是僅針對一則政策(例如實名制),或是針對某一維穩層面