• 沒有找到結果。

第三章 研究方法

第五節 詞語共現

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

51

第五節 詞語共現

一、分析目的

本文採取詞語共現分析的方法,標記與詞頻分析所得的「主題關聯詞」同時 出現三次以上的共現詞組,透過對高頻次共現詞組的檢驗,找出辨識憂鬱文本能 力較高的詞組特性,以便未來以更精準的方式定位憂鬱文本。

二、微博樣本

詞語共現的樣本分為三組,A 組為隨機抽樣 3112 則微博經過編碼後,憂鬱 指數>0 的憂鬱文本,即為憂鬱組,合計 782 則;B 組為隨機抽樣的微博文本,

即為對照組,合計 3112 則;C 組則為未抽樣總體中未經編碼的文本,即為驗證 組,合計 17617 則。

三、分析類目

表 3-6:詞語共現

共現類目 對比文本

自殺 睡眠障礙

A:憂鬱文本

(憂鬱組)

共 782 則 憂鬱指數>0

B:抽樣總體

(對照組)

共 3112 則

C:未抽樣總體

(驗證組)

共 17617 則

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

52

四、編碼

圖 3-2:詞語共現分析架構圖

由於憂鬱情緒持續時間超過兩週以上且伴隨自我認知較低、睡眠障礙及有自 殺傾向等症狀便有可能是憂鬱症。可見「自殺」及「睡眠障礙」是憂鬱人群不同 於一般人較為明顯的症狀,亦是憂鬱傾向者主題類目的特殊設置。而前文提及「自 殺」及「睡眠障礙」兩組關聯詞的差異並不明顯的現象,依照推測可能是書寫中 若有提及失眠或自殺意識,則編碼為憂鬱文本的可能性較高。可見,從微博文本 中辨別出「自殺」及「睡眠障礙」相關的文本可能是憂鬱文本,而為了提升辨別 的準確性,「自殺」及「睡眠障礙」主題關聯詞的共現詞組是辨識憂鬱文本的關 鍵。

運用 Python 的語料庫 jieba13將 A 組、B 組、C 組文本進行編碼並逐條分詞,

基於電腦程式邏輯對分詞後的文本及關鍵詞進行兩兩詞語比對。經過調試,當詞 組在整個語料庫中共現大於兩次(規避沒有任何實際意義的狀況),即可統計頻 率並捨去停用詞,可得高頻詞組的共現詞組及頻率。

在獲得憂鬱組關鍵詞共現結果後,將與對照組的結果進行比對,透過在驗證 組查找詞語共現之文本,並以人工方式進行內容分析中憂鬱指數的編碼,查驗每 組共現詞組預測憂鬱文本的準確度。

13Python 中文分片語件 Jieba,地址:http://www.oschina.net/p/jieba

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

53

圖 3-3:詞語共現驗證架構圖

為了驗證憂鬱組所得之共現詞組是否可以辨識憂鬱文本,我們將共現詞組帶 入未抽樣本文中進行驗證。先分別將 37 組共現詞帶已經清洗但未經編碼的未抽 樣總體 17617 則文本進行驗證,驗證的方式是延用內容分析之兩位信度達標之編 碼員,以內容分析的憂鬱程度類目進行編碼。

根據 HAMD 量表,自殺項目評定如下:(0) 無症狀 (1) 輕度:覺得活著沒 有意思 (2) 中度:希望自己已經死去,或常想到與死有關的事 (3) 重度:消極 觀念(自殺念頭) (4) 極重:有嚴重自殺行為。由兩名編碼員根據含共現詞組 文本實際情況進行編碼,結果分為無症狀(0)及憂鬱文本(含 1,2,3,4)。其中,「自 殺」共現詞 26 組共獲 1380 則微博文本,經憂鬱程度編碼,含憂鬱文本 481 則,

占 35%。

根據 HAMD 量表,睡眠障礙項目評定分為三種:(一)入睡困難(初段失眠): (0) 無症狀 (1) 輕度-中度:主訴有時有入睡困難,即上床後半小時仍不能入睡 (2) 重度:主訴每晚均有入睡困難;(二)睡眠不深(中段失眠):(0) 無症狀 (1) 輕 度-中度:睡眠淺或多惡夢 (2) 重度:半夜(晚 12 點以前)曾醒來(不包括上廁 所);(三)早醒(末段失眠):(0) 無症狀 (1) 輕度-中度:有早醒,比平時早醒 1 小時,但能重新入睡(應排除平時的習慣) (2) 重度:早醒後無法重新入睡。

首先,判斷是哪一種失眠狀況,再根據實際症狀進行編碼,結果分為無症狀(0) 及憂鬱文本(含 1,2)。其中,「睡眠障礙」共現詞 11 組共獲 65 則文本,經憂鬱程

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

54

度編碼後,含憂鬱文本 48 則,占 74%。透過對每組共現詞的憂鬱文本所占詞組 文本的比例,可以看出該共現詞辨識憂鬱文本的能力。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

55