國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
36
圖十一:資料做段詞段句、標註詞性的初步結果
三、評論文章前處理
通常在網路上所蒐集的資料大多為非結構化的資料,因此需要將資料整理,
本研究透過以下的步驟使其評論文字資料有初步的結構化、量化,以供後續的情 感傾向分析及其情緒指數的計算。
在對中文的資料前處理時,通常會對否定詞處理,但本研究主要是對英文評 論分析,因此省去這個步驟。圖十二為評論文章前處理的流程圖。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
37
圖十二:評論文章前處理流程圖
斷詞斷句
募資留言評論會使用 python 語言中 nltk 套件將每個字詞斷開。例如,下表 顯示一個句子被斷開後的結果。
斷詞斷句前 This product has pretty awesome design!
斷詞斷句後 This、product、has、pretty、awesome、design、 !
詞性標注
斷詞斷句
詞性標注
停用字 詞性 類別 WDT Wh-determiner
字根還原
程度級別副詞修飾處 詞性過濾 停用字過濾
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
38
募資留言評論會使用 python 語言中 nltk 套件將每個字詞標注其英文詞性。下表 顯示詞性標註前後的情形。
詞性標注前 This product has pretty awesome design!
詞性標註後
This(DT) product(NN) has(VBZ) pretty(RB) awesome(VBN) design(NN)
!(.)
停用字過濾
在停用字過濾中,會去除高頻率出現,但無法提供重要資訊的字詞。停用字 廣意來說包含了各種高頻率但是卻對後續分析沒有實際貢獻的字詞,在英文字裡 比如 the、is、at、which、on…等,除此之外,本研究針對許多高頻率但不屬於 募資平台評論領域分析有直接相關的字詞,建立一個停用字詞集,並在詞性過濾 後利用停用字詞集將字詞作過濾。表四列出主要的停用字。
表四:NLTK 英文停用字表 停用字
詞性 類別
WDT Wh-determiner
WP Wh-pronoun
WP$ Possessive wh-pronoun
WRB Wh-adverb
TO to
DT Determiner
字根還原
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
39
在英文的自然語言中通常同一個字會有過去式、現在分詞、現在進行式等同 一個字的形式變化,雖然表示的意思都是一樣的但卻有不同的表示方法,因此需 要將其各種時態都還原成原形,以便減少詞集所需要的字量,也可以減少程式上 處理的負擔,這裡是採用 nltk 的 SnowballStemmer 做字根還原。下表顯示字根還 原前後的情形。
字根還原前 disable(JJ) disabling(JJ) disabled(JJ)
字根還原後 disable(JJ) disable(JJ) disable(JJ)
字根還原前 is(DT) be(DT) been(DT) beening(DT)
字根還原後 be(DT) be(DT) be(DT) be(DT)
詞性過濾
經過詞性標注後,針對已標記的詞性,本研究保留於英文文字中,較能表達 評論內容與具體意義的形容詞、動詞與修飾形容詞之副詞。下表現是詞性過濾前 後的情形。
詞性過濾前
This(DT) product(NN) has(VBZ) pretty(RB) awesome(JJ) design(NN)
!(.)
詞性過濾後
product(NN) has(VBZ) pretty(RB) awesome(JJ) design(NN)
程度級別副詞修飾處理
程度級別的修飾詞通常可以使一個形容詞有更加強調的意思,比如:good 是 等於很好的意思,若在前面加上程度級別副詞的修飾變成 very good,意思是非
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
40
常好,有強調並加強其語氣,因此加上程度級別副詞將有別於沒有程度副詞,故 作此處理。下表舉例顯示處理前後的情形。
程度級別副詞處理前 product(NN) has(VBZ) pretty(RB) awesome(JJ) design(NN)
程度級別副詞處理後 product(NN) has(VBZ) awesome_Level(JJ) design(NN)