• 沒有找到結果。

立 政 治 大 學

Na tiona

l Ch engchi University

36

圖十一:資料做段詞段句、標註詞性的初步結果

三、評論文章前處理

通常在網路上所蒐集的資料大多為非結構化的資料,因此需要將資料整理,

本研究透過以下的步驟使其評論文字資料有初步的結構化、量化,以供後續的情 感傾向分析及其情緒指數的計算。

在對中文的資料前處理時,通常會對否定詞處理,但本研究主要是對英文評 論分析,因此省去這個步驟。圖十二為評論文章前處理的流程圖。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

37

圖十二:評論文章前處理流程圖

 斷詞斷句

募資留言評論會使用 python 語言中 nltk 套件將每個字詞斷開。例如,下表 顯示一個句子被斷開後的結果。

斷詞斷句前 This product has pretty awesome design!

斷詞斷句後 This、product、has、pretty、awesome、design、 !

 詞性標注

斷詞斷句

詞性標注

停用字 詞性 類別 WDT Wh-determiner

字根還原

程度級別副詞修飾處 詞性過濾 停用字過濾

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

38

募資留言評論會使用 python 語言中 nltk 套件將每個字詞標注其英文詞性。下表 顯示詞性標註前後的情形。

詞性標注前 This product has pretty awesome design!

詞性標註後

This(DT) product(NN) has(VBZ) pretty(RB) awesome(VBN) design(NN)

!(.)

 停用字過濾

在停用字過濾中,會去除高頻率出現,但無法提供重要資訊的字詞。停用字 廣意來說包含了各種高頻率但是卻對後續分析沒有實際貢獻的字詞,在英文字裡 比如 the、is、at、which、on…等,除此之外,本研究針對許多高頻率但不屬於 募資平台評論領域分析有直接相關的字詞,建立一個停用字詞集,並在詞性過濾 後利用停用字詞集將字詞作過濾。表四列出主要的停用字。

表四:NLTK 英文停用字表 停用字

詞性 類別

WDT Wh-determiner

WP Wh-pronoun

WP$ Possessive wh-pronoun

WRB Wh-adverb

TO to

DT Determiner

 字根還原

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

39

在英文的自然語言中通常同一個字會有過去式、現在分詞、現在進行式等同 一個字的形式變化,雖然表示的意思都是一樣的但卻有不同的表示方法,因此需 要將其各種時態都還原成原形,以便減少詞集所需要的字量,也可以減少程式上 處理的負擔,這裡是採用 nltk 的 SnowballStemmer 做字根還原。下表顯示字根還 原前後的情形。

字根還原前 disable(JJ) disabling(JJ) disabled(JJ)

字根還原後 disable(JJ) disable(JJ) disable(JJ)

字根還原前 is(DT) be(DT) been(DT) beening(DT)

字根還原後 be(DT) be(DT) be(DT) be(DT)

 詞性過濾

經過詞性標注後,針對已標記的詞性,本研究保留於英文文字中,較能表達 評論內容與具體意義的形容詞、動詞與修飾形容詞之副詞。下表現是詞性過濾前 後的情形。

詞性過濾前

This(DT) product(NN) has(VBZ) pretty(RB) awesome(JJ) design(NN)

!(.)

詞性過濾後

product(NN) has(VBZ) pretty(RB) awesome(JJ) design(NN)

 程度級別副詞修飾處理

程度級別的修飾詞通常可以使一個形容詞有更加強調的意思,比如:good 是 等於很好的意思,若在前面加上程度級別副詞的修飾變成 very good,意思是非

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

40

常好,有強調並加強其語氣,因此加上程度級別副詞將有別於沒有程度副詞,故 作此處理。下表舉例顯示處理前後的情形。

程度級別副詞處理前 product(NN) has(VBZ) pretty(RB) awesome(JJ) design(NN)

程度級別副詞處理後 product(NN) has(VBZ) awesome_Level(JJ) design(NN)

相關文件