利用剖析樹結構探討論壇評論之特徵與意見詞配對關係
全文
(2) 摘要 隨著網際網路的蓬勃發展,人們的消費習慣逐漸傾向網路購物,然而在尚未 見到實體的情況下,往往會被官方「美好」的商品照片及描述所矇蔽,因為官方 往往帶有主觀的推銷目的而不會將產品真正的優劣寫出來,故網友的評論就具有 很大的參考價值,這也是本研究進行「分析評論」以達成產品推薦的主要原因。 本研究從巴哈姆特論壇中找尋該產品的相關評論,利用中研院剖析器逐一進 行分析,從中找到標記為 Head Na 系列之詞彙 (本研究稱為特徵詞)及標記為 VH、 A 系列之詞彙(本研究稱為意見詞),由於網路評論大多為非正式中文,故在語料 庫之擷取上本論文秉持著只要有一個特徵詞或是意見詞就採納。利用投票的方式 建構出特徵詞的資料庫,意見詞資料庫的建構部分則是 與台大的情緒字典 (NTUSD)比對,並利用物以類聚法、教育部重編字典和人工標記等方式加以補充, 建 構好之資料庫可用 於處裡 分群 及给定分 數等工作, 並利用 Aspect Based Semantic Analysis (ABSA)的核心概念,藉由剖析樹進行特徵及意見詞的配對。在 輸出方面會提供使用者該產品的各項評論之特徵、意見詞、意見詞的情感分數、 特徵及意見詞之配對及整體產品的分數等,以期提供評論之重要資訊給使用者。 本論文的最後的實驗數據在特徵詞分群上有著 81.8%的正確率、意見詞的分 群上有著 87.71%的正確率,特徵詞語意見詞之配對正確率有著 87.13%,而最後 與日本亞馬遜的推薦與否在星等上有著 90%的相似度,IDF 值上有著 70%的相似 度。. 關鍵字:意見探勘、剖析樹結構、論壇評論、PVC 人形模型 i.
(3) ABSTRACT As the development of Internet, people’s consumption habits grow to tend to shopping in the online shop. However, we are usually deceived by the ‘beautiful pictures and words’ without seeing the real items. We analyze the comments which were written by netizens in the forum to avoid the manufacturer’s marketing purpose that makes us confusion that which advantages are right. This is the reason why we choose to explore the forum comments in the study. In the thesis, the study retrieve the comments in ‘Bahamūt Forum’ and then parse the reviews by CKIP(Chinese Knowledge Information Processing) parser. We extract the words with tags ‘Head Na’ as the features words, and extract the words with tags ‘VH’ or ‘A’ as the opinion words. The comments in the forum are usually unofficial, so the sentences are maybe not complete. Thus, if the sentence has one of features words or opinion words, the system will extract it. The study uses the majority vote strategy to construct the Feature_Words_Database, the Opinion_Words_Database is constructed by NTUSD, the distance from Positive_Words to Negative_Words, and the dictionary revised by the Ministry of Education. These databases are used for classification and scoring tasks. Based on the concept of ABSA(Aspect Based Semantic Anlysis), a pair of the feature word and opion word is generated. The output includes the information of feature words, opinion words, the score of the production and the pair of feature words and opinion words that can be offered to users for their reference. The experiments show the precision of feature word classification is 87.71% and opinion words classification is 81.8%. The precision of pair matching is 87.13%. Finally, the similarity of stars between the system and amazon.jp is 90%, and the similarity of IDF number between the system and amazon.jp is 70%. ii.
(4) Keywords: opinion mining, parse tree structure, forum reviews, PVC figure model. iii.
(5) 誌謝 本研究能夠如期完成,在此真的要非常感謝指導教授 侯文娟教授的細心指 導。在研究途中有好幾次怕進度落後或是內容太過簡單而給自己太大壓力,雖然 沒有直接跟教授說明,但是在 meeting 完後小聊下總能給我一種「我可以的,我 的進度沒有落後」的安全感;在研究內容遇到瓶頸時,教授總能給予最關鍵的提 示使我能解決問題,無論是大方向的 ABSA 或是內部的配對問題,教授總能運用 他專業的知識給予我解決問題的方向,讓我的研究能寫出屬於自己的特色,卻又 不失專業。這份研究能如期完成,真的要非常的感謝教授的指導及教誨。 再來我要感謝我的同期 李柏勳和陳佩瑄,感謝他們陪我度過好幾個埋頭苦 讀的夜晚,也感謝他們總在實驗室裡陪我面對各種課業上的壓力,因為有著他們 的陪伴,讓實驗室生活不會太過枯燥乏味,也因為有他們的陪伴,使我更能督促 自己讓我的研究步入正軌,在此真的非常的感謝他們兩個人。 再來要感謝我的學弟 陳弘奇,他總能利用他的知識及冷靜的處事態度幫我 們解決許多問題,在口試時也是他幫忙最多,功勞屬他最大,真的非常感謝。 再來我也要感謝我的爸媽,因為有他們,讓我得以在無其他壓力的情況下讀 完碩士學位,也非常感謝總能在我難過時給予我安慰及鼓勵,如果要說教授是指 引我方向的明燈,我的父母則是監造及維修我這艘扁舟的技師,使我能夠在無邊 學海中慢慢平安的航向屬於自己的路,非常的感謝。 最後要感謝所有曾經幫助過我的人,如果沒有他們就沒有現在的我,在此致 上最高的感謝。. iv.
(6) 目錄 第一章. 緒論 .................................................... 1. 第一節. 研究動機 ................................................ 1. 第二節. 論文架構 ................................................ 3. 第二章. 文獻探討 ................................................ 4. 第一節. SemEval-2015 Task 12(ABSA) .............................. 4. 第二節. 中文剖析系統 ............................................ 8. 第三節. NTUSD ................................................ 12. 第四節. 教育部重編中文字典 ..................................... 13. 第三章. 方法與步驟 ............................................. 15. 第一節. 緒論 ................................................... 15. 第二節. 實驗資料 ............................................... 19. 第三節. 特徵詞彙的選取 ......................................... 22. 第四節. 意見詞詞彙的選取 ....................................... 33. 第五節. 配對 ................................................... 40. 第六節. 給分機制 ............................................... 48. 第四章. 實驗結果與分析 ......................................... 50. 第一節. 特徵詞之分析與討論 ..................................... 50. 第二節. 意見詞之分析與討論 ..................................... 60. 第三節. 配對方法之分析與討論 ................................... 71. 第四節. 給分機制之分析與討論 ................................... 77. 第五章. 結論 ................................................... 86. 第一節. 摘要總結 ............................................... 86. 第二節. 未來展望 ............................................... 87. 參考文獻 ........................................................... 88 附錄 ............................................................... 93 v.
(7) 附表目錄. 表 表 表 表 表 表 表. 1:中研院語料庫的詞性標記................................................................. 9 2:中研院剖析樹符號說明表............................................................... 11 3:NTUSD 正向情緒字典節錄 ............................................................ 13 4:NTUSD 負向情緒字典節錄 ............................................................ 13 5:NTUSD 正負向皆出現之詞彙(句).................................................. 13 6:實驗來源........................................................................................... 21 7:五人之年齡、性別、職業和領域背景一覽表............................... 27. 表 表 表 表 表 表 表 表 表 表 表. 8:受評者 A 和受評者 B 之比較表 ..................................................... 27 9:受評者 A 和受評者 C 之比較表 ..................................................... 28 10:受評者 A 和受評者 D 之比較表 ................................................... 28 11:受評者 A 和受評者 E 之比較表 ................................................... 29 12:受評者 B 和受評者 C 之比較表 ................................................... 29 13:受評者 B 和受評者 D 之比較表 ................................................... 29 14:受評者 B 和受評者 E 之比較表 ................................................... 30 15:受評者 C 和受評者 D 之比較表 ................................................... 30 16:受評者 C 和受評者 E 之比較表 ................................................... 30 17:受評者 D 和受評者 E 之比較表 ................................................... 31 18:kappa 值與一致性 .......................................................................... 31. 表 表 表 表 表 表 表 表 表 表. 19:分群為「身體」之詞彙(節錄 50 個) ............................................ 51 20:分群為「整體」之詞彙(節錄 50 個) ............................................ 51 21:分群為「配件(或意義不明)」之詞彙(節錄 50 個) ..................... 52 22:受測者 A 與受測者 B 之比較表 ................................................... 57 23:受測者 A 與受測者 C 之比較表 ................................................... 57 24:受測者 B 與受測者 C 之比較表 ................................................... 58 25:kappa 值與一致性 .......................................................................... 58 26:系統與投票之分群表..................................................................... 58 27:分群為「正向」之詞彙(節錄 30 個) ............................................ 61 28:分群為「負向」之詞彙(節錄 30 個) ............................................ 61. 表 表 表 表. 29:分群為「模糊」之詞彙(節錄 30 個) ............................................ 61 30:受測者 A 與受測者 B 之比較表 ................................................... 66 31:受測者 A 與受測者 C 之比較表 ................................................... 66 32:受測者 B 與受測者 C 之比較表 ................................................... 67. 表 33:kappa 值與一致性 .......................................................................... 67 表 34:系統與投票之分群表..................................................................... 67 vi.
(8) 表 35:測試資料中單純使用 NTUSD 無法判定極性之詞彙(節錄 20 個詞) 表 表 表 表 表 表 表 表 表. ............................................................................................................... 71 36:受測者 A 與受測者 B 之比較表 ................................................... 71 37:受測者 A 與受測者 C 之比較表 ................................................... 72 38:受測者 B 與受測者 C 之比較表 ................................................... 72 39:kappa 值與一致性 .......................................................................... 72 40:受測者 A 與受測者 B 之比較表 ................................................... 73 41:受測者 A 與受測者 C 之比較表 ................................................... 74 42:受測者 B 與受測者 C 之比較表 ................................................... 74 43:kappa 值與一致性 .......................................................................... 74 44:測試資料中星等與 IDF 之對應表 ................................................ 78. 表 45:本研究之星等、IDF 與日本亞馬遜提供之星等比較表 ............. 79 表 46:臉書社團和巴哈姆特收集之評論列表......................................... 83. vii.
(9) 附圖目錄. 圖 圖 圖 圖 圖 圖 圖. 1:各領域之實體、特徵標籤(Pontiki et al., 2015) ............................... 5 2:中研院剖析器所輸出的結構樹範例................................................. 8 3:教育部重編中文字典內文範例....................................................... 14 4:整體架構圖....................................................................................... 15 5:整體流程圖....................................................................................... 17 6:多個同層 VH 狀況 ........................................................................... 18 7:綜合公仔玩具討論區首頁............................................................... 19. 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖. 8:內部互動模式................................................................................... 19 9:主要來源的 ALTER 和壽屋之首頁 ................................................ 20 10:溢色說明圖..................................................................................... 24 11:色移說明圖 ..................................................................................... 24 12:分群依據解釋圖............................................................................. 26 13:特徵分群之流程圖......................................................................... 32 14:「不僅是手指腳指的細節也清晰分明」之剖析結果................... 34 15:極性標示之流程圖......................................................................... 37 16:形容詞分類極性之流程圖............................................................. 39 17:配對句型 1(N+V)...................................................................... 41 18:配對句型 2(N+VP) ................................................................... 42. 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖. 19:配對句型 3(NP+V) ................................................................... 42 20:配對句型 4(NP+VP) ................................................................. 42 21:配對句型 5(NULL+V) .............................................................. 43 22:「我覺得這隻的嘴唇是整隻的 vip 抿得超好看」剖析圖 ........... 44 23:剖析出句子不完整無法分析,或是語意錯誤不合文法(%)....... 44 24:基本的直接配對............................................................................. 46 25:特徵詞與多個意見詞配對............................................................. 46 26:有否定詞之配對............................................................................. 46 27:無特徵詞之配對............................................................................. 47 28:無意見詞之配對............................................................................. 47. 圖 圖 圖 圖. 29:「這貓耳娘超讚的」之剖析結果................................................... 52 30:「這把槍超滿意」之剖析結果....................................................... 53 31:「刀超帥的啦」之剖析結果........................................................... 53 32:「超帥的啦」之剖析結果............................................................... 53. 圖 33:「這隻小鳩很可愛」之剖析結果................................................... 54 圖 34:「牛鬼真的是可愛到犯規了」之剖析結果................................... 54 viii.
(10) 圖 35:「五十鈴怎麼可能有這麼嬌羞的表情」之剖析結果................... 55 圖 圖 圖 圖 圖 圖. 36:「完全不馬虎的 EX 咖哩棒」之剖析結果..................................... 55 37:「話說那支蓮蓬頭真的讓鉛筆覺得是多餘的」之剖析結果....... 56 38:「機身塗裝呈現非常柔和的霧面卡其迷彩配色」之剖析結果... 56 39:特徵詞測試資料中在訓練資料出現過與沒出現過之圓餅圖..... 59 40:特徵詞之 Precision、Recall 和 F-score 之長條圖 ....................... 59 41:特徵詞含訓練資料與否之正確率、回收率和 F-score 比較長條圖. ............................................................................................................... 60 圖 42:「尤其是武器跟配件~~~讚到爆掉」之剖析結果......................... 62 圖 43:「還原度高到掉渣」之剖析結果................................................... 62 圖 44:「可愛的貓耳朵是凜這次造型的一大特色阿」之剖析結果....... 63 圖 圖 圖 圖 圖 圖 圖 圖. 45:「藍色真的跟傻巴很搭啊」之剖析結果....................................... 63 46:「槍托後的防滑紋路以及螺絲也不馬虎!」之剖析結果........... 64 47:「飛行中秀髮飄逸的感覺也還原的很棒」之剖析結果............... 65 48:「對於細節地方的描繪也很深」之剖析結果............................... 65 49:「不完全包覆真的相當性感」之剖析結果................................... 66 50:意見詞測試資料中在訓練資料出現過與沒出現過之圓餅圖..... 68 51:意見詞之 Precision、Recall 和 F-score 之長條圖 ....................... 69 52:特徵詞含訓練資料與否之正確率、回收率和 F-score 比較長條圖. ............................................................................................................... 70 圖 53:張莊平(2012)實驗的 Precision、Recall 和 F-score 之長條圖 ..... 73 圖 54:本研究實驗的 Precision、Recall 和 F-score 之長條圖 ............... 75 圖 圖 圖 圖 圖 圖. 55:張莊平和本研究方法之比較長條圖............................................. 76 56:剖析系統認定結構不完善之範例................................................. 76 57:本研究之星等與日本亞馬遜之星等比較長條圖(PART1) .......... 80 58:本研究之星等與日本亞馬遜之星等比較長條圖(PART2) .......... 80 59:本論文之星等與日本亞馬遜之星等差距長條圖......................... 81 60:產品「噬神者亞莉莎・伊莉妮提娜・阿米耶拉」的四則 PO 文. ............................................................................................................... 83 圖 61:臉書社團、巴哈姆特及日本亞馬遜之星等相似度長條圖......... 85. ix.
(11) 第一章 緒論 本章節將會從研究動機及論文架構進行探討,說明為何會選用 PVC 人形模型 作為主題、選擇評論作為產品推薦之用意,及各章節內容之初步介紹。. 第一節 研究動機 近幾年隨著大數據的發展,資料探勘和數據分析等技術日漸受人重視,並普 遍應用於各行各業,本研究以探討「大數據應用於商業行為」作為方向,也就是 所謂的產品推薦系統。又隨著網際網路的興起,使得人們漸漸習慣於在網路消費 而非去實體店面,因此在評斷該商品時往往會藉由官方圖片、描述和網友的評論 進行衡量,因官方往往帶有主觀推銷目的而不會將產品真正的優劣寫出來,故網 友的評論就佔有很大的參考價值,這也是本研究進行「分析評論」來達成產品推 薦的主要原因。 PVC 人型模型大多會在「WF 模型展」(WF,ワンダーフェスティバル| Wonder Festival)上釋出作品情報,包含角色製作預定、白模(未上色之模型)、 成品、價錢和發行時間,由於該展覽的規模非常浩大,在海內外都具有相當的知 名度,因此除了各大廠商會在此展覽會場中,盡可能的將自己旗下的作品展出以 吸引消費者的目光外,也有一些小型工作室和個人名義會去參展,眾多的模型資 訊會在當下同時釋出,並開始開放預購。但可惜的是只有去展覽會場的人才有機 會目睹成品風采,其他消費者大多都是由官方釋出的模型圖片判斷是否要預購; 再者就算是已經實際在販賣且台灣也有代理進來的作品,也有可能因為市場機制 而被哄抬價格,使得本來就不算便宜的模型價格更加上升。台灣有實際展出並販 1.
(12) 賣的實體店面除了台北車站的 Y 區地下街和為數不多的動漫商品店外,大多都是 以網路商店為主,在無法親眼看見實品以便判斷的狀況下,自然就會有許多的論 壇主題和社團分享自己買的開箱文、勸敗文(推坑文、推薦文)、分析模型的優劣 和各廠商的優劣等內容,消費者自然就可以藉由這些資訊判斷是否要預購或是是 否值得買下該商品。 藉由情緒分析可以了解該評論的正負向,然而許多詞彙會隨著領域的不同而 有著不同極性,例如「大膽」一詞在 NTUSD(National Taiwan University Semantic Dictionary)(Ku & Chen,2007)中是正負向皆有出現,藉由教育部重編國語辭典修正 本可知負向部分是取用「斗膽」這項意思去解釋該詞的極性,但在模型領域上是 以「不畏怯」做為解釋,其中包含勇於嘗試新元素的正向意義在,故該詞定為正 向。因此在進行情緒分析時除了以 NTUSD 為基礎,仍須依循該領域的情緒特性 方能進行判定,但目前各項產品推薦之相關學術論文,以 3C 產品類居多,例如 Liu et al.(2013)就以電腦為主題進行中文情緒分析之研究。而近年來 SemEval (Semantic Evaluation) (http://alt.qcri.org/semeval2015/) 所 提 供 的 ABSA(Aspect Based Sentiment Analysis)研究領域則為「筆電(Laptops)」 、 「飯店(Restaurants)」和 「旅館(Hotels)」 ,因此本研究欲將產品推薦帶進 PVC 人型模型的領域中,並建構 出屬於該領域的產品推薦系統。. 2.
(13) 第二節 論文架構 本論文的組織大綱如下:第一章為研究動機。第二章則是進行文獻探討,其 中包含相關之研究和方法,如 SemEval2015 的相關 ABSA 研究論文、NTUSD 資 料庫、中研院中文剖析系統等。第三章則是本論文的研究方法,包含定義域的資 料庫建構、整體流程表等。第四章則是研究成果。第五章為結論與未來展望。. 3.
(14) 第二章 文獻探討 本章節將詳細介紹 ABSA 的相關文獻及這些研究處理斷詞與情緒分析的細部 探討。本論文所用的中文斷詞剖析器及情緒字典也會在此章節做詳細的介紹。. 第一節 SemEval-2015 Task 12(ABSA) SemEval (Semantic Evaluation,語意評估)為 SIGLEX(Special Interest Group on the Lexicon)以處理計算語言學所舉辦的研討會,而 2015 年正是該會舉辦的第九 屆。前三次的評估(Senseval-1 到 Senseval-3)主要在探討消除歧義,自 2007 年的第 四屆(SemEval-1)開始演變為包含詞義消歧之外的語意分析的議題。2015 年的研討 會共探討 18 個子任務,而本論文著重研究的則為第 12 個子任務 Aspect Based Sentiment Analysis(ABSA 方面為基的情緒分析)。 該任務又包含三個子任務,分別為 1.Aspect Category(判定所屬之面向類別)。 2.Opinion Target Expression(OTE,意見擷取)。 3.Sentiment Polarity(情緒極性分析)。 該任務分析的三個領域分別為「筆電(Laptops)」 、 「飯店(Restaurants)」和「旅 館(Hotels)」,前兩項給予訓練資料(training data)進行 In-domain ABSA,而第三項 直接利用測試資料(test data)進行 Out-domain ABSA,比較其優劣。 San Vicente 等學者(2015)利用 Elixa 系統進行研究,該系統是基於 IXA pipes tools(Agerri et al., 2014)和 Weka (Hall et al., 2009)所構成的。利用𝑖𝑥𝑎-𝑝𝑖𝑝𝑒-𝑛𝑒𝑟𝑐 Named Entity Recognition system(https://github.com/ixa-ehu/ixa-pipe-nerc)進行意見 4.
(15) 擷取,使用 Browm et al. (1992)、Clark(2003)和 Mikolov et al.(2013)三種方法進行 分群,並使用 Weka library 判定極性後,再利用 SentiWordnet(Baccianella et al., 2010)、General Inquirer(Stone et al., 1966)、Opinion Finder(Wilson et al., 2005)和 Liu’s sentiment lexicon(Hu and Liu, 2004)使極性數值化。 Pontiki et al.(2015)手動給定各領域的實體標籤和特徵標籤並用 SVM 進行分 群,使系統可以找尋關鍵字後給予極性,筆電領域採用{E#A, polarity}的形式,而 剩下的飯店和旅館領域採用{E#A,OTE, polarity}的形式,其中 E 為 entity,例如 Laptop、Mouse、Restaurant 和 food 等;A 為 attribute,例如 Design、Price 和 Quality 等 ; OTE 為 意 見 擷 取 , 可 以 為 普 通 名 詞 例 如 place 、 bed 等 、 複 合 名 詞 如 conference/banquet room、vitello allamarsala 等,或是名詞實體如 The Four Seasons 等。polarity 為極性,其極性值為正向、負向和自然(輕微正向或輕微負向),下圖 1 為該論文提供各領域之詳細的實體、特徵標籤。. 圖 1:各領域之實體、特徵標籤(Pontiki et al., 2015) Jiménez-Zafra et al.(2015)利用形容詞、主被動詞、名詞和關係代名詞等詞性 5.
(16) 當作特徵用以分析意見,並用 SentiWordNet(Miller, 1995)、MPQA(Wilson et al., 2005)和 eBLR(Lu et al., 2011)三個字典和 SVM 分析其極性。Garcıa-Pablos et al.(2015)利用 Liu et al.(2014)的所建構的 aspect-terms 和 opinion-words 進行意見擷 取和語意分析,並用 Word2Vec (Mikolov et al., 2013)計算句子中的詞和屬性間的 距離以用於分群。極性也是利用相同概念:正向的詞與正向詞距離較為相近,反 之亦然的概念,利用正向與 Part-of Speech(POS)的距離減去負向與 POS 的距離, 若為正則屬於正向,小於零則為負向。而 De Clercq et al.(2015)在進行極性分析時 則是用 Pointwise Mutual Information(PMI)(Church and Hanks, 1990),也就是正向被 標記出來的頻率減去負向被標記的頻率,大於零則為正向,反之則為負向。 Koppula et al.(2015)在句子的處理上使用兩項規則: 1. 簡化句子(Clean the Sentence)。 2. 分割句子(Slipt the Sentence)。 在簡化句子的處理上除了將冠詞(a, an, the)去掉外,若出現「but」則會在該 字前面加上「,」。因為「but」為轉折語氣,因此由「,」分開成為兩句;而「at」 和「with」的後方三字內如果出現形容詞則會加上「,」。 分割句子就是由「,」和「and」去進行,若是分割後發現該句沒有名詞,則 會利用前一句的名詞;若是沒有形容詞也和上述方法相同。但若是分割後發現名 詞和形容詞皆沒有的狀況,則與前一句合併。接著使用 Wordnet 計算字與字的距 離和經由 SVM 分群後,再利用 TF-IDF 值和 Categorical Probability Proportion Difference(Agarwal et al., 2012)進行情緒分析。 Saias(2015)是利用 MALLET(McCallum,2002)進行分群,意見擷取中發現若是 6.
(17) 有一個特徵沒有任何屬性,則會找尋出現頻率最多的屬性代替;沒有特徵卻有一 個屬性時也是同樣的處理方式。然而若是同時有多個特徵及屬性時則全數進行配 對。在進行情緒分析時,該研究提供幾項規則進行尋找: 1. 利用 BoW(Bag of Word)將每個分割下來的字作為特徵。 2. 找尋動詞及形容詞。 3. 動詞後面取出 bigram。 4. 紀錄負向詞彙。 5. 負向詞彙後面取出 bigram。 6. 找尋驚嘆號及問號。 7. 依據參考的情緒字典存取極性詞彙(包含正負向)。 8. 是否有極性詞彙出現在驚嘆號或問號的前面。 9. bigram 前後是否出現極性詞。 10. 利用極性詞彙的否定詞判定負向。 11. 最後五個字是否出現極性詞彙。 12. 给與領域、實體型態及屬性的特徵。 這些規則是依循 AFINN lexicon(Nielsen, 2011)、Bing Liu’s opinion lexicon(Liu et al., 2005)和 MPQA subjectivity clues(Wilson et al., 2005)所整理出來的。. 7.
(18) 第二節 中文剖析系統 詞是最小有意義且可以自由使用的語言單位(中研院斷詞系統引言 http://ckipsvr.iis.sinica.edu.tw/),在英文上斷詞時可以利用「空白」判斷,然而在 中文上就相對麻煩,一旦無法分割出詞彙,自然無法分析其詞性及極性,因此正 確的分割出「詞」是一項非常重要的工作。 在分析中文上本研究是 使用中研院(Academia Sinica)所開發的剖析系統 (http://parser.iis.sinica.edu.tw/),該剖析系統是利用逗號、句號、驚嘆號和問號進行 斷句。分析結果除了會將詞彙切割出來,還會給予該詞的詞性並以結構樹的方式 呈現。 利用該系統可以有效的發現所需的詞性有哪些詞彙,並將之建構出資料庫以 用於研究上。張莊平(2012)、陳昱年(2013)和陳傳生(2014)在中文斷詞的處理上皆 利用該系統進行他們研究上的前處理工作。. 圖 2:中研院剖析器所輸出的結構樹範例 如圖 2 所示,從結構樹中可以很清楚發現該例句的主要名詞為「槍」,而主 8.
(19) 要的形容詞為「精緻」。該系統給予之結構樹描述為:S(agent:NP(Head:Nab: 槍 )|Head:VC31: 做 |complement: 得 ‧ VP(Head:DE: 得 |head:VP(degree:Dfa: 好 |Head:VH11:精緻)))。上述字串輸出為便於程式分析詞性、字彙和層級等,而結構 樹之輸出方式則為方便工程師了解該程式之正確與否,以便於維護及修正。 中研院語料庫的詞性標記及如表 1 所示:. 表 1:中研院語料庫的詞性標記 精簡詞類. 簡化標記. 對應的CKIP詞類標記. A. A. A. 非謂形容詞. C. Caa. Caa. 對等連接詞, 如:和、跟. POST. Cab. Cab. 連接詞,如:等等. POST. Cba. Cbab. 連接詞,如:的話. C. Cbb. Cbaa, Cbba, Cbbb, Cbca, Cbcb. 關聯連接詞. ADV. Dfa. Dfa. 動詞前程度副詞. ADV. Dfb. Dfb. 動詞後程度副詞. ASP. Di. Di. 時態標記. ADV. Dk. Dk. 句副詞. ADV. D. Dab, Dbaa, Dbab, Dbb, Dbc, Dc, Dd, Dg, Dh, Dj. 副詞. N. Na. Naa, Nab, Nac, Nad, Naea, Naeb. 普通名詞. N. Nb. Nba, Nbc. 專有名稱. N. Nc. Nca, Ncb, Ncc, Nce. 地方詞. N. Ncd. Ncda, Ncdb. 位置詞. N. Nd. Ndaa, Ndab, Ndc, Ndd. 時間詞. DET. Neu. Neu. 數詞定詞. DET. Nes. Nes. 特指定詞. DET. Nep. Nep. 指代定詞. DET. Neqa. Neqa. 數量定詞. POST. Neqb. Neqb. 後置數量定詞. M. Nf. Nfa, Nfb, Nfc, Nfd, Nfe, Nfg, Nfh, Nfi 量詞. POST. Ng. Ng. 後置詞 9.
(20) N. Nh. Nhaa, Nhab, Nhac, Nhb, Nhc. 代名詞. Nv. Nv. Nv1,Nv2,Nv3,Nv4. 名物化動詞. T. I. I. 感嘆詞. P. P. P*. 介詞. T. T. Ta, Tb, Tc, Td. 語助詞. Vi. VA. VA11,12,13,VA3,VA4. 動作不及物動詞. Vt. VAC. VA2. 動作使動動詞. Vi. VB. VB11,12,VB2. 動作類及物動詞. Vt. VC. VC2, VC31,32,33. 動作及物動詞. Vt. VCL. VC1. 動作接地方賓語動詞. Vt. VD. VD1, VD2. 雙賓動詞. Vt. VE. VE11, VE12, VE2. 動作句賓動詞. Vt. VF. VF1, VF2. 動作謂賓動詞. Vt. VG. VG1, VG2. 分類動詞. Vi. VH. VH11,12,13,14,15,17,VH21. 狀態不及物動詞. Vt. VHC. VH16, VH22. 狀態使動動詞. Vi. VI. VI1,2,3. 狀態類及物動詞. Vt. VJ. VJ1,2,3. 狀態及物動詞. Vt. VK. VK1,2. 狀態句賓動詞. Vt Vt. VL V_2. VL1,2,3,4 V_2. 狀態謂賓動詞 有. T. DE. 的, 之, 得, 地. Vt. SHI. 是. FW. FW. 外文標記. COLONCATEGORY COMMACATEGORY DASHCATEGORY ETCCATEGORY EXCLAMATIONCATEGORY PARENTHESISCATEGORY PAUSECATEGORY. 冒號 逗號 破折號 刪節號 驚嘆號 括弧 頓號. PERIODCATEGORY QUESTIONCATEGORY SEMICOLONCATEGORY SPCHANGECATEGORY. 句號 問號 分號 雙直線. 如表 1 所示,本研究利用 CKIP 詞類進行標記,特徵詞取標記為 Head Na 系 10.
(21) 列的詞,例如 Naa 和 Nab 等,在系統中無論標記為 Naa 或是 Nab 等,都會當做 Na;意見詞則是取標記為 VH 系列和 A 系列的詞,如 VH11、VH12 和 A 等,剖 析結果無論標記為 VH11 或是 VH12 等,都會當做 VH。 中研院剖析樹符號、語意及結構整理表以表 2 進行說明:. 表 2:中研院剖析樹符號說明表 符號/語意角色. 說明. /詞組結構 #. 以「#」置於前後,作為一結構樹段落。. (). 詞組的組合成分為複雜結構,「(」和「)」標示其詞組結構左右 邊界。. |. 分隔在同一層次上的成分結構。. Head. 語法上的中心語。. head. 實際具有意義的語義中心語。. DUMMY. 未定的語意角色. 其他語義角色. agent、addition、alternative、apposition、aspect、avoidance、 benefactor、causer、companion、comparison、complement、 condition、concession、conclusion、contrast、conversion、degree、 deixis、deontics、duration、epistemics、evaluation、exclusion、 experiencer、frequency、goal、hypothesis、imperative、inclusion、 instrument、interjection、listing、location、manner、negation、 nominal、particle、possessor、predication、property、purpose、 quantifier、quantity、range、reason、recipient、rejection、restriction、 result、selection、source、standard、target、theme、time、topic、 uncondition、whatever 等等. S. 表示結構樹為句子(S),以述詞為中心語;此外當主詞和述詞的 賓語或補語的型式為句子或子句的時候,詞組結構標記為 S,不 為 NP。. VP. 述詞詞組,中心語為述詞(V)。. 11.
(22) NP. 名詞詞組,中心語為名詞(N)。. GP. 方位詞詞組,中心語為方位詞(Ng),所帶論元角色為 DUMMY。. PP. 介詞詞組,中心語為介詞(P),所帶論元角色為 DUMMY。. XP. 連接詞詞組,中心詞為連接詞(C),X 代表一個變數,XP 的真正 詞類由連接成分決定。. DM. 定量詞詞組。. %. 代表的即是句子不完整無法分析,或是語意錯誤不合文法。 從表 2 中可知「Head」為整句的中心語,而「head」則為有意義的的中心語,. 故在找尋特徵詞時會利用該標記進行查詢,以確保找出之特徵詞為該句最主要的 名詞;此外由於網路評論往往為非正式中文,大多為口語化的語句,故在進行剖 析時常常會出現剖析器認為該句是不完整的,並給予「%」的標籤,但在本論文 無論是否為完整的句子(S)、述詞子句(VP)、名詞子句(NP)或是語意不完整之句子 (%),只要符合該句有一個特徵詞或是有一個意見詞之狀況,就會採納作為語料 庫進行分析。 舉例上如同圖 2 所示,本研究利用「Head」或「head」找尋主要的中心語, 例如 Head Na 即為該句的主要名詞。並利用「|」得知中文詞彙之位置,及利用「()」 標註該詞彙之層級等。. 第三節 NTUSD 本研究參考台灣大學意見詞情緒辭典(NTUSD,National Taiwan University Semantic Dictionary)(Ku & Chen,2007)。該字典包含許多常見的意見詞彙及應用小 短句,並予以正向極性(NTUSD positive)及負向極性(NTUSD negative),至於該詞 (句)意義若無法只分在一個極性上時,該詞彙(句)則會同時被收錄在正向及負向中。 12.
(23) 本研究使用的為舊版的 NTUSD,共收錄 2810 個正向辭彙及 8276 個負向辭彙, 表 3 節錄部份正向詞彙(句);表 4 節錄部份負向的辭彙(句) ,而表 5 則節錄部分 兩者皆出現的詞彙(句)。. 表 3:NTUSD 正向情緒字典節錄 一帆風順. 人情味. 人格高尚的. 大方. 不成為問題的. 不屈不饒. 心滿意足. 本著良心的. 由衷的高興. 有才幹的人. 有用. 勳績. 整齊的. 幫助脫離困境. 豐富的. 不動搖的. 不任性的. 勤勉的. 意味深長. 達成. 實用. 實際可行. 鼓舞人心的人. 喜出望外. 尊重. 表 4:NTUSD 負向情緒字典節錄 一下子爆發. 人為的. 刀刃. 大失敗. 大聲地要求. 小題大作. 不大可能之事. 偽造品. 假的. 心機很重. 水火不容. 笑裡藏刀. 逃之夭夭. 馬屁話. 國家仇恨. 下垂. 大爛人. 大惑不解. 被利用. 規避. 被雷打死. 羞羞羞. 竟然一直給我. 悲痛欲絕. 跩甚麼鬼. 表 5:NTUSD 正負向皆出現之詞彙(句) 入迷的. 入迷. 不可思議的. 快活. 殷勤. 羞怯. 羞怯的. 大膽. 大膽的. 溺愛. 嚴肅. 嚴肅的. 擔負. 第四節 教育部重編中文字典 教育部於民國二十年開始編輯國語字典原編本,後於民國七十年修訂重編國 語辭典,並於民國八十三年完成網路版,自八十三年至今網路版累計人數已超過 2.5 億人次。該研究使用台灣學術網路五版試用版,單字數約 11930 筆、異體字 13.
(24) 約 1848 筆、詞語記錄筆數約 152398 筆,可利用字辭、注音和筆畫的方式進行檢 索,內文範例如圖 3 所示,包含字詞、注音、漢語拼音、相似相反詞和釋義。其 中相似詞、相反詞及釋義的資訊將被本研究參考使用。. 圖 3:教育部重編中文字典內文範例. 14.
(25) 第三章 方法與步驟 本章節將詳細解釋本論文採用之方法、架構圖、流程圖、資料庫建構和資料 來源等,藉由中央研究院剖析器,將收集之句子進行前處理,找尋所需之資訊後 進行分析。. 第一節 緒論 本研究主要研究的議題為 PVC 人型模型評論,整體架構圖由建構資料庫及配 對輸出組成,並以圖 4 進行說明。. 評論擷取及剖析. 意見詞分群. 特徵詞分群. 配對輸出. 圖 4:整體架構圖. 15. 資 料 庫 之 建 構.
(26) 建構資料庫:該步驟為蒐集資料、建構資料庫到分群。利用「巴哈姆特」論 壇(https://www.gamer.com.tw/ )收集該產品的相關評論後至中研院剖析器分析句 子,利用詞性尋找該評論的特徵(名詞部分)及意見詞(形容詞部分)。本論文將特徵 分成「身體」、「本體」和「配件(及意義不明)」三個群,而意見詞則與 NTUSD 進行比對,從而創建出屬於該研究領域的意見詞字典,並給予其正負向之極性以 建構出情緒字典。 配對輸出:利用中研院剖析系統提供的結構樹可以有效地將上步驟所找到的 特徵及意見詞配對在一起,以提供使用者類似「評論摘要」的功能,並在最後給 予整體產品之分數及推薦與否以提供使用者做為參考依據。. 圖 5 為整體實驗之流程圖,利用巴哈姆特論壇找尋產品之文章及評論後,至 中研院剖析系統進行文句之剖析標記詞性,同時處理標記為 Head Na 或專有名詞 的特徵詞和標記為 VH、A 或是專有名詞的意見詞。利用投票、其他字典補充等 方式進行分群和標記極性分數,隨後將該句之特徵詞及意見詞配對輸出,並給予 推薦與否之建議。. 16.
(27) 巴哈姆特 論壇. 剖析處理. 中研院剖 析系統. 特徵擷取. 領域專有. 投票分群. 名詞. 標記分群 意見詞擷取. NTUSD. 配對. NTUSD 是否 有對應. 該句是否有 其他已標記 之意見詞. 否. 是 輸出摘要評論 分數及推薦 結果. 是 否 尋找同義詞 或反義詞. 標記極性及 分數. 教育部重 編字典 是. 同義詞或反義詞 是否對應 NTUSD. 否. 投票分群. 圖 5:整體流程圖 17.
(28) 整體概念與 SemEval-2015 Task12 的飯店、旅館採用的{E#A,OTE, polarity}形 式一樣,唯一不同的是本研究沒有進行 SemEval-2015 Task12 的第一步驟(Aspect Category),因為本研究只有一個 PVC 人形模型領域而不像 SemEval-2015 Task12 要區分「筆電(Laptops)」、「飯店(Restaurants)」和「旅館(Hotels)」三個領域。在 分析上本研究的特徵及意見詞皆會進行分群,並以{特徵(群)}及{意見詞[極性]} 的方式輸出。OTE 的部分則是用配對的方式達成,會由一個 Head Na 配上一個 VH 作為一句評論的摘要,而一句評論未必只會有一句摘要,如果分析出有多個 同層的 Head Na 或是有多個同層的 VH 等狀況時,則會依序配對並輸出。. 圖 6:多個同層 VH 狀況 如圖 6 所示,Head Na 為「圍巾」,而同層的 VH 為「飄逸」及「棒」,因此 在輸出時就會輸出「圍巾+飄逸」及「圍巾+棒」兩句。. 18.
(29) 第二節 實驗資料 巴哈姆特電玩資訊站,簡稱「巴哈姆特」、「巴哈」,成立於 1996 年 10 月 28 日,為台灣最大的 ACG(Anime, Comics & Games)討論網站之一,站內目前有 28847 個哈拉版(專門討論版)(2017 年 6 月的資料)。 本研究以「綜合公仔玩具討論區」進行資料之收集,該版目前已有 4343 篇 文章,以情報文和心得文為主,少有謾罵的負面文章及廣告文出現。內部格式往 往是發文者發一篇文章後,其他人在下方與發文者進行互動,有短評和長篇文章 兩種互動方式,討論區首頁及互動則分別為圖 7 和圖 8 所示。. 圖 7:綜合公仔玩具討論區首頁. 圖 8:內部互動模式 19.
(30) 本論文從兩個網路評價極高的模型製造商和一個老招牌的模型製造商網頁 中找尋產品,再到巴哈姆特找尋該產品的評論,其中 ALTER(https://alter-web.jp/) 的產品共有 39 件,cLayz(http://clayz-online.com/)的產品 1 件和 KOTOBUKIYA | 株 式会社 壽屋 コトブキヤ (http://www.kotobukiya.co.jp/ )的產品共 8 件,實驗資料 主要年份為 2010~2016。產品的選取上採用網路討論度高及本論文認為具有發展 潛力之之產品,語料庫的建構上考慮是網路評論大多為口語、非正規之中文語句, 故在擷取上無論剖析為完整或是片段之句子,只要至少要有一個名詞或一個形容 詞即納入語料庫。訓練資料總共有 48 件產品,評論總共 630 句。圖 9 為產品主 要來源之首頁,表 6 為產品列表。. 圖 9:主要來源的 ALTER 和壽屋之首頁 利用圖 9 之紅色框框可找尋該公司所生產之 PVC 人形模型產品總表,本研究 即為利用此功能進行產品之選擇。 20.
(31) 表 6:實驗來源 數目. 產品 水着 Ver. 出廠年分/月份. 評論數. 2015/10. 4. 1. FateEXTRA セイバーエクストラ. 2. エイラ・イルマタル・ユーティライネン. 2013/ 3. 12. 3. エーリカ・ハルトマン. 2013/ 3. 13. 4. ゲルトルート・バルクホルン. 2013/ 6. 16. 5. サーニャ&エイラ. 2016/ 5. 4. 6. サーニャ・V・リトヴャク. 2010/ 7. 13. 7. 14. 8. サーニャ・V・リトヴャク ロケットブースター 2013/12 Ver シャーロット・E・イェーガー 2012/ 3. 9. シャーロット・E・イェーガー. 2016/ 4. 4. 10. ハイデマリー・W・シュナウファー. 2015/ 5. 2. 11. ハンナ・ユスティーナ・マルセイユ. 2013/ 5. 28. 12. ヒロイン X. 2016/ 1. 8. 13. ブラックハート. 2105/11. 21. 14. フランチェスカ・ルッキーニ. 2014/ 6. 4. 15. マスターアルトリア. 2016/ 7. 16. 16. ミーナ・ディートリンデ・ヴィルケ. 2011/ 9. 12. 17. めんま. 2016/ 3. 21. 18. リネット・ビショップ. 2014/ 7. 6. 19. 千斗 いすず. 2016/ 6. 18. 20. 古手川 唯. 2016/ 1. 22. 21. 矢澤 にこ. 2016/ 6. 13. 22. 西木野 真姫. 2016/ 9. 28. 23. 西木野 真姫. 2015/ 7. 30. 24. 坂本 美緒. 2014/ 3. 8. 25. 忍野 忍. 2015/ 7. 5. 26. 谷川 柑菜. 2016/ 3. 5. 27. 宝蔵院胤舜. 2015/ 6. 10. 28. 東條 希. 2016/ 8. 16. 29. 南 ことり. 2015/ 8. 22. 30. 後藤又兵衛. 2016/ 1. 6. 31. 星空 凛. 2015/11. 13. 32. 春日野 穹. 2015/ 3. 4. 33. 飛鳥. 2014/ 7. 28. 水着 Ver. Ver.2. 水着 Ver. 水着 Ver. 剣姫 Ver. 命駆 Ver 21. 11.
(32) 34. 桐崎 千棘. 2015/10. 13. 35. 黒咲 芽亜. 2016/ 5. 24. 36. 結城 友奈. 2105/11. 12. 37. 結城 美柑. 2014/ 8. 5. 38. 結城 美柑. スク水 Ver. 2015/ 1. 6. 39. 絢瀬 絵里. 水着 Ver. 2016/ 3. 10. 40. セイバー・エクストラ. 2012/ 4. 7. 41. エミリア. 2016/ 9. 14. 42. シノン -Phantom Bullet-. 2014/ 9. 16. 43. 千斗いすず. 2015/ 5. 10. 44. 由比ヶ浜 結衣. 2015/10. 12. 45. 羽瀬川 小鳩. 2013/10. 14. 46. 時崎狂三. 2015/ 5. 15. 47. 高垣楓 -はじまりの場所-. 2016/ 8. 14. 48. 雪ノ下 雪乃. 2015/12. 21. 表 6 普遍評論較少的原因為大多數的文章屬於「情報文」,因此內部大多為 價格、發售日和製造商介紹等,即使是「心得文」也大多是以圖片為主,並且告 知內部零件或組裝須知等較為「客觀」的評論,因此本研究的資料大多採用文章 下方短評的內容。. 第三節 特徵詞彙的選取 在特徵的選取上,本論文利用中研院剖析器分析後標示為「Head Na 系列」(主 要普通名詞)的作為產品的特徵,然而有一些屬於 PVC 人形模型的專有名詞在剖 析上可能無法準確被剖析為「Na」,以下將詳細介紹: 1. 塗裝(とそう) 在中研院剖析器中被標為「VC」,goo 日語字典(https://dictionary.goo.ne.jp/ ) 中解釋為為了保護或裝飾而在表面上所塗上的漆。教育部新編字典雖無此詞彙, 22.
(33) 但在國家教育研究院的「雙語詞彙、學術名詞暨辭書資訊網」 (http://terms.naer.edu.tw/ )中有紀錄該英文為 coating,在化學術語中有其他的詞語 為「塗料」,在教育部重編國語辭典修訂本中有紀錄,即為塗在物體表面,能使 物體美觀或防止物體腐蝕的物質,如油漆、繪畫顏料、煤焦油等。該詞在本領域 廣泛被提起,在本研究的訓練資料中出現 36 次之多,因此將之列為特徵。訓練 資料的例句為:梯子塗裝也很棒、這次的塗裝真的很棒等。 2. 作(做)工 作,在國語日報辭典(1999)提到為「創造」 ,教育部重編國語辭典修訂本也說 明該字有「創作」、「製造」之意,而工則有「技巧」之意,因此作工一詞應被用 在「創造、製造的技巧」 ;至於做是「為」的意思,國語日報辭典中提到做: 「為」, 如做工、做事。然而現在許多人將作與做二字搞混,故本研究將作工及做工定義 為「創造、製造的技巧」 。該詞在本領域也常被提起,在訓練資料中也有被提起 8 次,因此列入特徵。訓練資料的例句為:手指和護腕的做工也是很棒、手指做工 還算精細等。 3. 溢色 溢,過分、過度的。溢色即為「過分的顏色」,也就是塗裝上出現不該出現 的顏色,例如塗出色塊、塗裝上的瑕疵或是在出廠時就產生色移等狀況。簡而言 之就是塗裝出現瑕疵,因此雖然中研院剖析器定義該詞為「Na」,但本研究決定 將之歸於「負向極性」的屬性,因為這是本研究領域少數的專有負向詞。測試資 料例句為:右手跟鞋子都有輕微溢色或毛邊但程度都很輕微。. 23.
(34) 4. 色移(色移り、いろうつり) 與溢色同屬於塗裝上的問題,goo 日語字典上定義為染色。與溢色較為不同 的是溢色比較常出現在製作時所產生的瑕疵,而色移比較常出現於搬運和保存時 與其他物體相碰導致染色。因為也是屬於塗裝上瑕疵的狀況,因此本研究也將之 歸於「負向極性」的屬性。測試資料的例句為:這種設計來說色移的風險就免不 了。. 圖 10:溢色說明圖. 圖 11:色移說明圖 上圖 10 紅色框框圈出來之袖口上方為溢色區域,為出廠時就有的塗裝瑕疵; 而上圖 11 為紅色框框圈出之區塊為色移範圍,該狀況為受到它物影響而被染色 的狀況,也就是人為的塗裝瑕疵。. 24.
(35) 由於在 PVC 人型模型中除了造型的表現外,塗裝也是決定該產品評價優劣極 為重要的一個項目。網路上常常出現模型的白模不錯,然而因上色失誤而導致評 價下降的案例,甚至有因塗裝問題而延後發售日期的案例也有,可知塗裝的好壞 在 PVC 人型模型領域中的重要性。基於以上原因,即使在訓練資料中出現次數不 多,本論文仍將「溢色」及「色移」兩項塗裝瑕疵的詞彙加以列入,並給予負向 之極性。 在特徵的分群上本研究將之分成「身體」、「整體」和「配件(和意義不明)」 三個群,並由 A~E 五個人進行投票決定特徵的分群,分群上以巴哈姆特開箱文普 遍用的格式做為參考。 以 め ん ま (ALTER 未 聞 花 名. 本間芽衣子)產品之開箱文章為例. (https://forum.gamer.com.tw/Co.php?bsn=60036&sn=237462 ),以圖 12 所示,扣除 掉角色、外盒和製造商介紹外,接下來就是特寫臉部、四肢、身體和配件等。然 而本研究之前嘗試分成頭部、四肢、身體、整體和配件等六群發現分群過於細微, 導致出現該群無特徵的情形,因此最後決定將頭部、四肢併至身體。各群的定義 如下: 1.. 身體:人身上的各項器官,例如頭髮、四肢等。. 2.. 整體:形容 PVC 人形模型產品的名詞,例如價錢、塗裝等。. 3.. 配件:由於配件太過廣泛,大至坦克車小至髮飾皆有可能,因此其他不 屬於上面兩群的皆分至此群。. 25.
(36) 圖 12:分群依據解釋圖. 將擷取後之詞彙請五個人投票分群,結果依大多數投票結果為依據,共擷取 出身體 64 個詞、整體 135 個詞和配件 161 個詞。為評估答案之客觀性,本論文 在找尋五人時考慮年齡、性別、職業和是否接觸動畫以作為選擇之參考,表 7 即 為五人之背景一覽表;為評估五人的一致性,本研究採用 Cohen’s kappa coefficient (Carletta, 1996)計算一致性。. 26.
(37) 表 7:五人之年齡、性別、職業和領域背景一覽表 編號. 年齡. 性別. 職業. 是否接觸動畫. A. 22 歲. 男. 學生(設計系). 有. B. 25 歲. 女. 補習班教師. 有. C. 24 歲. 男. 工程師. 少有接觸. D. 58 歲. 女. 家管. 少有接觸. E. 58 歲. 男. 學校教師. 無. 𝑃0 − 𝑃𝑐. 𝜅={. 1− 𝑃𝑐. 0. , if 𝑃𝑐 ≠ 1. (1). , otherwise. 其中𝑃0 為兩人將該特徵分至同一群的機率加總,𝑃𝐶 則是第一位受試者將特徵 分至身體、整體、配件的機率,依序乘上第二位受試者將特徵分至身體、整體、 配件的機率後加總。下面將會用表 8 進行說明。表 8 到表 17 為五人彼此的 kappa 一致性比較表,表 18 則為五人的 kappa 值。. 表 8:受評者 A 和受評者 B 之比較表 A 身體. 整體. 配件. 身體. 59. 4. 0. 63. 整體. 4. 96. 21. 121. 配件. 1. 32. 143. 176. 64. 132. 164. 360. B. 如表 8 所示,欄位名稱代表受評者 A 分群的結果,列名代表受評者 B 分群的 結果,故欄位「身體」與列「配件」的儲存格值為 1 表示受評者 A 認為是「身體」 特徵但受評者 B 認為是「配件」,該詞彙為「辮子」。. 27.
(38) 如表 8 所示,𝑃0 = 所以𝜅 =. 𝑃0 − 𝑃𝑐 1− 𝑃𝑐. =. 59+96+143 360. 0.828−0.377 1−0.377. ≅ 0.828 ,而𝑃𝐶 =. 64∗63 132∗121 164∗176 + + 360 360 360. 360. ≅ 0.377,. ≅ 0.724。. 又 kappa 值 0.0~0.20 屬於低度吻合(slight)、0.21~0.40 屬於一般吻合(fair)、 0.41~0.60 屬於中等吻合(moderate)、0.61~0.80 屬於高度吻合(substantial)和 0.81~1.0 為幾乎完全吻合(almost perfect),故 0.724 屬於高度吻合。. 表 9:受評者 A 和受評者 C 之比較表 A 身體. 整體. 配件. 身體. 61. 11. 3. 75. 整體. 2. 91. 6. 99. 配件. 1. 30. 132. 186. 64. 132. 164. 360. C. 表 10:受評者 A 和受評者 D 之比較表 A 身體. 整體. 配件. 身體. 58. 6. 1. 65. 整體. 5. 118. 16. 139. 配件. 1. 8. 147. 156. 64. 132. 164. 360. D. 28.
(39) 表 11:受評者 A 和受評者 E 之比較表 A 身體. 整體. 配件. 身體. 42. 0. 2. 44. 整體. 17. 112. 16. 145. 配件. 5. 20. 146. 171. 64. 122. 164. 360. E. 表 12:受評者 B 和受評者 C 之比較表 B 身體. 整體. 配件. 身體. 61. 10. 4. 75. 整體. 2. 84. 13. 99. 配件. 0. 27. 159. 186. 63. 121. 176. 360. C. 表 13:受評者 B 和受評者 D 之比較表 B 身體. 整體. 配件. 身體. 59. 4. 2. 65. 整體. 4. 104. 31. 139. 配件. 0. 13. 143. 156. 64. 121. 176. 360. D. 29.
(40) 表 14:受評者 B 和受評者 E 之比較表 B 身體. 整體. 配件. 身體. 41. 1. 2. 44. 整體. 17. 107. 21. 145. 配件. 5. 13. 153. 171. 64. 110. 176. 360. E. 表 15:受評者 C 和受評者 D 之比較表 C 身體. 整體. 配件. 身體. 63. 1. 1. 65. 整體. 9. 91. 39. 139. 配件. 3. 7. 146. 156. 75. 89. 186. 360. D. 表 16:受評者 C 和受評者 E 之比較表 C 身體. 整體. 配件. 身體. 43. 0. 1. 44. 整體. 24. 88. 33. 145. 配件. 8. 11. 152. 171. 75. 89. 186. 360. E. 30.
(41) 表 17:受評者 D 和受評者 E 之比較表 D 身體. 整體. 配件. 身體. 43. 0. 1. 44. 整體. 16. 112. 17. 145. 配件. 6. 27. 138. 171. 65. 129. 156. 360. E. 表 18:kappa 值與一致性 Kappa 值. 一致性. A和B. 0.724. 高度. A和C. 0.663. 高度. A和D. 0.836. 幾乎完全一致. A和E. 0.777. 高度. B和C. 0.748. 高度. B和D. 0.76. 高度. B和E. 0.737. 高度. C和D. 0.74. 高度. C和E. 0.66. 高度. D和E. 0.702. 高度. 31.
(42) 在進行測試時,因為不可能全部的特徵都可以從訓練資料學習得到,因此本 研究在分群上利用規則進行判定,以圖 13 進行說明。 標示為 Head NA 之詞彙. 是否在資 料庫內. 否. 該句是否有. 是. 分至該群. 否. 其他已分群 之詞彙 是 分至多數特徵 所屬之分群. 分至「配件(或 意義不明)」. 圖 13:特徵分群之流程圖. 由圖 13 中可知,當系統擷取出 Head Na 時,若該辭彙出現於資料庫中則直 接分至該群,若沒有則會採用該句相對多特徵之所屬作為分群依據,Jiménez-Zafra et al.(2015)與 De Clercq et al.(2015)在極性分群上依序使用下列兩種公式: 𝑝𝑜𝑙𝑎𝑟𝑖𝑡𝑦(𝜔) = 𝑠𝑖𝑚(ω, 𝑃𝑂𝑆) − 𝑠𝑖𝑚(𝜔, 𝑁𝐸𝐺). (2). 𝑃𝑀𝐼(𝜔) = 𝑃𝑀𝐼(𝜔, 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒) − 𝑃𝑀𝐼(𝜔, 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒). (3). 公式 2 為𝜔與正向的相似度減去與負向的相似度,若為正則為正向,反之為 負向,其中𝑠𝑖𝑚為 similar 之縮寫、POS 為正向辭彙、NEG 為負向辭彙;公式 3 的. 32.
(43) PMI(Pointwise Mutual Information) (Church and Hanks, 1990)也是利用相同的概念, 其中𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒為正向辭彙、𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒為負向辭彙,因此本研究將之運用於分群上, 也就是中文上的「物以類聚」概念:在談論一則評論中因其主題明確,因此其內 部的名詞的關係會比較有一致性,例如訓練資料中的「看看那槍托細緻到幾條凹 槽都算得出來了」 ,其中的槍托和凹槽都屬於「配件」 ;另一個例子為「價格上雖 然價錢偏高但品質上絕對是物超所值」,其中價格、價錢、品質皆屬於「整體」。 最後若是該句沒有其他特徵、沒有相對多數特徵之群組(群的分配是相等的情況) 時,因無法有效判定,故分至「配件(或意義不明)」。 在輸出時利用規則判別極性的會用{詞彙 分群*}的方式輸出,以方便與從訓 練資料得出之詞彙區隔。. 第四節 意見詞詞彙的選取 在意見詞的選取上,本研究利用中研院剖析器標示為「VH」(狀態不及物動 詞)和「A」(非謂形容詞)的為主(本研究將上面兩種詞性定義為形容詞)。不像特徵 一樣必須要為 Head/head(中心語)才選取的理由是形容詞的用法太過廣泛,有可能 為前位修飾、後位修飾,還有可能是修飾形容詞的形容詞。例如訓練資料的例句 中「不僅是手指腳指的細節也清晰分明」,剖析結果如圖 14 所示。在圖 14 中其 主要名詞(Head Na)為「腳趾」和「細節」 ,而主要的形容詞(Head VH)為「分明」, 「清晰」為 manner VH,在這個例子上「清晰」是用來修飾「分明」的。然而語 意上「清晰」直接修飾「腳趾」及「細節」也是可以的,因此可以發現形容詞的 選取上若是只有用主要形容詞是不夠的,故本研究的方法是將全數的形容詞都加 33.
(44) 以考慮。. 圖 14:「不僅是手指腳指的細節也清晰分明」之剖析結果. 然而有些常用於形容 PVC 人形模型的形容詞或許是網路用語或是剖析器定 義問題,導致剖析後標示為非「VH」和「A」系列,因此本研究也針對該問題進 行處理。以下為從訓練資料整理出來原本並非形容詞,但本研究將之考慮為形容 詞的詞彙: 1. 呈現出來/表現出(來)/做出來 在中研院剖析器中以上詞彙皆被分在「VB」(動作類及物動詞)和「VC」(動 作及物動詞)兩類。在一般木雕工藝上民眾往往以「傳神」、「栩栩如生」等來形 容作品,然而在網路上普遍大眾會用較為口語的文字來形容,而本研究從訓練資 料中整理出上述的詞彙。這類型的詞彙主要是將模型與原圖(原作)比較,並且成 功還原原作的樣子,因此具有正向極性。訓練資料的例句為:手上的印紋也有表. 34.
(45) 現出來、手上的令咒也做出來了等。 2. 搭 搭,在教育部重編字典解釋為配合之意。由於 PVC 人形模型有許多的配件或 塗裝設計,當一般大眾覺得這些設計給予加分評價時會以「很搭」來形容,反之 則用「不搭」 。因此雖然中研院剖析器將之分類為「VC」 ,但本研究還是將之視為 「VH」並給予正向極性的屬性。測試資料中的例句為:十字花紋的髮飾跟小辮子 也很搭。 3. 萌(萌え) 萌,原意在「說文解字‧艸部」為草木出生的芽,然而在 1990 年代受日本 ACG(Anime Comics & Games)文化影響而有了新的衍伸義:作為對虛構角色表達 強烈喜愛的用語。據考證是因為「燃え」和「萌え」同音 (羅馬拼音為 moe) 下 而產生的誤用,由於並非像看少年漫畫會產生熱血(燃え)的感覺,而是會像戀愛 般熱烈的感情,因而用另一個同音的「萌え」作為區別。在 goo 日語字典中也提 到該字為人對有些東西所產生的強烈的愛情、熱情、慾望等的俗語。在中研院剖 析器被分類在「VJ」(狀態及物動詞),本研究將之視為「VH」並給予正向極性 之屬性。在訓練資料的例句為:眼神給人一種呆呆的萌感、眨眼的表情真萌阿等。 4. 到位 在日中中日辭典(http://cjjc.weblio.jp/ )中到位表示為(預定的目標、條件)達成 滿足之意。中研院剖析器將之標示為「VA」,但因為同「表達出來」系列屬於與 原畫(原作)比較後並給予正向肯定的詞彙,故本研究將該詞視為正向的「VH」。 訓練資料的例句為:飲料杯子跟鞋子在這地方可以看到細節做的相當到位、整個 35.
(46) 表情很到位等。 5. 溢色及色移 在特徵詞詞彙的選取中第三及第四點有詳細的解說。由於兩個詞皆屬於塗裝 上的瑕疵問題,故本研究給予負向極性的屬性。 在極性標示上本研究分四個階段進行,並由圖 15 進行說明: 1. 是否出現於 NTUSD 2. 該句是否有其他意見詞 3. 教育部重編字典補充 4. 附議階段. 36.
(47) 被視為形容詞. 是否出現. 否. 於 NTUSD. 是. 該句 是否有其他已 標示極性之 意見詞. 重編字 否. 是. 典是否有同/反 義詞出現於 NTUSD 是. 標示該極性之. 標示該極性之. 標示該極性之. 完整情緒(正向 、負向). 部分情緒(偏正 、偏負). 完整情緒(正向 、負向). 極性標示不變. 否. 重編字 典是否有同/反 義詞出現於. 標示較為完整 之極性(正(負)> 偏正(負)>模糊). 是. 否. NTUSD. 附議階段. 圖 15:極性標示之流程圖 如圖 15 所示,被中研院剖析器標示為「A」、「VH」等視為形容詞的字後, 先與 NTUSD 進行比對,如果吻合則直接依照 NTUSD 給的極性進行標示;若沒 有成功比對到,則開始分析該句是否有其他的意見詞已被成功標示極性。若成功 發 現具有其他已標示之極性,則標示該句相對多數的極性, 此方法 為參考 Jiménez-Zafra et al.(2015)與 De Clercq et al.(2015)等研究論文內所使用之標示極性 的方法。如同特徵詞的物以類聚,因為主題一致,因此往往情緒也會趨於一致, 例如訓練資料中的「塗裝也非常仔細用心」 ,其中仔細及用心皆屬於正向的極性; 「非常的精緻帽子內層皺褶也有做出來」,其中精緻和做出來也都屬於正向。 37.
(48) 雖然依據物以類聚(與正向(負向)的距離)的方法進行判定,但仍不夠完善, 因此本研究增加與教育部重編辭典進行比對這項確認動作,也就是將沒有在 NTUSD 裡的詞彙放進教育部重編辭典找尋同義詞、反義詞或解釋,若發現其同 義詞、反義詞或解釋有出現在 NTUSD 中,則可以給予較為完整的情緒;如果無 法利用教育部重編字典與 NTUSD 進行佐證,由於資訊不夠完善,因此給予部分 情緒。 被視為形容詞的字若是沒有出現於 NTUSD 裡,該句也沒有其他已標示的情 緒詞,則直接於教育部重編字典找尋該詞的同義詞、反義詞及解釋;若裡面有出 現於 NTUSD 裡,則標示完整情緒;若沒有則進入最後階段,也就是直接人工標 示極性,並另尋三人進行「附議」 ,最後共有 59 個詞進入附議階段。由於此步驟 是已經標示極性後給三人查看無誤後附議的,並非投票,故沒有進行 kappa 分析。. 38.
(49) 在進行測試時由於無法完全學習全部的意見詞彙,因此在判斷時就主要以 「物以類聚」的方式進行標示,該流程圖為圖 16 所示:. 標示為形容詞. 是否在資. 否. 料庫內. 該句是否有 其他已標籤之 意見詞. 否. 是. 是. 標註相對多意 見詞之極性. 直接標註極性. 標註「模糊」 之極性. 圖 16:形容詞分類極性之流程圖 圖 16 中,若是被標為形容詞之詞已出現於訓練資料中,則直接標註極性; 若無,則利用與正向(負向)距離的方式來判定其極性,也就是看該句是否有其他 已被標註極性之意見詞。若有則標註相對多意見詞被標示之極性,而其極性與之 前規則一致,由「物以類聚」方法得出的情緒為偏正或偏負的部分情緒。若無則 因為資訊量不夠無法判定其極性,因此會被標為「模糊」詞彙。 在輸出時利用規則決定極性的會用{詞彙 極性*}的方式輸出,以方便與從訓 練資料得出之詞彙區隔。. 39.
(50) 第五節 配對 張莊平(2012)在配對上是利用「意見詞 + 連接詞 + 屬性詞」當規則進行輸 出,而該演算法之步驟為:. 1. 先以 Breadth-First Search 走訪結構樹,確認每個節點的所在層級。. 2. 從樹根開始,在第一個層級裡尋找是否存在屬性詞或意見詞,其中判斷方式 以是否符合先前建立之屬性詞詞庫與意見詞詞庫為準。 2.1. 如果同時找到屬性詞與意見詞,則無論屬性詞與意見詞的個數有多少, 將每一個屬性詞與所有的意見詞進行配對,例如:如果找到三個屬性詞 與兩個意見詞,則會擷取出六個配對。最後結束這個句子的搜尋流程。. 2.2. 如果只找到屬性詞而沒有找到意見詞,則在此層級搜尋是否有子樹標示 為 VP(Verb Phrase,動詞片語)。若存在 VP 子樹,則搜尋此子樹之所 有節點以擷取意見詞出來與屬性詞配對;若不存在 VP 子樹,或在子樹 中找不到意見詞,則結束這個句子的搜尋流程。. 2.3. 如果只找到意見詞而沒有找到屬性詞,則在此屬級搜尋是否有子樹標示 為 NP(Noun Phrase,名詞片語) 。若存在 NP 子樹,則搜尋此子樹之所 有節點以擷取屬性詞出來與意見詞配對;若不存在 NP 子樹,或在子樹 中找不到屬性詞,則結束這個句子的搜尋流程。. 2.4. 如果兩者皆尋找不到,但同時存在 VP 與 NP 子樹,則分別在 NP 子樹 中搜尋屬性詞及在 VP 子樹中搜尋意見詞,再將擷取出來的詞彙雙雙進 40.
(51) 行配對。 2.5. 如果透過 2.1 至 2.4 仍然找不到配對,則透過遞迴方式對此層級的每一 個子樹重覆步驟 2 的搜尋。. 3. 在屬性詞與意見詞分別的所在層級間,以先前建立的副詞詞庫判斷是否存在 副詞,如有,則將此副詞附加在所擷取出來的配對當中。. 4. 在結束搜尋流程後,如果只有擷取出意見詞而沒有配對至屬性詞,系統會將 此意見詞暫時配對至 NULL 屬性詞。. 5. 最後,依擷取出來的屬性詞所屬之四大類分類,將配對的句子收集在不同的 類別當中,其中 NULL 屬性詞獨立出來成為另一個分類。 圖 17~21 為張莊平提出的基本配對句型,分別為「N+V」 、 「N+VP」 、 「NP+V」、. 「NP+VP」和「NULL+V」等。. 圖 17:配對句型 1(N+V). 41.
(52) 圖 18:配對句型 2(N+VP). 圖 19:配對句型 3(NP+V). 圖 20:配對句型 4(NP+VP). 42.
(53) 圖 21:配對句型 5(NULL+V) 利用張莊平(2012)之方法找出的屬性詞(本論文定義為特徵詞)並非局限於標 記 Head Na 的詞彙;該意見詞也非完全侷限於標記為 VH 和 A 詞性的詞彙,又因 擷取副詞,在輸出上會有著較為完整的語意,如圖 20 所示,該論文提及的「快 50 歲的湯姆克魯斯演的還是很好」 ,其屬性詞就為非 Head Na 系列的 Nb,因此在 配對上就可以輸出「湯姆克魯斯+好」,而本實驗因為特徵詞須完全依賴標記為 Head Na 之詞彙或專有名詞,故在配對上會以「整體+好」做為輸出,在語意上就 會顯得不夠完整。然而依據該實驗之語料共擷取 11837 個屬性詞及意見詞配對, 其中卻有 4931 個無效配對,Precision 為 58.34%,故該方法是以「正確率換取語 意」。此外本研究中發現評論往往太過口語化,因此有許多狀況出現,如不會按 照文法、省略主詞或是使用網路用語等,在張莊平的分析上由於太過依照文法結 構,因此在抓取配對時會產生問題。例如本研究的訓練資料中:我覺得這隻的嘴 唇是整隻的 vip 抿得超好看。其剖析出來的句子為 S(theme:NP(possessor:Nhaa:我 |property:VP‧的(head:VP(Head:VK1:覺得|goal:DM:這隻)|Head:DE:的)|Head:Nab: 嘴 唇 )|Head:V_11: 是 |range:S(agent:NP(property:DM ‧ 的 (head:DM: 整隻 |Head:DE: 的)|Head:Nb:vip)|Head:VC2:抿|complement:得‧VP(Head:DE:得|head:VP(Head:VJ1: 超|complement:VH11:好看)))) ,結構樹如圖 22 所示: 43.
(54) 圖 22:「我覺得這隻的嘴唇是整隻的 vip 抿得超好看」剖析圖 在上面的例子可以發現,若是照張莊平的分析,左邊路徑可以藉由 theme NP 後找到 Head Nab 的嘴唇,但是右邊路徑的 range S 因為不是 VP,因此就無法繼 續找到下面的「好看」。 以圖 23 的例子顯示評論通常太過口語化,導致中研院剖析器有時無法正確 剖析,故按照張莊平的方式會找不到該找的特徵或是意見詞。. 圖 23:剖析出句子不完整無法分析,或是語意錯誤不合文法(%). 44.
(55) 上例中若是照張莊平的方法則會完全找不到特徵及意見詞,導致該評論沒有 任何配對輸出。因此本研究為提升正確率,故提出另一套的演算法:. 1. 先以 Breadth-First Search 走訪結構樹,確認每個節點的所在層級。 2. 從樹根開始,在第一個層級裡尋找是否存在特徵詞或意見詞。判斷方式以剖 析器是否將之標示為 Head Na、VH 系列、A 系列,或上述規則所說的詞彙。 3. 若是找尋到 negation Dc,也就是剖析器標示的「否定標籤」的話,則與後一 個意見詞進行配對,並將該意見詞之極性轉換。 4. 如果在同層級同時找到特徵詞與意見詞,則無論特徵與意見詞的個數有多少, 將每一個特徵詞與所有的意見詞進行配對,並跳至步驟 7。 5. 如果只有找到意見詞而未找到特徵詞,則保留意見詞,並繼續走訪子樹是否 有特徵詞,若有則與之前的意見詞配對;若無則將該意見詞與系統輸出的「整 體」配對,並跳至步驟 7。 6. 如果只有找到特徵詞而未找到意見詞,則保留特徵詞,並繼續走訪子樹尋找 意見詞,若找到則直接進行配對,若無則只輸出特徵詞,並跳至步驟 7。 7. 最後輸出以格式[特徵詞 + (否定詞) + 意見詞]的方式進行輸出。. 45.
(56) 圖 24~28 將會照本論文的規則進行配對,並在下方做更為詳細的解釋:. 圖 24:基本的直接配對. 圖 25:特徵詞與多個意見詞配對. 圖 26:有否定詞之配對. 46.
(57) 圖 27:無特徵詞之配對. 圖 28:無意見詞之配對 圖 24 使用最基本的規則,找到一個特徵詞和一個意見詞後進行配對,該例 句之配對為「感覺+不錯」;圖 25 則是在同層中找到多個特徵詞或意見詞,在這 個狀況下會依序進行配對,該例句之配對為「藍色調+乾淨」、「藍色調+沉穩」; 圖 26 的狀況為有否定詞「不」 ,在否定詞後方第一個意見詞之極性會被改變,例 如該例句的馬虎為負向極性,但因為否定詞的存在,故「不馬虎」會變成正向極 性。若否定詞後方之極性為偏正,則會改變為偏負。而從這個例子可以看到還有 47.
(58) 另一個 Head Na 為「方面」,但因為它的層級比「塗裝」深,故不採納。該例句 之配對為「塗裝+不馬虎」。圖 27 為沒有找到特徵詞的情況,本論文將會自動給 予「整體」的特徵詞與之配對,原因是評論往往具有針對性,所以評論之主詞若 被省略,有很大的機率是在講述該產品本身,從訓練資料中的例子如「看起來超 棒的」、「怎麼越做越貴啊」,都是主詞為產品本身而被省略的例子,故該例句的 配對為「整體+可愛」。最後一個為沒有找到意見詞的情況,如圖 28 所示,在這 情況下本研究決定直接將特徵輸出,而不另外找尋意見詞與之配對,該例句之配 對為「質感」 。本論文之配對方法與張莊平(2012)之配對方法比較在第四章的第三 節會有詳細的說明。. 第六節 給分機制 在給分機制上本研究利用兩種概念:星等和 IDF (inverse document frequency); 在星等上正向為 5 星、偏正為 4 星、模糊為 3 星、偏負為 2 星,而負向為 1 星。 由於正(負)向以 NTUSD 作為依據,故給予較為重的比重;而由附議、正負向距 離得出之偏正及偏負,在 Pontiki et al.(2015)裡提到「有時經由人工標記的情緒會 比字典的還有用」 ,但因為經過附議的情緒其公正性仍比 NTUSD 低,故給予較為 低的比重;模糊則無法判定其極性故給予中間值。IDF 的部分則是由下方公式(4) 進行運算:. idf𝑖 = log. |𝐷| |{𝑗 ∶ 𝑡𝑖 ∈ 𝑑𝑖 }|. (4). 其中|𝐷|為語料庫之評論文件數;|{𝑗 ∶ 𝑡𝑖 ∈ 𝑑𝑖 }|為包含𝑡𝑖 的評論文件數。以詞 彙「一流」(𝑡𝑖 )為例,在本研究中共有 630 則評論(|𝐷|),而該詞只有出現一次 48.
(59) (|{𝑗 ∶ 𝑡𝑖 ∈ 𝑑𝑖 }|),故該詞彙的 idf 值為log. 630 1. = log 630 ≅ 2.8 。而給予 idf 值後,. 本論文會將之與該詞的情緒權重相乘:因「一流」被歸類為「正向」 ,故 2.8 * 5 = 14.0;IDF 部分之權重本論文將正向及偏正定義為 5 分,模糊定義為 3 分,負向 及偏負定義為 1 分。捨棄掉偏正(負)的概念是為了與第一種方法「星等」區隔, 本方法以 IDF 之運算為主,故權重的給予就為較傳統的正向、負向及模糊三種。. 49.
(60) 第四章 實驗結果與分析 本章節將會利用第三章所提到之規則和方法進行實作:經由五人投票所建構 之特徵詞資料庫、利用四種規則建構出的意見詞資料庫將會完全記錄外,測試之 分群、配對結果及分數參考,將會另外利用投票及跟大型購物網站 (Amazon) (https://www.amazon.co.jp/ )之評分進行比對,並將結果利用正確率(Precision)、回 收率(Recall)和 F-score 加以分析,以驗證本論文之效能,以下為正確率、精確率、 回收率及 F-score 之公式:. 正確率(Precision) =. 回收率(Recall) =. F − score = 2 ∗. 極性正確分類之個數 找到之極性個數. 極性正確分類之個數. (5). (6). 全部具極性詞彙數. Precision ∗ Recall Precision + Recall. (7). 第一節 特徵詞之分析與討論 在特徵詞的擷取上本論文是先利用中研院剖析器進行剖析,從中抓取 head Na 和第三章第三節所提的「塗裝」及「作工」;分群上則分出「身體」、「整體」及 「配件(或意義不明)」三個群,並利用投票的方式將之分群,相關之 kappa 數據 於第三章第三節有詳細說明。總計分至「身體」的有 65 個不重複的詞,分至「整 體」的有 135 個不重複的詞和分至「配件(或意義不明)」的有 161 個不重複的詞。 表 19 到 21 分別為節錄本實驗收集之「身體」、「整體」及「配件(或意義不明)」 的資料庫,完整列表於附錄中。 50.
(61) 表 19:分群為「身體」之詞彙(節錄 50 個) 大腿. 小腿肉. 小辮子. 心. 手. 手指. 手指甲. 手掌. 手臂. 右手. 左手. 皮. 皮膚. 耳朵. 肉肉. 肉體. 肌膚. 呆毛. 屁屁. 屁股. 秀髮. 肚臍. 身體. 乳量. 股間. 前髮. 指甲. 美腿. 面相. 香肩. 馬尾. 眼神. 眼睛. 麻花捲. 單腳. 短髮. 腋. 微乳. 微笑. 腰. 腳. 腳指甲. 腳趾. 腿. 裸足. 嘴型. 嘴唇. 皺紋. 膚質. 髮尾. 表 20:分群為「整體」之詞彙(節錄 50 個) 方式. 水準. 主題. 凹凸感. 凹陷感. 可愛型. 本體. 正面. 立體感. 份量. 光澤. 共通點. 成品. 曲線. 色彩. 色移. 色澤. 完成品. 完成度. 技術. 角度. 花紋. 花邊. 表情. 表現. 亮點. 品質. 型態. 律動感. 相似度. 重現度. 原型. 真實感. 神韻. 紋路. 高品質. 動作感. 細部. 細節. 細緻度. 造工. 貼身感. 塗裝. 概念. 構思. 漸層. 價格. 層次感. 質感. 魄力. 51.
相關文件
一、 動機與目的 二、 問題分析 三、 相關文獻 四、 行動設計 五、 實施程序 六、 結果與討論 七、 結論與建議 八、 檢討與省思.
Coefficients Extraction from Infant Cry for Classification of Normal and Pathological Infant with Feed-Forward Neural Networks”, Proceedings of the International Joint Conference
Wang, Solving pseudomonotone variational inequalities and pseudocon- vex optimization problems using the projection neural network, IEEE Transactions on Neural Networks 17
Miroslav Fiedler, Praha, Algebraic connectivity of graphs, Czechoslovak Mathematical Journal 23 (98) 1973,
2-1 註冊為會員後您便有了個別的”my iF”帳戶。完成註冊後請點選左方 Register entry (直接登入 my iF 則直接進入下方畫面),即可選擇目前開放可供參賽的獎項,找到iF STUDENT
閱讀劇本 了解劇情 文學賞析 音樂欣賞 創作背景、 配器法等 不同版本 深入探討 與原著的 關係 作出評論.
H., Liu, S.J., and Chang, P.L., “Knowledge Value Adding Model for Quantitative Performance Evaluation of the Community of Practice in a Consulting Firm,” Proceedings of
The difference resulted from the co- existence of two kinds of words in Buddhist scriptures a foreign words in which di- syllabic words are dominant, and most of them are the