國
立
交
通
大
學
資訊學院 資訊學程
碩
碩
碩
碩
士
士
士
士
論
論
論
論
文
文
文
文
意見探勘在中文評鑑語料之應用
Applying opinion mining to Chinese review corpus
研 究 生:謝鎮宇
指導教授:梁婷 博士
中
中
中
中 華
華
華
華 民
民
民
民 國
國
國
國 九
九
九
九 十
十 九
十
十
九
九 年
九
年
年 九
年
九
九 月
九
月
月
月
意見探勘在中文評鑑語料之應用
Applying opinion mining to Chinese review corpus
研 究 生:謝鎮宇 Student:Chen-Yu Hsieh
指導教授:梁婷 Advisor:Tyne Liang
國 立 交 通 大 學
資訊學院 資訊學程
碩 士 論 文
A ThesisSubmitted to College of Computer Science National Chiao Tung University in partial Fulfillment of the Requirements
for the Degree of Master of Science
in
Computer Science September 2010
Hsinchu, Taiwan, Republic of China
意見探勘在中文評鑑語料之應用
研究生:謝鎮宇 指導教授:梁婷
國 立 交 通 大 學 資 訊 學 院 資 訊 學 程 碩 士 班
摘 要
現今人們可能會透過各種不同的平台如:Facebook, Twitter, Plurk 等表達他們 無論是在社會問題或者是商業產品上的意見。在本篇論文當中,我們提出一個使 用意見探勘技術應用在中文評鑑語料上的飯店評價系統原型。系統包含了語料處 理、特徵詞擷取、意見詞及語意傾向辨識和飯店評價。透過人工來獲得目標特徵 詞,再利用中研院中英雙語知識本體詞網(BOW)作擴充。意見詞則使用台大意見 詞詞典(NTUSD)來收集,再利用飯店評論語料來擴充。同時,也提出了兩個不同 的評分方法來判斷意見詞的語意傾向:一個是透過台大意見詞詞典(NTUSD),而 另一個是使用光華雜誌(SINO)語料。人工標記顯示可探勘出額外的 122 個正向詞 與 83 個負向詞來形容目標特徵。最後,提出一個藉由考慮飯店的五大特徵類別的 飯店評分功能來針對 28 間飯店作評價。實驗結果顯示當採用充足的評論語料時, 可得到 F-Score 達 79%。
Applying opinion mining to Chinese review corpus
Student:Chen-Yu Hsieh Advisors:Dr. Tyne Liang
Degree Program of Computer Science
National Chiao Tung University
ABSTRACT
Nowadays people are likely to express their opinions either on social issues or commercial products through various platforms such as Facebook, Twitter, Plurk, etc. In the thesis, a hotel evaluation prototype is presented by using opinion mining
techniques to Chinese review reports. The system contains report processing, feature word acquisition, opinion word and polarity identification, and hotel evaluation. The target feature words are manually acquired and expanded with the help of a bilingual WordNet. The opinion words are collected through the sentiment dictionary NTUSD and expanded by employing hotel review corpus. Meanwhile, two salience score functions are presented to consider the polarity of opinion words. One is based on NTUSD and the other is based on SINO corpus. Manual justification shows that additional 122 positive and 83 negative words can be mined for the addressed opinion targets. Finally, a hotel scoring function is presented to evaluate 28 hotels by
considering the addressed five types of hotel features. The results show that about 79% F-score can be obtained when sufficient review corpus is employed.
誌 謝
這篇論文的完成,首先要感謝我的指導教授梁婷老師。在這漫長的三年研究生 活中,老師在論文上認真的指導,讓我有不少的收穫。另外也要感謝我的口試委 員們,張教授嘉惠、楊教授武、胡教授毓志,認真的給予我論文上的建議。另外 也要感謝實驗室的冠熙學長在實驗分析與論文研究上的指導與協助。最後要感謝 我的家人及女朋友在背後的支持與鼓勵,也要謝謝身邊每位替我加油的朋友和同 事們,有你們大家的鼓舞與激勵,才有今天這篇論文的完成。 感謝主! 賜給我智慧與勇氣來面對所有的挑戰!目
錄
中文提要 ……… i 英文提要 ……… ii 誌謝 ……… iii 目錄 ……… iv 表目錄 ……… v 圖目錄 ……… vi 一、 緒論……… 1 1.1 研究動機與目的……… 1 1.2 中文評鑑語料……… 1 1.3 論文架構……… 2 二、 相關文獻探討……… 3 2.1 意見探勘……… 4 2.2 網路評論平台介紹……… 5 三、 中文意見探勘系統……… 8 3.1 語料收集……… 8 3.2 特徵詞擷取……… 11 3.3 意見詞擷取……… 12 3.3.1 NTUSD 介紹……… 12 3.3.2 意見詞庫擴充……… 13 3.4 意見評分……… 17 3.4.1 特徵意見配對辨識……… 18 3.4.2 特徵意見傾向評分……… 19 3.4.3 特徵類別評分……… 20 3.4.4 飯店評分……… 20 3.5 視覺化結果分析介面……… 21 四、 實驗與分析……… 25 4.1 測試語料與評估……… 25 4.2 特徵詞與意見詞擷取實驗……… 25 4.3 評論評分與飯店評分實驗……… 26 五、 結論……… 30 參考文獻 ……… 31 附錄 ……… 32
表目錄
表 1:意見探勘研究比較……… 4 表 2:評論語料資料……… 10 表 3:特徵類別……… 12 表 4:反向詞列表……… 14 表 5:人工標記結果範例……… 16 表 6:人工標記結果統計……… 16 表 7:方法一在候選意見詞辨識之結果分析……… 17 表 8:方法二在候選意見詞辨識之結果分析……… 17 表 9:特徵類別權重分佈……… 21 表 10:評論語料網路評價分佈……… 25 表 11:飯店特徵詞資料統計……… 26 表 12:意見詞資料統計……… 26 表 13:評論系統評分實驗結果……… 27 表 14:不考慮飯店網路評價的評論系統評分實驗結果……… 28 表 15:飯店系統評分實驗結果……… 29 附表 16:光華雜誌語料正負例句範例……… 32 附表 17:評論訓練語料正負例句範例……… 33圖目錄
圖 1:產品評論網站範例……… 6 圖 2:產品評論範例……… 7 圖 3:系統架構圖……… 8 圖 4:2009 台灣百大網站排名……… 9 圖 5:飯店評論網站範例……… 9 圖 6:BOW 應用範例……… 11 圖 7:視覺化結果分析介面……… 22 圖 8:飯店列表選單……… 22 圖 9:飯店評論內容選單……… 23 圖 10:評論內容與評價分析……… 23 圖 11:飯店與評論評分比較直方圖結果……… 24 圖 12:飯店間評分比較直方圖結果……… 24第一章
第一章
第一章
第一章 緒論
緒論
緒論
緒論
1.1
研究動機與目的
研究動機與目的
研究動機與目的
研究動機與目的
在這資訊爆炸的時代,隨著網路技術的發達以及網路平台的便利,人們漸漸 習慣在網路上表達自己主觀的想法與情感。例如,近年來相當火紅的 Facebook、 Twitter、Plurk 等,人們透過網路的服務來表達自己的意見與維繫社群活動。此外 近幾年來電子商務的成熟發展,例如:Amazon、博客來網路書店等,網路上購物 與消費心得發表對商品業者或是其他消費者而言,都是相當寶貴的意見。因此, 意見探勘技術的發展日益受到重視。 在本論文中,我們提出一個意見探勘技術以應用在中文評鑑語料上的飯店評 價並建立系統原型。此系統包含語料處理、特徵詞擷取、意見詞及語意傾向辨識 和飯店評價計算。我們從實際的飯店網頁中擷取顧客評論作為分析的語料,並使 用自然語言處理及意見探勘技術進行目標特徵詞與意見詞辨識。此外,針對飯店 的五大特徵類別設計一個飯店評價系統,提供飯店管理者或是消費者進行資訊比 較,作為他們不管是在飯店管理上或是住宿選擇上的寶貴參考。1.2
中文評鑑語料
中文評鑑語料
中文評鑑語料
中文評鑑語料
在中文語料研究方面,由於中英文語言結構特性的差異,使得中文詞性標記 不能直接採用英文自動標記的方法[黃慧庭, ‘08]。以下概述幾個在中文評鑑語料處 理上主要的問題。 (1) 中文標點符號使用 從先前的研究[楊遠, ‘62]中提到,在五千篇中國學生的文章中,僅有 5%正確 的使用標點符號。尤其現今人們常會使用符號「﹒」及符號「~」來代替句點「。」 當作一個段落的結束,例如: 很溧亮很棒沒錯~或許設備真的很好,可是價格就有些偏高囉!不過還不錯啦~尤其是房間的沙發椅,真符合人體工學,好舒服!! 另外,從實際的網路評論語料中觀察,發現現今人們甚至於不使用標點符號,直 接用空白來代替語氣的停頓,例如: 我每年都會去墾丁 已經連續 2 年選擇這邊了 但今年去的感覺就差好多 設 備裝潢真的該換了 太舊了 (2) 評論內容的完整性 觀察實際的評論語料中發現,評論內容若太簡短,相對的所包含的有用資訊 也就更少,對於在自動評分上會有很大的影響。舉例來說,有時評論只有: 很值得推薦的一間民宿!! 原作者在這篇評論給予飯店 5 分評價,其實未提供太多有用的資訊給其他使用者。
1.3
論文架構
論文架構
論文架構
論文架構
我們從實際的飯店評論語料中挑選出具體代表飯店的特徵詞彙並且再利用中 央研究院中英雙語知識本體詞網1作擴充,同時使用文本探勘從評論語料中擷取出 可能的意見詞彙,最後將此結果利用意見探勘技術來用於中文飯店評鑑。 本論文章節結構如下:第二章探討近年來相關的意見探勘研究;第三章介紹 系統架構與探討研究方法。我們介紹訓練及測試飯店評論語料來源,然後探討飯 店特徵詞彙的收集與擴充,最後詳述如何應用這些結果在中文飯店評鑑語料上; 第四章進行相關的飯店評論評分實驗,並分析實驗結果;第五章敘述結論與未來 後續研究方向。 1 中研院中英雙語知識本體詞網 http://bow.sinica.edu.tw/wn/第二章
第二章
第二章
第二章 相關文獻
相關文獻
相關文獻
相關文獻探討
探討
探討
探討
2.1
意見探勘
意見探勘
意見探勘
意見探勘
由於網路的普及與 web2.0 技術的成熟,人們透過部落格、評論網站、網路論 壇、微網誌等不同的平台,表現個人的情緒或是觀感。網路上豐富的文字提供意 見探勘上的重要語料來源,藉由資訊擷取技術與資料探勘技術,及電腦的的運算 能力,過濾及轉化大量的文字內容,讓人們能夠更有效率的運用這些分析後的結 果。意見分析主要工作包括意見持有者辨識、意見目標辨識、意見詞辨識。 在意見持有者的相關研究上,Kim et al. [‘04]使用 BNN2named entity tagger –
IdentiFinder 來辨識潛在的意見持有者。研究中提到只考慮人和機構為意見持有 者。當句子中出現一個以上的持有者時,則選擇最靠近意見目標的持有者。Ku et
al. [‘07] 指出出現在表示意見的動詞前的專有名詞或代名詞,通常為意見持有者。 在特徵辨識的相關研究上,Hu et al. [‘04] 提出使用 Association rule mining
的方法,找出顧客評論中最常同時出現在某些句子中的名詞或名詞片語。該研究 提到從實際評論可觀察到,顧客在評論時通常會敘述到很多跟產品本身沒有直接 關係的事情,但是在形容產品本身時就會比較趨於使用同樣的詞彙。所以他們認 為通常較少出現在評論中的名詞或名詞片語,通常比較不會是產品相關的特徵詞 彙。相反的,若常常出現在評論中的名詞或名詞片語,則極有可能為產品相關的 特徵詞彙。陳正揚[‘07] 研究中提到除了找出 frequent itemsets 之外,還需要考慮
到詞彙的先後順序,所以進一步使用了 sequential pattern mining 來找出最常出現
並且可能為特徵詞彙的名詞或名詞片語。Su et al. [‘08] 提出了一個利 association
approach 的方法以有效找出未清楚敘述的特徵詞(implicit product feature),他們依 照特徵詞間與意見詞間的關係(intra relationship)以及特徵詞與意見詞間的關係來
分別作叢集的動作,然後再建立 sentiment association set 來敘述特徵詞群組與意見
2
詞群組間的關聯性,透過這個事先建立的 association set,可以有效找出未明確出 現在評論裡的特徵詞,以提供更精確的意見評估。 在意見詞辨識的相關研究上,Ku et al. [‘07] 提出了利用字元出現在字典檔 的機率統計來決定是否為意見詞。中文的意見詞含意可視為字元組合的函數,因 為當人們遇到新詞彙時會依照每個字元的表意去作解讀。進一步透過將某個字中 組成的每個字元去計算出在字典檔的機率,最後依照該字得到的總分是否超過門 檻值來決定是否為意見詞。Hu et al. [‘04] 提出一個簡單卻有效的方法藉由使用在
WordNet 中形容詞的同義詞集(synonym set)與反義詞集(antonym set),來預測形容 詞的語義方向。一般而言,形容詞與其同義詞具有相同的語義方向,與其反義詞
則具有相反的語義方向。因此,某個形容詞的同義詞或是反義詞的語義方向為已
知的話,則可以透過這樣的概念來預測該形容詞的語義方向。Qiu et al. [‘08] 提出
使用 double propagation 來擴充特定領域的意見詞彙(domain sentiment lexicon)。主
要的概念是評論中的意見詞幾乎都會伴隨著特徵詞出現,因此可以透過特徵詞來 辨別出意見詞。運用類似的想法則可利用已知的意見詞來辨別出特徵詞。於是新 的意見詞以及特徵詞再被使用來尋找新的特徵詞以及意見詞,這樣的詞彙繁殖 (double propagation)反覆執行到不再有新的意見詞或特徵詞被辨別出來。 表 1 列出國內外意見探勘相關研究的比較。 表 1: 意見探勘研究比較 英文 中文
Ding et al. '08 Ku et al. '07 Su et al. '08 本研究 外部
支援 辭典
WordNet NTUSD WordNet BOW, NTUSD,
SINO corpus
工具 parser POS tagger CKIP
實驗 語料 445 篇 3C 產品評論 (Amazon.com) 192 篇文件 NTCIR-6 語料 350 篇 汽車評論 3210 篇 中文飯店評論 (奇摩生活) 訓練 : 無訓練語料 無訓練語料 8 : 2 2 : 8
測試 語料 比例 意見 層級 特徵 句子 特徵 特徵 方法 1. 特徵與意見詞 庫比對 2. 意見傾向權重 計算 3. 特徵意見列表 1. 無特徵比對 2. 依 中 文 字 的 結 構,計算句子的意見 分數 1. 特徵與意見詞庫 比對 2. 建立特徵詞集與 意見詞集的叢集關 係 1. 特 徵 與 意 見 詞庫擴充與比對 2. 依 中 文 句 型 , 計算意見傾向權 重 3. 飯 店 與 評 論 評分計算 正確
率 0.90 (F-score) 0.76 (F-score) 0.65 (precision) 0.79 (F-score)
2.2
網路
網路
網路
網路評論平台
評論平台
評論平台
評論平台介紹
介紹
介紹
介紹
網路上大量的意見資訊透過各種不同的平台散播著,例如部落格、評論網站、 論壇、微網誌等等,這裡我們針對亞馬遜網路商店3的產品評論介面作詳細的說明 與介紹。如圖 1 所示,在產品評論首頁即可清楚得到下列資訊: (1) 產品名稱:網站所販賣的產品名稱與說明 (2) 產品總評價:產品的評價,以 1 星至 5 星來表示 (3) 顧客評分分佈:各種星等的評論篇數各是多少 (4) 列舉較重要的正負面評論:提供較多人推荐的正負面評論供消費者快速瀏覽 3 亞馬遜網路商店 http://www.amazon.com/圖 1: 產品評論網站範例 如圖 2 所示,在每篇產品評論當中,包含了下列詳細的資訊︰ (1) 評論標題:發表者針對此篇評論所下的標題 (2) 發表日期:發表此篇評論的日期 (3) 評分:最低分為 1 星,最高分為 5 星 (4) 評論者:發表此篇評論的作者名稱 (5) 評論內容:此篇評論的內容主體 (6) 網友回應:其他網友針對此篇評論的看法 (7) 是否推薦此評論:瀏覽此篇評論後,是否願意推薦 另外,網站也提供可列出某種星等的評論,也可查詢某發表者所撰寫過的所有評 論,並且可以利用搜尋關鍵字的功能來查詢該產品的所有評論。這些功能讓使用 者更能快速且正確的得到他們想要知道的資訊。
第三
第三
第三
第三章
章
章
章 中文意見探勘系統
中文意見探勘系統
中文意見探勘系統
中文意見探勘系統
圖 3: 系統架構圖 我們從中文飯店網站中收集相關飯店評論語料後,透過自然語言處理過程, 建立開發語料以及測試語料。另外我們手動收集飯店相關特徵詞,再以雙語詞典 去擴充。以及利用現有的意見詞詞典和語料庫產生更多的意見詞。最後我們建立 視覺化介面,將意見分析的結果呈現。系統架構圖如圖 3 所示,詳細說明如後述。3.1
語料收集
語料收集
語料收集
語料收集
我們使用 Yahoo!奇摩生活+4的飯店評論,作為語料收集的來源。Yahoo!奇摩5, 為台灣一家大型入口網站。以數位時代6所公布的 2009 台灣百大網站排名,Yahoo! 奇摩是排名第一的入口網站。如圖 4 所示。 4 Yahoo!奇摩生活+ http://tw.lifestyle.yahoo.com/ 5 Yahoo!奇摩 http://tw.yahoo.com/ 6 數位時代 http://www.bnext.com.tw/圖 4: 2009 台灣百大網站排名
Yahoo!奇摩生活+ 不僅有國內飯店旅館的介紹與評論,也包含了其他各行各業,
例如:美食餐廳、百貨公司、主題樂園等等,提供消費者詳細的店家資訊以及網
友的留言與評鑑。這對於意見探勘研究上而言,是相當豐富的語料收集來源。
我們總共收集 48 間飯店(2005 年~2008 年)的網友評論。其中飯店類型包含觀光飯 店與景點民宿。在此我們將收集到的評論語料區分為兩部份:一部份作為開發語 料(共有 888 篇評論),另一部份則為測試語料(共有 2322 篇評論)。我們將文章以 驚嘆號「!」、問號「?」、分號「;」、句號「。」切分為長句,再以逗號「,」 來分隔小句。表 2 為飯店評論語料的資料。 表 2: 評論語料資料 飯店數 評論篇數 長句數 單一飯店平均 篇數 單一評論平均 長句數 開發語料 18 888 3053 49.33 3.43 測試語料 30 2322 8301 77.4 3.57 我們使用中央研究院詞庫小組所建置的中文斷詞系統7,進行斷詞與詞性標記。
3.2
特徵詞
特徵詞
特徵詞
特徵詞擷取
擷取
擷取
擷取
在過去幾年,意見探勘主要的工作可分為兩個部份:(1) 找出使用者所要表 達的評論目標特徵詞 (2) 決定這個評論是為正面或是負面的。Ding et al. [‘08] 研 究提到以某件商品而言,以人工方式作初步定義,再擴充其特徵詞的同義詞。因 此,我們人工檢視評論開發語料中的名詞以及複合名詞是否可作為所要處理的飯 店特徵詞。同時,再經由相關的中文線上訂房網站8來收集與飯店相關的特徵詞。 由於人們有可能使用不同的詞彙來表達相同的特徵詞,例如:“廁所”,有些人 可能會稱作“洗手間”,也有能會稱作“化妝室”。因此我們使用中央研究院中英雙語知識本體詞網 The Academia Sinica Bilingual Ontological Wordnet (簡稱
BOW)9來加以擴充。例如:我們想要進針對「床」輸入到 BOW 後,可得到如圖 6 所示的結果,其中包含「床」的同義詞集(Synset)、上位詞(Hypernym)、下位詞 7 中文斷詞系統 http://ckipsvr.iis.sinica.edu.tw/ 8 易遊網 http://www.eztravel.com.tw/ 9 BOW http://bow.sinica.edu.tw/wn/
(Hyponym)。在上位詞與下位詞的部份是以英文詞彙顯示,我們可以點選每個詞 彙得到其中文翻譯。這裡我們得到「床」的同義詞有「臥榻」以及上位詞則有「傢 俱」,下位詞則可得到「床舖」、「雙人床」、「吊床」、「帆布床」等等。當然其中也 有一些詞彙並不適用在飯店,所以透過人工檢視來作篩選。例如:「病床」、「婚床」。 圖 6: BOW 應用範例 原始收集到的特徵詞有 86 個,經過 BOW 擴充 227 個特徵詞,最後我們總共收集 了 313 個飯店特徵詞,我們再依照這些特徵詞彙的語意,進一步分類為五大特徵 類別:“房間”、“設施”、“服務”、“餐飲”、“環境”。 如表 3 所示,並 顯示其出現在語料中的頻率。
表 3: 特徵類別 類別 詞彙數 特徵詞彙舉例(出現篇數比例) 房間 111 房間(37%),房(6%),隔音(6%),床(5%),浴室(5%) 設施 42 設備(9%),櫃檯(5%),溫泉(5%),網路(5%),大廳(2%) 服務 54 老闆(23%),態度(14%),人員(12%),老闆娘(10%),品質(3%) 餐飲 34 早餐(19%),餐廳(3%),晚餐(2%),餐點(2%),菜色(1%) 環境 72 民宿(21%),感覺(21%),飯店(13%),地方(9%),交通(6%)
3.3
意見詞擷取
意見詞擷取
意見詞擷取
意見詞擷取
在意見詞擷取上,我們採用[Ku et al. ‘07] 台大意見詞詞典(NTUSD)10。為了
進一步擴充此意見詞資料庫,我們透過文本探勘從評論開發語料中尋求更多可能
為意見詞的詞彙後,再進一步去判斷這些詞彙的語意方向是否為意見詞。詳細說
明如后。
3.3.1 NTUSD
介紹
介紹
介紹
介紹
Ku et al. [‘07] 介紹 NTUSD 的組成則是來自於 General Inquirer11(GI) 及
Chinese Network Sentiment Dictionary12(CNSD),總共包含了正向詞 2644 個詞彙
與負向詞 7766 個詞彙,每一詞彙僅為單一意見傾向。例如:「井然有序」、「美妙」、 「心滿意足」、「完美」、「物廉價美」、「大失所望」、「不可理喻」、「反覆無常」、「火 冒三丈」、「乏善可陳」等。
3.3.2
意見詞
意見詞
意見詞
意見詞庫
庫
庫
庫擴充
擴充
擴充
擴充
意見詞可用來判斷一個句子的語意傾向。假若詞庫所包含的字詞不夠多,則 可能會有覆蓋範圍的問題。因此我們利用以下步驟擴充意見詞庫: 10 NTUSD http://nlg18.csie.ntu.edu.tw:8080/opinion/index.html 11 http://www.wjh.harvard.edu/~inquirer/ 12 http://134.208.10.186/WBB/EMOTION_KEYWORD/Atx_emt-wordP.htm(1) 從評論開發語料中來尋找更多可能的意見詞。 (2) 以意見詞典中文字的意見傾向出現頻率計算(方法一) (3) 計算出現在語料庫正負例句中的機率(方法二) (4) 最後將方法一與二的結果與人工標記結果來作比較 意見詞通常都伴隨著特徵詞一起出現。此外在[Hu et al. ‘04] 研究中提到形容 詞對於預測是否為意見句是相當有幫助的。我們發現約 80% NTUSD 的詞為形容 詞。因此,我們收集所有跟特徵值一起出現在同一個小句中,並且不包含在 NTUSD 裡頭的形容詞作為意見詞。我們從評論開發語料(888 篇評論)中收集 560 個意見 詞。其中,包含 113 個單字,例如: 「大」、「棒」,「髒」、「讚」等,其中 16 個字 需要依照上下文來決定其語意傾向,例如: 「長」、「短」、「多」、「少」等。另外 有 378 個雙字詞, 69 個多字詞。 Ku et al. [‘07] 提到中文詞的語意其實可看成為所組成的單字的語意組合。因 此,某個字的語意傾向可經由計算組成字的語意傾向來作判斷。計算的方法就是 透過每個字元出現在意見字典檔的機率,加總計算後來求得該字的語意傾向,公 式如下: (1) Score(w)代表著意見詞 w 的意見傾向分數,p 代表組成這個候選意見詞 w 的字元 總數,Scj代表著意見詞 w 中每一個字元的意見分數。Sw的分數範圍在﹝-1 , +1﹞, 當 Score(w)大於等於 0.4 分時, 我們判斷這個候選意見詞 w 為正向詞;當 Score(w) 小於等於-0.4 分時, 我們判斷這個意見詞 w 為負向詞。例如:“富貴”這個詞彙 的語意分數為 0.61,是經由計算“富”(0.75) 與“貴”(0.48) 這兩個字元分數的 總合平均得來。當所得到的語意分數超過門檻值+0.4 或是-0.4 時,我們視這個詞
∑
=×
=
p j CjS
p
w
Score
11
)
(
彙為意見詞,並且可以經由正負號得知是否為正向詞或者是負向詞。 第二個方法,是透過出現在語料庫中正負例句機率來計算意見傾向。我們使 用光華雜誌社(Sinoroma)語料庫(1998~2001)13作為建立正負例句的語料來源。光華 雜誌社語料庫是一個中英雙語之語料庫,由遠流雜誌社授權發行,包含多元主題 的報導性文章。我們僅取當中中文的部份作為語料的部份,再使用 NTUSD 來判 斷每個句子是否為正例句或是負例句,方法判斷如下: (1) 句子中包含 NTUSD 正向詞或負向詞。 (2) 正/負 NTUSD 詞彙數優先。 (3) 當句子中有反向詞 (negation word) 出現在正向詞或負向詞前面時,則正負語 意反轉。表 4 為反向詞的列表。 (4) 正/負 NTUSD 詞彙一樣多時,以出現位置優先。 表 4: 反向詞列表 反向詞列表 不再(ADV) 不(ADV) 怎會(ADV) 不一定(ADV) 不見得(ADV) 不可能(ADV) 沒有(ADV) 不會(ADV) 決不(ADV) 非(ADV) 沒(ADV) 13 光華雜誌語料庫 http://www.aclclp.org.tw/use_gh_c.php
我們找出 22,087 個正例句以及 18,288 個負例句,附表 16 為光華雜誌語料正負例 句範例。考量到評論語料的主題範圍,我們再另外使用評論開發語料,依照上述 產生正負例句的規則找出 3,159 個正例句及 1,512 個負例句,附表 17 為評論訓練 語料正負例句範例。 依照下面的公式計算意見詞的意見傾向。 (2)
Score(w)代表著候選意見詞 w 的意見傾向分數,sentpos , sentneg代表著在光華雜誌
及評論訓練語料中的正負例句,fsentposw , fsentnegw代表著候選意見詞 w 出現在光
華雜誌及評論訓練語料中的正負例句的頻率。Score(w)的分數範圍在﹝-1 , +1﹞,
當 Score(w)大於等於 0.4 分時, 我們判斷這個候選意見詞 w 為正向詞;當 Score(w)
小於等於-0.4 分時, 我們判斷這個候選意見詞 w 為負向詞。
最後,由人工決定哪些意見詞為正向詞、負向詞、中性詞,或者是需要透過
上下文來決定其語意傾向。舉例來說:
價格(N) 不(ADV) 貴(Vi) 且(C) 空間(N) 很(ADV) 大(Vi)
在這個例子中,「大」是屬於正向詞 (positive),另外再舉例:
最(ADV) 大(Vi) 的(T) 缺點(N) 就是(C) 路標(N) 有點(ADV) 少(Vi)
在上述的例子當中,此時的「大」則為負向詞 (negative)。 首先,我們先請三位研究生針對 560 個意見詞分為正向詞、負向詞、中性詞 或非意見詞(neutral)及需要依照上下文來決定的詞。人工詞性標記的規則如下: (1) 每個意見詞詞性依照多數人的決定來作標記 (2) 當三位研究生標記的結果皆不相同時,則忽略該意見詞 表 5 列出幾個人工標記的範例。
∑
∑
∑
∑
+
−
+
=
neg pos neg neg pos possent
sent
fsent
sent
sent
fsent
w
Score
w w)
(
表 5: 人工標記結果範例 標記者 A 標記者 B 標記者 C 最後結果 一清二楚(Vi) 正向 正向 正向 正向 用心(Vi) 正向 中性 正向 正向 低廉(Vi) 負向 正向 負向 負向 單純(Vi) 中性 中性 正向 中性 燙(Vi) 負向 依上下文決定 中性 忽略 表 6 列出人工標記的結果。三位標記者都同時標記為相同詞性的詞彙約有 74%。 標記結果全部相同的詞彙例如:「公道」、「物美價廉」、「偏遠」、「貼心」、「精打細 算」等,標記結果多數一致的詞彙例如:「低廉」、「無話可說」、「道地」、「簡單」、 「舊」。標記結果都不一致的詞彙總計五個:「那麼多」、「超冷」、「清」、「絕」、「燙」。 表 6: 人工標記結果統計 正向詞 負向詞 中性詞 依上下文決定 總計 全部一致 89 50 262 15 416 多數一致 33 33 72 1 139 我們將兩種意見詞辨識的方法進行評估。評估效能公式如下: 系統標記且正確吻合人工標記的個數 Recall = (3) 人工標記的個數 系統標記且正確吻合人工標記的個數 Precision = (4) 系統所標記的個數
表 7 及表 8 列出方法一與方法二的結果。
表 7: 方法一在候選意見詞辨識之結果分析
方法一 (門檻值為+/- 0.4)
詞性 人工標記結果
系統正確標記 系統標記 Recall Precision F-score
正向詞 122 60 92 0.492 0.652 0.561 負向詞 83 51 177 0.614 0.288 0.392 中性詞 334 173 256 0.518 0.676 0.586 表 8: 方法二在候選意見詞辨識之結果分析 方法二 (門檻值為+/- 0.4) 詞性 人工標記結果
系統正確標記 系統標記 Recall Precision F-score
正向詞 122 37 103 0.303 0.359 0.329 負向詞 83 29 82 0.349 0.354 0.352 中性詞 334 226 345 0.677 0.655 0.666 第一種方法是依照中文字的結構分析來計算語意傾向。依照過去研究的觀 察,單字詞通常沒辦法完整表現其語意及概念。此外 NTUSD 詞典中負向詞較多, 因此雙字詞的結果會傾向於負向詞,例如:“打折”、“不停”、“發呆”。 第二種方法,是有賴於語料庫中正負例句比數。因此方法二不易得到高的正/ 負向詞辨識。最後,我們擴充 122 個正向詞、83 個負向詞及 16 個需依上下文決 定的詞。經過此步驟擴充意見詞後並再加上原本的 NTUSD,總共得到 2766 個正 向詞以及 7849 個負向詞。
3.4
意見評分
意見評分
意見評分
意見評分
在本論文中,我們考量意見句子的結構,進行意見評分。一個句子中可能針 對多個特徵詞去作評論。相對的單個特徵詞也可能有多個意見詞形容。舉例如下:雖然 一 開始 看到 房子 外觀 有 小小 失望 , 不過 房間 裡面 卻 真的 很 乾淨 , 接待 的 老闆娘 也 非常 熱情 , 感覺 很 親切 。 句子當中有「房子」、「外觀」、「房間」、「老闆娘」特徵詞;且有意見詞「熱情」、 「親切」形容「老闆娘」。
3.4.1
特徵意見配對辨識
特徵意見配對辨識
特徵意見配對辨識
特徵意見配對辨識
我們依照中文句型結構辨識每個特徵詞和其相對應的意見詞。 句型一:特徵詞+,連接詞 特徵詞 意見詞。 例如: 老闆,和 老闆娘 都 很 親切 意見句中,特徵詞與特徵詞之間包含有並列關係的連接詞,例如: 「和」、「跟」、 「與」、「及」等。在這個例子中,有兩個特徵詞與意見詞的配對:(老闆, 親切) 及 (老闆娘, 親切)。 句型二:特徵詞+ 意見詞 除了 特徵詞。 例如: 房間 滿 乾淨 的 除了 櫃台 之外 意見句中,特徵詞前面包含有轉折關係的連接詞,例如: 「但是」、「不過」、「雖 然」、「除了」等。在這個例子中,辨識出 (房間, 乾淨) 以及 (櫃台, 不乾淨)。 句型三:特徵詞 意見詞,但 意見詞。 例如: 房間 雖 小 了 點 , 但 滿 乾淨 的 在意見句中,意見詞可能會出現在跟特徵詞不同的小句裡。因此系統會將前一小 句中所發現的特徵詞來作為配對。在這個例子系統會辨識出 (房間, 小) 以及 (房間, 乾淨)。「小」則是屬於需要依照上下文來決定其語意的詞,此時就需要依照 上下文來決定其語意傾向。這裡搭配的是「房間」,所以「小」用來形容「房間」 時,則會比較偏向是負面語意。 句型四:意見詞,例如 特徵詞。 例如: 真的 很 棒 , 例如 健身房 此意見句中,特徵詞前包含承接關係的連接詞,例如: 「於是」、「比方」、「像」、 「例如」等。在這個例子中,小句中只發現特徵詞「健身房」存在並且沒有意見 詞伴隨出現。特徵詞前面有出現連接詞「例如」,系統將前一個小句中的意見詞拿 來作為配對,得到 (健身房, 棒)。
3.4.2
特徵意見傾向評分
特徵意見傾向評分
特徵意見傾向評分
特徵意見傾向評分
若句中有多個特徵時,則特徵意見傾向可依兩者出現的距離來評量意見的傾向。 Ding et al. [‘08]將句中的每一個特徵詞,去計算出它的語意分數。正向意見詞使用 +1 分代表,負向意見詞則用-1 分代表。公式 5 計算某一特徵詞的意見傾向值,由 其對應的意見詞傾向影響判斷。 (5) Score(f)代表著特徵詞 f 所得到的意見分數,大於0 為正向意見,小於 0 為負向意 見;wi代表著意見詞 w;s 代表著含有特徵詞 f 的句子;v 代表著意見詞集;orient(wi i) 代表著意見詞 wi的意見分數,正向詞使用+1 分代表,負向詞則用-1 分代表;dis(wi,f) 代表著意見詞 wi與特徵詞 f 在句子裡的詞彙距離。此公式顯示越靠近特徵詞的意 見詞所佔的比重相對較大;相反的,越遠離特徵詞的意見詞所佔的比重則會相對 較小。在計算此公式時,我們考量相反詞的作用。∑
∈ ∈=
v w s w i i i idis
w
f
w
orient
f
Score
,(
,
)
)
(
)
(
當有相反詞「不」、「不會」、「不可能」等出現在意見詞前面時,則會將意見詞的 語意傾向反轉。另外,也考慮到某些特徵詞本身即為意見詞,例如: 「舒適」。 在這樣的例子裡頭,該特徵詞所得到的分數則是依照作為意見詞時,是為正向詞 或是負向詞 (這樣的情況下,就不採用公式 5)。所以,「舒適」這個特徵詞所得到 的分數是 +1 分,因為「舒適」當作意見詞時是為正向詞。
3.4.3
特徵類別評分
特徵類別評分
特徵類別評分
特徵類別評分
我們計算意見句裡的每個特徵詞的分數,若特徵詞得到的分數大於零,則該 特徵詞則代表著正面的語意;相反的,若特徵詞得到的分數小於零,則該特徵詞 則代表著負面的語意。若特徵詞得到的分數等於零,則不代表任何意義。我們將 所有得到正分數或負分數的特徵詞個數,依照「房間」、「設施」、「服務」、「餐飲」、 「環境」這五項特徵類別加總計算後,得到每項類別的總分數。 計算公式如下所示: (6) Score(C)代表著特徵值類別 C 的總分,Fp代表著得到正分數的特徵詞個數,Fn代 表著得到負分數的特徵詞個數。由於 Score(C)的分數範圍會在[-1,+1],而飯店網 路評價是以五分制(0 分~5 分)呈現,所以我們將 Score(C)的分數轉換為[0, 5]。所 以若某項類別沒有找到特徵意見詞配對,原本 0 分經轉換後會得到 3 分。3.4.4
飯店評分
飯店評分
飯店評分
飯店評分
從評論開發語料中我們對每間飯店各擷取 25 篇評論,總共收集 450 篇評論。 我們觀察每項特徵類別的特徵詞出現在評論語料中的頻率,依照出現的詞頻進一 步計算出每項類別的權重,如表 9 所示。∑
∑
∑
∑
∑
∑
= = = = = =+
−
+
=
j i j i i i j i i j i j i i i j i ifn
fp
fn
fn
fp
fp
C
Score
1 1 1 1 1 1)
(
表 9: 特徵類別權重分佈 房間 設施 服務 餐飲 環境 詞頻 559 207 457 163 679 權重 0.27 0.10 0.22 0.08 0.33 飯店的評分依照下面公式計算出每間飯店的總評分: (7) Score(H)代表著飯店的總評分,S(Ci)代表著每項特徵類別的分數,α,β,λ, δ,γ代表著每項特徵類別的權重。飯店分數 Score(H)以四捨五入計算。計算評 論分數時若某項類別沒有分數,則代入飯店在該類別的平均分數。
3.5
視覺
視覺
視覺
視覺化結果分析介面
化結果分析介面
化結果分析介面
化結果分析介面
我們用視覺化的方式來呈現系統評分的結果,讓使用者一目瞭然每項特徵類 別的差異性,且提供不同飯店間的比較。視覺化結果分析介面如圖 7 所示。)
(
)
(
)
(
)
(
)
(
)
(
H
S
C
1S
C
2S
C
3S
C
4S
C
5Score
=
α
×
+
β
×
+
λ
×
+
δ
×
+
γ
×
圖 7: 視覺化結果分析介面 使用者可以選擇本身感興趣的飯店,加入到介面選單進行各項特徵類別的比較。 同時,介面上也會顯示該飯店的相關資訊。例如:位在哪個縣市、網站上的評價 是多少等,並且包含評論篇數與系統計算評分,如圖 8 所示。 圖 8: 飯店列表選單 使用者也可以透過介面來查詢飯店相關的意見評論,如圖 9 所示。可透過介面預\ 覽之外,還可以依照不同的飯店特徵類別來作篩選,例如說:「房間」、「服務」等
類別,查看使用者對於飯店選擇上比較重視的部份。在介面中點選評論後,可得 到更詳細的評論內容以及評價分析,如圖 10 所示。 圖 9: 飯店評論內容選單 包含了評論發表的日期、發表者名稱以及發表者的評分等資訊,也清楚列出原始 評論內容以及經過語料處理後的內容。另外還包含了系統針對該評論所找出的特 徵詞以及相對應的特徵類別分數,還有系統給這篇評論的計算評分。 圖 10: 評論內容與評價分析 最後,則是透過直方圖來呈現評論與飯店之間每項特徵類別的分數比較以及飯店 與評論的評分。如圖 11 所示,藍色表示飯店的各項類別分數系統評分,「房間」、 「設施」、「服務」、「餐飲」、「環境」的分數依序為 2 分、2 分、2 分、3 分、2 分。 黃色表示評論的各項類別分數系統評分,依序為 5 分、5 分、2 分、5 分、2 分。 另外圖中也顯示飯店的系統評分為 2 分,評論系統評分為 3 分。
圖 11: 飯店與評論評分比較直方圖結果
另外系統也可以針對飯店之間每項特徵類別的分數及飯店評價作比較。如圖 12
所示。
第四
第四
第四
第四章
章
章
章 實驗
實驗
實驗與分析
實驗
與分析
與分析
與分析
4.1
測試語料與評估
測試語料與評估
測試語料與評估
測試語料與評估
我們使用的測試語料一樣來自於網站上的飯店評論。我們將收集到的評論語 料區分為兩部份:一部份作為開發語料(共有 888 篇評論),另一部份則為測試語 料(共有 2322 篇評論)。我們收集到的評論測試語料在飯店網路的評價皆落在 3 分 ~5 分的範圍,評價 5 分的飯店有 2 間,評價 4 分的飯店有 19 間以及評價 3 分的 飯店有 7 間。在評論篇數的部份,評價 5 分的飯店有 196 篇評論,評價 4 分的飯 店有 1599 篇評論以及評價 3 分的飯店有 433 篇評論。如表 10 所示。 表 10: 評論語料網路評價分佈 飯店網路評價 5 分 4 分 3 分 開發語料(飯店數/評論篇數) 0/0 12/644 6/244 測試語料(飯店數/評論篇數) 2/196 19/1599 7/4334.2
特徵詞
特徵詞
特徵詞
特徵詞與意見詞
與意見詞
與意見詞
與意見詞擷取實驗
擷取實驗
擷取實驗
擷取實驗
系統所使用的特徵詞資料庫總計有 313 個詞彙,如表 11 所示,並依照 「房 間」、「設施」、「服務」、「餐飲」、「環境」這五大特徵類別去作區分。表 11: 飯店特徵詞資料統計 房間 設施 服務 餐飲 環境 總計 特徵詞彙數 111 42 54 34 72 313 在意見詞的部份,透過文本探勘後所擴充的意見詞再加上 NTUSD 後,總 計有 10631 個意見詞彙。其中,正向詞有 2766 個詞彙,負向詞有 7849 個詞彙, 需要依照上下文來決定正向或負向的有 16 個詞彙,如表 12 所示。 表 12: 意見詞資料統計 正向詞 負向詞 依上下文決定 總計 意見詞彙數 2766 7849 16 10631
4.3
評論評分與飯店評分
評論評分與飯店評分
評論評分與飯店評分
評論評分與飯店評分實驗
實驗
實驗
實驗
我們依照每間飯店的網路評價去作區分,再進一步針對該飯店的所有評論依 照發表者的評分去作系統自動評分的評估比較,如表 13 所示。 由實驗結果可觀察到,對於飯店評論的評分越接近該飯店的總評分時,系統所得 到的 F-score 會越好,也就是計算出來的評分結果會越接近原始評論。舉例來說, 飯店網路評價為 5 分的飯店的所有評論中,作者評分為 5 分的評論總共有 154 篇, 我們的系統評分為 5 分的評論共有 128 篇,與原作者評分相同的評論則有 106 篇。所以,Recall 為 0.688,Precision 為 0.828,F-score 則為 0.752。若以作者評分為 4
分的評論來看,可以看到不管是在 Recall 或是 Precision 上都比評分為 5 分的評論
表 13: 評論系統評分實驗結果 評論 系統評分結果(評論) 飯店網路 評價 飯店 數目 評論 篇數 分數 篇數 系統正確 標註 系統
標註 Recall Precision F-score
5 154 106 128 0.688 0.828 0.752 4 37 15 56 0.405 0.268 0.323 5 分 2 196 3 5 0 11 0.000 0.000 0.000 5 750 170 299 0.227 0.569 0.324 4 508 267 823 0.526 0.324 0.401 3 199 64 347 0.322 0.184 0.234 2 89 16 100 0.180 0.160 0.169 4 分 19 1599 1 53 5 27 0.094 0.185 0.125 5 98 5 11 0.051 0.455 0.092 4 107 39 123 0.364 0.317 0.339 3 85 28 125 0.329 0.224 0.267 2 77 30 126 0.390 0.238 0.296 3 分 7 433 1 66 9 41 0.136 0.220 0.168 整體來看,系統自動評分的效能評估所得到的 F-score 約落在 0.13 至 0.75 之間, 經由觀察實際的評論語料後發現,使用者發表的評論內容與給予的評分往往不一 定具有相關性。使用者可能描述了很多關於飯店的看法或意見,但在評分上卻給 予不高的分數,舉例如下: 第一次去住,感覺很不錯,特別是在房間內有藥浴 spa,是我住過那麼多飯店第一次 有這樣的設備,感覺很好,服務人員的服務態度非常親切,只是....早餐有待加強,整體 而言,以這樣的消費,算是可以有 89 分了! 在範例中,使用者針對「感覺」、「服務態度」、「早餐」給予正面的評價,但在評 論評分上只給了 3 分。或者是相反的,使用者可能在評論中描述了負面的看法, 但在評分上卻給予不低的分數。舉例如下: 我上禮拜有去泡湯過,感覺不錯。只是用餐時,餐廳有些小果蠅飛來飛去的,有 點不太衛生,不過整體來說算是北投不錯的會館。
在此範例中,使用者針對「感覺」給予正面的評價,而在「餐廳」卻給予負面的 評價,但在此篇評論評分上使用者給了 5 分。另外,由於每個使用者的價值觀與 想法不同,所以在評論給分上的標準當然也會有所不同,這樣一來,系統在針對 使用者評論的分析上來作自動評分,自然在飯店評論評分的效能比較上有相當程 度的困難度。 另外不考慮每間飯店的網路評價,再進一步針對所有評論依照發表者的評分去作 系統自動評分的評估比較,如表 14 所示。由於我們的評分系統在計算評論評分時 會將評論中沒有提到的特徵類別代入該飯店的特徵類別分數,因此同樣分數的評 論中在系統計算時可能會代入不同的特徵類別分數,造成此實驗得到較低的 F-score。 表 14: 不考慮飯店網路評價的評論系統評分實驗結果 飯店評論 系統計算結果(評論分數)
分數 篇數 正確標註 系統標註 Recall Precision F-score
5 1038 283 447 0.273 0.633 0.381 4 685 342 1058 0.499 0.323 0.392 3 297 95 504 0.320 0.188 0.237 2 175 49 233 0.280 0.210 0.240 1 127 14 70 0.110 0.200 0.142 另外,我們也針對每間飯店的總評分作系統評分的評估比較,如表 15 所示。 實驗結果顯示當採用充足的評論語料時,可得到 F-Score 達 79%。
表 15: 飯店系統評分實驗結果
系統評分結果(飯店)
飯店網路評價 飯店數
系統正確標註 系統標註 Recall Precision F-score
5 分 2 1 1 0.500 1.000 0.667
4 分 19 15 19 0.789 0.789 0.789
第五
第五
第五
第五章
章
章
章 結論
結論
結論
結論
本論文提出並實作一個應用意見探勘的方法在中文評鑑語料之視覺化系統。 本論文的主要貢獻如下: a. 建立 3210 篇飯店評論語料庫可供特徵詞擷取及意見詞傾向辨識使用。 b. 在飯店特徵詞收集方面,利用人工從真實的飯店評論語料及飯店網站去挑選出 飯店相關的詞彙。此外我們也利用中央研究院中英雙語知識本體詞網 (BOW) 擴 充飯店特徵詞。 c. 在意見詞萃取方面,我們利用臺大語意字典檔(NTUSD),並提出使用外部語料 庫以挖掘出更多可能的意見詞。 d. 在意見句探勘方面,除了利用現有的意見探勘方法,找出同時含有特徵詞與意 見詞的句子之外,再進一步利用中文語言句型結構來找出更精確的特徵詞與意見 詞的配對,並使用真實飯店評論語料進行測試,以探討不同的意見探勘方法使用 在中文評鑑語料上之效果。 本論文的後續研究有下列幾個可行的方向: a. 改良詞性標記程序以提高辨識正確率。 b. 特徵詞擷取及分類的自動化設計。 c. 納入其他非形容詞的詞彙以擴充意見詞資料庫。 d. 收集更多的評論訓練語料。 e. 擴充更多的中文語言句型結構。 f. 機器學習式的飯店評價分類設計。參考文獻
參考文獻
參考文獻
參考文獻
[1] Lun-Wei Ku, Yong-Sheng Lo and Hsin-Hsi Chen, “Using Polarity Scores of Words for Sentence-level Opinion Extraction”, Proceedings of NTCIR-6 Workshop Meeting, May 15-18, 2007, Tokyo, Japan.
[2] Lun-Wei Ku, Hsiu-Wei Ho, and Hsin-Hsi Chen, “Opinion Mining and Relationship Discovery Using CopeOpi Opinion Analysis System”, JOURNAL OF THE
AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY, 60(7):1486–1503, 2009.
[3] Xiaowen Ding, Bing Liu, Philip S. Yu, “A Holistic Lexicon-Based Approach to Opinion Mining”, WSDM’08, February 11-12, 2008, Palo Alto, California, USA.
[4] Lun-Wei Ku and Hsin-Hsi Chen, “Mining Opinions from the Web: Beyond Relevance Retrieval”, JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY, 58(12):1838–1850, 2007.
[5] Minqing Hu and Bing Liu, “Mining and Summarizing Customer Reviews”, KDD’04, August 22–25, 2004, Seattle, Washington, USA.
[6] Minqing Hu and Bing Liu, “Mining Opinion Features in Customer Reviews”, American Association for Artificial Intelligence,2004.
[7] Guang Qiu, Bing Liu, Jiajun Bu and Chun Chen, “Expanding Domain Sentiment Lexicon through Double Propagation”, Proceedings of the Twenty-First International Joint Conference on Artificial Intelligence (IJCAI-09).
[8] Qi Su, Xinying Xu, Honglei Guo, Zhili Guo, XianWu, Xiaoxun Zhang, Bin Swen and Zhong Su, “Hidden Sentiment Association in Chinese Web Opinion Mining”, WWW 2008, April 21–25, 2008, Beijing, China. ACM 978-1-60558-085-2/08/04.
[9] 陳正揚, “Feature Appraisal for Hotel Comparison”, 碩士論文, 96.
[10] 黃慧庭, “中文篇章中時間關係的辨識研究”, 碩士論文, 97.
[11] Soo-Min Kim, Eduard Hovy, “Determining the Sentiment of Opinions”, Proceedings of the 20th international conference on Computational Linguistics, Geneva, Switzerland, 2004.
附錄
附錄
附錄
附錄
附表 16: 光華雜誌語料正負例句範例 光華雜誌語料庫 寬敞的空間、便利的交通與「美而廉」的住宅品質,都是吸引「移民」 的有利條件。 正例句 萬丹的文化活動得以漸漸興盛,當地人自發性架設的在地網站幫助頗大。 根據本刊所做的「台北都會意象與生活滿意度」問卷調查顯示,台北居民 對於日常生活的消費物價、居住條件、交通、公共安全等項目,都不滿意。 負例句再說,金融風暴後,「國際貨幣基金」(IMF)雖然提供了總計高達千億 美元的紓困貸款,但這些貸款卻有嚴苛的附帶條件,受援國家必須緊縮政 府開支、提高利率、抽緊銀根、任憑經營不良的企業倒閉,並且降低經濟 成長率。附表 17: 評論訓練語料正負例句範例 評論語料庫 剛從這住回來 Alex 人很有耐心又很客氣,環境價格交通都很滿意,還有洗 衣機可以洗衣服又有大電視可以看好像在自己家一樣,還可以看到海真是 很不錯吶。 正例句 這裡看海很美,老闆人也很好,價格也很便宜,捷運也很方便,逛街也很 便利。 況且,有間兩人房超小,完全沒有窗戶,睡了一晚,被冷氣吹得頭痛,還 不是只能自認倒楣。 負例句 而且一間民宿連熱水問題都擺不平,還讓客人得等風勢變小才能洗澡,真 的太誇張了。