1-1 研究動機與目的
近代以來,網路快速蓬勃地發展,不只是在速度的提升,同時網路提供了許
多的便利與服務,例如網路使用者可以在搜尋引擎中搜尋想要查詢的資訊、透過
網路進行會議或社群活動,而網路購物平台的興起,讓所有網路使用者可以透過
虛擬網路選擇所需的服務,使得以往必頇透過面對面的各種社交活動都可以透過
網路來實現完成。
在這樣的消費型態底下,對於消費產品的認知來源,並不只是單一從網路購
物平台中得知產品訊息,很多產品評論網站提供網路使用者可以針對產品使用心
得發表自己的看法,例如 Mobile01 網站,提供最新的筆記型電腦、電腦周邊、
手機、相機等等產品資訊,除此之外,該網站亦提供使用者針對購買的產品提出
使用心得與產品評論。由於各式各樣的產品不計其數,對於產品的討論除了有專
業的產品評論家之外,大多數是一般使用者的產品消費心得,故其所涵蓋的觀點
與內容重點是非常多元的,甚至是包含了與產品不相關的文章內容。有時候使用
者可能對於某一廠牌的某一特定產品的內容想更進一步地了解,但是卻因為其評
論的文章內容過多,使用者得逐一點閱其產品評論的內容而花費許多時間;另一
方面,由於產品的多樣化,對於產品選擇上往往造成很大的困擾,不知道要以什
麼樣的特徵為選擇依據,故我們若能先列出討論文章中提到的產品特徵,則可有
效提供使用者可依產品時特徵瀏覽評論意見。
現今大多數對意見探勘的研究方法主要是探討如何從大量文章中區辨出是
否包含了個人意見,對於產品的評論是否包含情緒字詞,並將文章內容分類成產
品的正反面評價意見。
某一特定產品若經常被提出來討論,則該產品可能具備有一些特徵是使用者
可能感到興趣的,而過去對於意見探勘的研究在產品特徵擷取的部份,大多只重
視出現頻率較高的字詞,或是在初始時即給定一些特定的特徵字詞,但以人工給
定的方式,對不同的產品皆需重新給定而極耗費人力,因此如何自動找出產品評
論中的特徵字詞,是一個根本而重要的研究問題。
本論文探討如何用不同的字詞統計分佈資訊,結合各種不同字詞分析方式計
算字詞作為產品特徵的重要性,進行產品特徵字詞的擷取與篩選。
1-2 論文方法
本論文選用相機產品評論的論壇,蒐集了論壇中的所有網頁內容,將網頁中
不相關的頁面內容,例如廣告、網頁標籤等等移除,取出使用者發表的文章與回
覆的內容。接著對論壇中所有的句子進行詞性標註,在此我們假定產品特徵字詞
皆為名詞,故我們取出詞性標註為名詞的字詞作為我們的候選字詞。
我們統計所有候選字詞在論壇文件庫出現的次數頻率,並統計字詞在各個不
同廠牌計算各別出現的次數。根據每個字詞在文件庫中各廠牌討論文的出現頻
率,反應出一般常見特徵。並透過計算不同廠牌間機率差異程度值,找出在特定
廠牌中特有的特徵字詞。除了考慮不同廠牌間的機率差異程度所挑選出來的特有
特徵字詞之外,我們亦計算字詞與廠牌之間的關聯程度,可了解在某一廠牌中會
與廠牌名稱經常共同出現的候選字詞。此外,我們亦選擇不同的相機介紹網站,
取出相機介紹網站的文章建立相機介紹字詞文件庫,採用和論壇文件庫相同的方
法取得字詞在文件庫內的各項評估值。我們並運用字詞在論壇文件庫與相機介紹
文件庫的出現機率差異程度值,篩選過濾一些論壇常見的一般口語字詞,同時也
找出在不同文件庫中特有的特徵字詞。針對一些經常出現而非相機相關的特徵字
詞,我們則運用常見字詞列表,將在一般文章中也很常出現的字詞進行過濾篩選
的動作。
最後我們綜合各種不同字詞分析方法評估字詞重要性的特性依據,結合各種
字詞分析評估值,設計出一個字詞重要性評估函式,依其評估值高低對候選字詞
進行排序,依序選出前幾名為產品特徵字詞。我們在實驗的部份針對各種字詞分
析方法及其不同組合,評估所擷取出產品特徵字詞的準確度。
1-3 論文架構
本論文以下章節內容簡介如下:第二章說明相關文獻與探討;第三章說明本
論文的系統架構與運作流程。第四章介紹字詞統計分析方法,第五章進行字詞的
重要性評估,並提出字詞重要性評估函式,第六章進行字詞重要性評估的實驗與
結果,第七章則提出總結與未來研究的方向。