Web2.0 的興起,使得使用者不再只是扮演網路資源接收者的角色,亦可成
為網路資源提供者,這使得很多的網站紛紛開始重視到以個人為中心的網頁設
計。網路使用者可以透過部落格或者是論壇發表自己對於產品、時事新聞等意
見,同時也可以透過類似的平台讓網路使用者可以快速查詢到相關的產品資訊,
並提供作為消費者的參考依據。例如使用者可以透過網路搜尋到產品的詳細功能
以外,也可以在產品評論的網站上搜尋到消費者的使用心得,以這些資訊來決定
是否購買該項產品。在此研究中我們將重點放在如何透過自動化的方式在產品評
論文章中找出討論者主要描述之產品特徵,故如何從評論文章中擷取產品相關資
訊是我們主要探討的議題。
2-1 一般文件特徵表示方法
從大量的文件中,要找出使用者最渴望得到的內容,不管是對文件中找出一
篇或多篇文件中最具有代表性的重要句子的摘要;對於大量文件中,較感興趣的
文件部分分類;亦或是對於整體文件相似概念的分群等,皆必頇要先瞭解文件之
間的相關性。經常被採用的文件資料模型是向量空間模型(Vector Space Model),
向量空間模型不需要事先訓練模型,在計算成本上較低,文件以所包含的字詞當
作特徵,建立對應的特徵向量,將資料集出現的字詞當作特徵向量的一個維度,
將每個文件包含的字詞算出對應到特徵的特徵值,建立其特徵向量。
特徵的特徵值取法,可以透過計算特徵字詞與其他字詞共同出現的機率,或
者是依據該字詞出現在文件中與否,但此種方法無法表達出文件內容在不同特徵
上的重要程度,故後續研究中多數採用字詞對於一個文件的 tf-idf 值為特徵值。
取用字詞的 tf-idf 值作為特徵值當作文件的相關度,會對文件中與關鍵字相
同的字詞計算相似度,但忽略了不同字詞間的相關程度。[16]作者提出加入考慮
關鍵字與文件中字詞的 Mutual Information 以及 Information gain 值作為字詞的權
重,可以計算出文件中與關鍵字不同的字詞之間的相關程度。
2-2 意見擷取方法
以往的研究多數是針對意見擷取的部份進行情緒分析。[1]針對新聞或部落
格評論中,將意見擷取區分成多個不同的層級,字詞層級、文句層級、及文章段
落層級,每一個層級分法都有取其權重的方法。透過字詞的情感程度值來分析,
並進一步將其作視覺化的呈現。[2]提出在意見探勘與情緒分析時,除了以文字
的正反面情緒作區分外,也可針對其不同的特徵,了解使用者對於產品的滿意程
度。對於產品的部份特徵,如外觀或是功能上的不足存有哪些意見。進行意見分
析的同時,可以更深入去探討哪些使用者所寫的評論偏頗部份。使用者可能會有
偏好的產品品牌,進而編撰攻擊其他品牌之文章。針對這個部份作者提出一些可
能被視為是惡意評論的特徵,並做進一步的分析。
[3]透過建立一個情緒字典,計算每一個句子的情緒分數。除此之外,再計
算每一個句子與查詢詞與相關的程度值,合併情緒分數和相關程度計算出來的值
就可以找出與搜尋的主題相關且又含有個人情緒意見的句子;但是由於部落格的
文章發表時間點會影響一篇文件與搜尋詞語的相關度,故以文件發表的時間點為
基準可以搜尋出包含有關鍵字但相關的文件,若加入使用時間點這個特性可以提
高搜尋結果的精準度。此外,[4]是先決定文件與查詢詞是否有關,再建立一個
意見的SVM分類器,將所有和查詢相關的文件以句子為單位,其中每個句子都
被標記為主觀意見或是客觀意見,透過統計的方式判斷文件的意見程度。
[5]指出了以往的方法主要是針對單一的特徵找到其對應的意見字詞,在這
裡希望可以達成以特徵之間的相似度來分群,在特徵中找出其相似性較高的詞,
同時也在意見詞中找出較相像的詞,接著再透過特徵與意見之間的關聯進行分群
的動作。在做意見擷取的時候會取用一個邊界值,例如取「的」前後數個字,取
出之後將其非檢索用字去除,將其保留下來的部份做為其內部對應之用途,再從
這些字詞延伸。
2-3 特徵字詞擷取方法
本論文的研究透過特徵字詞的擷取,對於論壇中各式各樣的內容取出論壇中
討論的特徵字詞,所以如何從文件中取出具有代表性的特徵字詞是我們主要討論
的重點。
[11]中提出將蒐集的文件集合,計算字詞的頻率,並對句子做詞性標註
(Part-of-Speech tagging),透過關聯規則(association rule)的方式,擷取出頻率較高
的特徵,而頻率較低的特徵則透過已知的意見字詞列表,找出與意見字詞經常出
現的名詞,以及形容詞、名詞片語等當作特徵字詞。[12]同樣採用擷取文件集合
中,出現次數較高的名詞當作特徵字詞,並透過已知的意見字詞進行特徵與意見
字詞的配對,並使用語法圖(gramma graph)的方式找出可能的配對。只有出現頻
率高於某一程度的字詞才會放入特徵詞表裡,再進一步做意見分類與摘要。
[13]則是將焦點放在找出比較級或最高級的句子中所指代的名詞,透過預先
給定的 n 個種子識別實體(seed entity),透過樣式比對(pattern match)的方式,以種
子識別實體的前後 5 個字以內的樣式,做循序樣式探勘 (Sequential pattern
mining),刪除不符合句子樣式的字詞,保留下來的詞則作為候選特徵字詞。
近年來,許多研究會使用外部知識來源補足其資訊的可靠度, WordNet
(http://wordnet.princeton.edu/)以及維基百科(http://www.wikipedia.org/)則是最常被
使用的外部知識來源。WordNet 是一線上英文字典,每個字詞都有其語義信息,
故可從其語義信息得到其同義詞與反義詞等資訊,在進行詞意分析時多數會採用
這個字典來輔助。
[14]提出透過非監督式的學習,將特徵字詞與意見字詞作配對結合,而特徵
字詞擷取便是採用類似 WordNet 的字典與字詞轉換(token tranformation),對句子
進行標籤,取得與產品相關的資訊。決定特徵字詞表的方式,是透過已經標定好
的意見句子,利用句子中的詞性標註為名詞,從 WordNet 找出其相關的字詞或
同義反義字做為特徵字詞。[7]亦是提出一個非監督式的方法自動取出相關的面
向,先從文件集合中取出重要的字詞,再透過如 WordNet 和維基百科之外部資
源來擴充找出的面向相關字詞,以建立一個新的字詞庫作為依據。[15]提出利用
外部知識來源來計算字詞間的相關程度。作者使用便是維基百科的文章標題作為
文件中重要字詞擷取來源,即關鍵字詞若出現在維基百科的標題中,則視為重要
字詞,並當作特徵透過這樣的方式可以過濾無意義或不重要的字詞。