緒論 - 新聞論壇多面向分析之研究

1-1 研究動機

大多數的網路使用者每天都會使用網路來瀏覽新聞，甚至可以利用各網站提供的 RSS 訂閱服務，利用 RSS 閱讀器即使不用連上網站也可以瀏覽最新的新聞。

為方便使用者容易找到自己感興趣的新聞內容，大多數新聞網站皆提供新聞搜索的服務，使用者可以藉由輸入關鍵字，由系統傳回的網頁中點選欲閱讀的新聞條目。這兩項服務對於常使用新聞網站的使用者來說都是很方便的服務。

自從 Web 2.0 的概念興起，在網路環境中，使用者不只扮演被動查詢以獲得資料的角色，亦可扮演資料提供者的角色。因此有一些新聞網站提供網路使用者可以針對新聞文章發表自己的看法，例如聯合新聞網－哇新聞¹，也可以針對其它使用者的文章發表自己的回應意見，例如 YAHOO!奇摩新聞－全民話頭條²。然而在這些新聞論壇中，許多熱門的話題可能會有上百篇回應文章，使用者若一篇一篇點閱會花費許多時間。此外，由於回應文章是由一般使用者自由討論發表的內容，其所涵蓋的觀點及內容重點可能非常多樣化，甚至可能會有些不相關的文章內容。有時候使用者可能只想要閱讀有關於某一個觀點的相關文章，若能將文章依據關鍵字分類，提供使用者選擇有興趣的關鍵字或分類來閱讀相關的討論文章將可讓使用者在瀏覽網路論壇的討論文章時更有效率。

1 http://dignews.udn.com/forum/

2 http://tw.forum.news.yahoo.com/

以 YAHOO!奇摩新聞－全民話頭條這個網站為例，該網站目前的討論話題會有一組已事先定義好的話題標籤，但是這些話題標籤並不能夠完全涵蓋該主題討論的內容；這個論壇也有提供搜尋的功能，但是只限於搜尋話題，不能搜尋相關的文章，所以對於使用者來說一樣很難找出想要閱讀的文章。

很多文章中討論的觀點不會只有單一觀點，使用者會在文章中不同的段落討論不同的觀點，而傳統的分類方法只會針對文章內容，將文章分類到一個討論的主題，這樣就不能顯示出這一篇文章的其它主題。

因此本研究的目的希望能夠依據文章的內容自動找出使用者在這些話題文章中討論的觀點，然後將每一篇文章依照內容與這些觀點的相關性分類文章，讓使用者可以針對不同觀點閱讀屬於同一觀點的文章。而對於每一篇文章我們會找出多個討論的觀點，而不是只找出單一個討論的觀點。

1-2 相關文獻探討

1-2.1 意見萃取（Opinion Extraction）

在 Web2.0 的時代，網路使用者可以很方便地在部落格或者論壇發表自己對於產品、時事新聞等的意見，也由於這些媒介讓網路使用者可以快速地查詢到相關的產品資訊，且有越來越多的使用者參考這些資訊來做決定。例如使用者想得知新上市的一項產品的功能，他可以在網路上搜尋到產品的詳細功能說明，也可

地，出產某項產品的公司，也可以蒐集網路上關於此項產品的評價及使用者的心得來做為日後產品改進的參考。因此，如何有效地從大量的網路文件中萃取出有用且含有使用者個人意見的文章或句子就變得非常地重要。

萃取意見的方法有很多，其中有研究分析字詞的情感程度[10]，再以一個句子為單位計算句子的分數，再接著以段落、文章來計算，就可以找出含有使用者個人意見的句子或是文章。而除了使用字詞的情感程度值來分析之外，也可以判斷一個句子所包含的意見為正面意見或反面意見[10]，並以此當為摘要顯示出來讓使用者閱讀。[6]則是分析文章的內容，計算出情緒能量，並將這些數值以視覺化的方式呈現出來，讓使用者可以很容易地就得知相關資訊。

另外也有一些研究提出自動化的方式，不需要花費太多的人力就可以將含有個人意見的文章給找出來：[7]自動建立一個字典，再給予字典中的每一個字一個意見程度值的分數，有了每一個字的意見程度值就可以計算文件集中的每一篇文章的意見分數，再將這個意見分數和一般搜索文章的演算法得出的分數合併為這篇文章的總分。

其它也有別的研究方法先決定一篇文章是否與查詢的詞語有相關[16]，接著建立一個 SVM 意見分類器，將和查詢相關的文章細分為以句子為單位，每一個句子標記為含有主觀或客觀意見，再統計一篇文章的主觀及客觀句子數，並以此當成文章的意見程度。

[12]、[13]先建立一情緒字典，再使用該字典來計算每一個句子的情緒分數，

並計算每一個句子與查詢詞語相關的程度值，合併情緒分數和相關程度計算出來的值就可以找出與搜尋的主題相關且又含有個人情緒意見的句子。Mishne[13]認為部落格文章發表的時間點也會影響一篇文章與搜索詞語的相關度，以文章發表的時間點為基準可以搜尋出不含有關鍵字但相關的文章，若加入使用時間點這個部落格文章的特性即可提高搜尋結果的準確度。

1-2.2 摘要(Summarization)

由於網路媒體的發展與便利性，越來越多的使用者利用新一代的網路媒介發表訊息或文章，其它使用者便可使用搜尋引擎找到相關的資訊，但是搜尋引擎搜尋出來的結果會是很龐大的資料量，若可以從搜尋結果的文件中取出重要的段落或句子呈現給使用者，就可以大大地減少使用者一一點選這些文件閱讀的時間。

目前有一些研究是利用使用者回覆的意見內容來幫助挑選出文章中的句子當做摘要的內容。在[8]、[9]這兩個研究中，定義使用者回覆的意見內容包含有三種關係類別：主題相關、引用文字關聯和提及其它使用者的名字，利用這三種關係，從回覆的意見中的字，計算出文章中每一個字的分數，再用每個字的分數計算出句子的分數，最後就可以挑選出分數較高的句子當做該篇文章的摘要。

許多研究方法在篩選文章的過程中，會將重覆的句子或段落刪除，因為這些

的次數很多的時候，代表它是一個比較有代表性意義的意見，在摘要的時候就應該要保留下來。這篇論文使用的方法除了計算文件集中的字和關鍵字的相關性之外，也考慮了字的情感程度。

[10]的方法簡述如下：先選出和使用者查詢的關鍵字相關的句子，計算每一個句子的情感分數：將句子中每一個字的情感分數加總，若在情感字的附近有否定字，則該字的分數為負值。利用這個方法就可以計算出每一個句子的意見分數，可以利用這個分數將意見分為正面或反面，做為一種摘要的表示方式。

[5]應用了 PageRank 的演算法，將一篇文章建立成一個圖(graph)，將每一個句子當成一個節點，計算句子和句子間的相似度，若相似度有高於門檻值，就將節點連起來。以此方法計算出權威性較大的句子，表示該句子重要性大，是一個很有代表性的句子，這個句子可以用來當為該篇文章的摘要句子之一。

1-2.3 分類(Clustering)

目前有許多提供分類搜尋的系統對於使用者的搜尋，都已經事先建立好一個瀏覽的目錄資訊，但這些目錄底下的分類有時候也不一定剛好符合使用者真正的需求。這種系統最大的缺點就是在於這些分類已經都是固定的結構，針對任一使用者的搜尋而以該網站底下已存在的分類結構去對使用者做結果的呈現，但這樣的搜尋結果常常無法達到使用者真正的需求。

又或者某些分類搜尋的系統針對使用者所下的查詢只能提供一個維度的查詢，這些用來提供瀏覽之已分類的資料，由於已經過分類，若要看出搜尋結果與其屬性的關係，將無法明顯觀察出來[4]。

動態選定分類類別的方法為：從文件集中選出 n 個類別，針對一個查詢 q，

先選出 K1個類別，對於 q 來說是一個較大方向的內容，再透過建立類別摘要，在 這個摘要中包含 K2個以上的屬性，對使用者來說這 K2個都是使用者最會感到興趣的屬性。再透過計算期望值，當使用者給定一個期望值之後，去和最後結果作一個比較看達到使用者期望程度之多寡。最後整合這些特性，針對單一個類別中的類別項目，其機率愈小代表是使用者感興趣的，利用這個值的倒數，便可計算出整個類別的值，之後再將類別的值加總，若值的分佈均勻，則在加總時加入權重值就可以顯示出其效果。

另外也有其它研究讓使用者自行決定類別[11]，再依據使用者選擇的類別及少許的關鍵字，建立每一個類別的模型，計算文件集合中每一個句子和類別關鍵字的機率分佈，並從文件集中選出最相關的句子，將結果呈現給使用者。

1-2.4 自動面向探勘(Mining Facets Automatically)

大部分使用者瀏覽網路上的文件的方法不外乎是搜尋及瀏覽。將資料以面向的方式展現出來是一種新的方式，除了展示搜尋結果，也可以展示結果的分類架

有些研究著重在分類的結果或是摘要的產生[11]，因此面向的產生為人工選定或是由使用者決定。另外一些研究則是使用一些包括統計、以規則為基礎的自然語言處理、資訊檢索、機器學習、Ontology 等方法自動從文字內容中建立出結構化的資訊[1]、[2]。[15]則是使用 WordNet 的架構來輔助建立出面向階層。

[3]提出了一個非監督式的方法來自動取出相關的面向，但作者也發現，很少

在文檔中新聞論壇多面向分析之研究 (頁 7-15)