• 沒有找到結果。

新聞論壇多面向分析之研究

N/A
N/A
Protected

Academic year: 2021

Share "新聞論壇多面向分析之研究"

Copied!
61
0
0

加載中.... (立即查看全文)

全文

(1)國立臺灣師範大學 資訊工程研究所碩士論文. 指導教授:柯佳伶. 博士. 新聞論壇多面向分析之研究 Mining Multi Facets on News Forums. 研究生:施佩君 中華民國. 撰. 九十八年七月.

(2) 摘要 新聞論壇多面向分析之研究 施佩君 在網路新聞論壇中,由於文章內容是由一般使用者自由發佈,即使論壇中有 以主題區分討論內容,但討論文章內容中仍可能呈現出多種討論觀點面向,使用 者不容易從數量龐大的討論文章中有效瀏覽自己感興趣的觀點文章。本論文研究 所提出的方法可對一組新聞論壇文章自動分析萃取出重要的討論觀點面向(以關 鍵字表示),且建立出面向的階層架構關係,並對各文章自動判斷其所包含的各 個面向,提供使用者可依討論觀點面向進行文章瀏覽。在探勘分析過程中,我們 會先由標題字詞選出重要且出現頻率高的字詞作為面向,並對這些面向關鍵字探 勘出其相關擴展字詞,接著我們利用向量空間模型分別計算整篇文章所包含的字 詞與面向擴展字詞的相關程度,以及文章中各個句子所包含的字詞與面向擴展字 詞的相似度,再將這兩個結果合併判斷一篇文章所包含之相關面向。實驗結果顯 示:本論文系統對各文章所選定的面向與受試者挑選的面向結果一致性很高;且 將多個主題的文章混合在一起時,本論文方法也可以將不同主題的文章所涵蓋的 面向正確地萃取出來。.

(3) 目錄 附表目錄 ....................................................................................................................ii 附圖目錄 ...................................................................................................................iii 第一章. 緒論.............................................................................................................1. 1-1 研究動機....................................................................................................1 1-2 相關文獻探討............................................................................................2 1-3. 論文方法....................................................................................................7. 1-4 論文架構....................................................................................................8 第二章. 問題描述與定義 .........................................................................................9. 2-1 問題描述....................................................................................................9 2-2 基本名詞定義..........................................................................................10 第三章. 論文方法 ...................................................................................................15. 3-1 系統簡介..................................................................................................15 3-2 資料蒐集及資料前處理...........................................................................16 3-3. 建立各主題之面向 ..................................................................................21. 3-4. 選定面向..................................................................................................29. 第四章. 實作系統簡介與實驗評估........................................................................37. 4-1 新聞論壇多面向分析系統介紹 ...............................................................37 4-2. 實驗評估..................................................................................................41. 4-3 分析與討論..............................................................................................50 第五章. 結論與未來研究方向................................................................................52. 參考文獻 ..................................................................................................................54. i.

(4) 附表目錄 表 2.1 在文章集合 C 中,『抽菸』有出現的文章編號及次數 ...........................13 表 4.1 不同主題組合之的面向相關文章的百分比例平均值................................49. ii.

(5) 附圖目錄 圖 2.1 話題討論文章列表 .......................................................................................9 圖 2.2 話題列表.....................................................................................................10 圖 2.3 文章範例.....................................................................................................11 圖 2.4 字詞出現頻率範例 .....................................................................................13 圖 3.1 系統流程.....................................................................................................15 圖 3.2. Yahoo!奇摩新聞全民話頭條首頁..............................................................17. 圖 3.3 資料文章範例 .............................................................................................18 圖 3.4 取出的文章標題 .........................................................................................18 圖 3.5 取出的文章內文 .........................................................................................18 圖 3.6 文章內文斷句結果 .....................................................................................19 圖 3.7 文章內文斷詞結果 .....................................................................................20 圖 3.8 建立各主題之候選面向之程式碼 ..............................................................23 圖 3.9 調整候選面向集合之程式碼 ......................................................................27 圖 3.10 面向之階層架構 .......................................................................................28 圖 3.11 建立面向的階層架構之程式碼 ................................................................29 圖 3.12 面向擴展字詞範例....................................................................................32 圖 3.13 文章與相關面向結果展示範例 ................................................................34 圖 4.1 新聞論壇多面向分析系統使用介面 ..........................................................37 圖 4.2 系統分析結果回傳頁面..............................................................................38 圖 4.3 展開面向,列出與面向相關的文章 ..........................................................39 圖 4.4 面向與相關文章結果展示範例 ..................................................................40 圖 4.5 實驗一:每一篇文章的排名分數 ..............................................................43 圖 4.6 實驗一:每一篇文章的 Recall 值..............................................................44 圖 4.7 受試者與系統結果不一致之範例 ..............................................................45 iii.

(6) 圖 4.8 沒有相關面向的文章範例..........................................................................46 圖 4.9 各面向的相關文章中屬於不同主題的百分比例 .......................................48 圖 4.10 各面向的相關文章中屬於不同主題的百分比例 .....................................49. iv.

(7) 第一章. 緒論. 1-1 研究動機 大多數的網路使用者每天都會使用網路來瀏覽新聞,甚至可以利用各網站提 供的 RSS 訂閱服務,利用 RSS 閱讀器即使不用連上網站也可以瀏覽最新的新聞。 為方便使用者容易找到自己感興趣的新聞內容,大多數新聞網站皆提供新聞搜索 的服務,使用者可以藉由輸入關鍵字,由系統傳回的網頁中點選欲閱讀的新聞條 目。這兩項服務對於常使用新聞網站的使用者來說都是很方便的服務。 自從 Web 2.0 的概念興起,在網路環境中,使用者不只扮演被動查詢以獲得 資料的角色,亦可扮演資料提供者的角色。因此有一些新聞網站提供網路使用者 可以針對新聞文章發表自己的看法,例如聯合新聞網-哇新聞1,也可以針對其它 使用者的文章發表自己的回應意見,例如 YAHOO!奇摩新聞-全民話頭條2。 然而在這些新聞論壇中,許多熱門的話題可能會有上百篇回應文章,使用者 若一篇一篇點閱會花費許多時間。此外,由於回應文章是由一般使用者自由討論 發表的內容,其所涵蓋的觀點及內容重點可能非常多樣化,甚至可能會有些不相 關的文章內容。有時候使用者可能只想要閱讀有關於某一個觀點的相關文章,若 能將文章依據關鍵字分類,提供使用者選擇有興趣的關鍵字或分類來閱讀相關的 討論文章將可讓使用者在瀏覽網路論壇的討論文章時更有效率。. 1 2. http://dignews.udn.com/forum/ http://tw.forum.news.yahoo.com/ 1.

(8) 以 YAHOO!奇摩新聞-全民話頭條這個網站為例,該網站目前的討論話題會 有一組已事先定義好的話題標籤,但是這些話題標籤並不能夠完全涵蓋該主題討 論的內容;這個論壇也有提供搜尋的功能,但是只限於搜尋話題,不能搜尋相關 的文章,所以對於使用者來說一樣很難找出想要閱讀的文章。 很多文章中討論的觀點不會只有單一觀點,使用者會在文章中不同的段落討 論不同的觀點,而傳統的分類方法只會針對文章內容,將文章分類到一個討論的 主題,這樣就不能顯示出這一篇文章的其它主題。 因此本研究的目的希望能夠依據文章的內容自動找出使用者在這些話題文 章中討論的觀點,然後將每一篇文章依照內容與這些觀點的相關性分類文章,讓 使用者可以針對不同觀點閱讀屬於同一觀點的文章。而對於每一篇文章我們會找 出多個討論的觀點,而不是只找出單一個討論的觀點。. 1-2 相關文獻探討 1-2.1 意見萃取(Opinion Extraction) 在 Web2.0 的時代,網路使用者可以很方便地在部落格或者論壇發表自己對 於產品、時事新聞等的意見,也由於這些媒介讓網路使用者可以快速地查詢到相 關的產品資訊,且有越來越多的使用者參考這些資訊來做決定。例如使用者想得 知新上市的一項產品的功能,他可以在網路上搜尋到產品的詳細功能說明,也可 以搜尋到其它使用者的使用心得,以這些資訊來決定是否購買這項產品。同樣. 2.

(9) 地,出產某項產品的公司,也可以蒐集網路上關於此項產品的評價及使用者的心 得來做為日後產品改進的參考。因此,如何有效地從大量的網路文件中萃取出有 用且含有使用者個人意見的文章或句子就變得非常地重要。 萃取意見的方法有很多,其中有研究分析字詞的情感程度[10],再以一個句 子為單位計算句子的分數,再接著以段落、文章來計算,就可以找出含有使用者 個人意見的句子或是文章。而除了使用字詞的情感程度值來分析之外,也可以判 斷一個句子所包含的意見為正面意見或反面意見[10],並以此當為摘要顯示出來 讓使用者閱讀。[6]則是分析文章的內容,計算出情緒能量,並將這些數值以視覺 化的方式呈現出來,讓使用者可以很容易地就得知相關資訊。 另外也有一些研究提出自動化的方式,不需要花費太多的人力就可以將含有 個人意見的文章給找出來:[7]自動建立一個字典,再給予字典中的每一個字一個 意見程度值的分數,有了每一個字的意見程度值就可以計算文件集中的每一篇文 章的意見分數,再將這個意見分數和一般搜索文章的演算法得出的分數合併為這 篇文章的總分。 其它也有別的研究方法先決定一篇文章是否與查詢的詞語有相關[16],接著 建立一個 SVM 意見分類器,將和查詢相關的文章細分為以句子為單位,每一個 句子標記為含有主觀或客觀意見,再統計一篇文章的主觀及客觀句子數,並以此 當成文章的意見程度。. 3.

(10) [12]、[13]先建立一情緒字典,再使用該字典來計算每一個句子的情緒分數, 並計算每一個句子與查詢詞語相關的程度值,合併情緒分數和相關程度計算出來 的值就可以找出與搜尋的主題相關且又含有個人情緒意見的句子。Mishne[13]認 為部落格文章發表的時間點也會影響一篇文章與搜索詞語的相關度,以文章發表 的時間點為基準可以搜尋出不含有關鍵字但相關的文章,若加入使用時間點這個 部落格文章的特性即可提高搜尋結果的準確度。. 1-2.2 摘要(Summarization) 由於網路媒體的發展與便利性,越來越多的使用者利用新一代的網路媒介發 表訊息或文章,其它使用者便可使用搜尋引擎找到相關的資訊,但是搜尋引擎搜 尋出來的結果會是很龐大的資料量,若可以從搜尋結果的文件中取出重要的段落 或句子呈現給使用者,就可以大大地減少使用者一一點選這些文件閱讀的時間。 目前有一些研究是利用使用者回覆的意見內容來幫助挑選出文章中的句子 當做摘要的內容。在[8]、[9]這兩個研究中,定義使用者回覆的意見內容包含有三 種關係類別:主題相關、引用文字關聯和提及其它使用者的名字,利用這三種關 係,從回覆的意見中的字,計算出文章中每一個字的分數,再用每個字的分數計 算出句子的分數,最後就可以挑選出分數較高的句子當做該篇文章的摘要。 許多研究方法在篩選文章的過程中,會將重覆的句子或段落刪除,因為這些 重覆的內容只是一些廣告內容或者網頁連結內容;但是[10]認為當一個意見出現. 4.

(11) 的次數很多的時候,代表它是一個比較有代表性意義的意見,在摘要的時候就應 該要保留下來。這篇論文使用的方法除了計算文件集中的字和關鍵字的相關性之 外,也考慮了字的情感程度。 [10]的方法簡述如下:先選出和使用者查詢的關鍵字相關的句子,計算每一 個句子的情感分數:將句子中每一個字的情感分數加總,若在情感字的附近有否 定字,則該字的分數為負值。利用這個方法就可以計算出每一個句子的意見分 數,可以利用這個分數將意見分為正面或反面,做為一種摘要的表示方式。 [5]應用了 PageRank 的演算法,將一篇文章建立成一個圖(graph),將每一個 句子當成一個節點,計算句子和句子間的相似度,若相似度有高於門檻值,就將 節點連起來。以此方法計算出權威性較大的句子,表示該句子重要性大,是一個 很有代表性的句子,這個句子可以用來當為該篇文章的摘要句子之一。. 1-2.3 分類(Clustering) 目前有許多提供分類搜尋的系統對於使用者的搜尋,都已經事先建立好一個 瀏覽的目錄資訊,但這些目錄底下的分類有時候也不一定剛好符合使用者真正的 需求。這種系統最大的缺點就是在於這些分類已經都是固定的結構,針對任一使 用者的搜尋而以該網站底下已存在的分類結構去對使用者做結果的呈現,但這樣 的搜尋結果常常無法達到使用者真正的需求。. 5.

(12) 又或者某些分類搜尋的系統針對使用者所下的查詢只能提供一個維度的查 詢,這些用來提供瀏覽之已分類的資料,由於已經過分類,若要看出搜尋結果與 其屬性的關係,將無法明顯觀察出來[4]。 動態選定分類類別的方法為:從文件集中選出 n 個類別,針對一個查詢 q, 先選出 K1 個類別,對於 q 來說是一個較大方向的內容,再透過建立類別摘要,在 這個摘要中包含 K2 個以上的屬性,對使用者來說這 K2 個都是使用者最會感到興 趣的屬性。再透過計算期望值,當使用者給定一個期望值之後,去和最後結果作 一個比較看達到使用者期望程度之多寡。最後整合這些特性,針對單一個類別中 的類別項目,其機率愈小代表是使用者感興趣的,利用這個值的倒數,便可計算 出整個類別的值,之後再將類別的值加總,若值的分佈均勻,則在加總時加入權 重值就可以顯示出其效果。 另外也有其它研究讓使用者自行決定類別[11],再依據使用者選擇的類別及 少許的關鍵字,建立每一個類別的模型,計算文件集合中每一個句子和類別關鍵 字的機率分佈,並從文件集中選出最相關的句子,將結果呈現給使用者。. 1-2.4 自動面向探勘(Mining Facets Automatically) 大部分使用者瀏覽網路上的文件的方法不外乎是搜尋及瀏覽。將資料以面向 的方式展現出來是一種新的方式,除了展示搜尋結果,也可以展示結果的分類架 構,以此來補足關鍵字搜尋的不足。. 6.

(13) 有些研究著重在分類的結果或是摘要的產生[11],因此面向的產生為人工選 定或是由使用者決定。另外一些研究則是使用一些包括統計、以規則為基礎的自 然語言處理、資訊檢索、機器學習、Ontology 等方法自動從文字內容中建立出結 構化的資訊[1]、[2]。[15]則是使用 WordNet 的架構來輔助建立出面向階層。 [3]提出了一個非監督式的方法來自動取出相關的面向,但作者也發現,很少 會有面向出現在文章內容中。因此,作者先從文件集中取出一些重要的字彙,然 後,再利用外部資源,像是 WordNet 和 Wikipedia 來擴充這些面向的相關詞彙, 以此建立另一個字詞庫。. 1-3 論文方法 目前大多的研究都是針對文章取出使用者的個人意見、從很多的文章中摘要 出較重要的句子,或是將文章依照已事先定義好的類別分類,但是分類的結果只 會將一篇文章對應到一個相關的類別,可是實際上一篇文章有可能討論很多個不 同的觀點。因此本論文的目的在分析文章內容,自動產生出與每一個主題相關的 各種討論的觀點,而每一篇文章也會找出該篇文章的多個討論的觀點,使用者即 可依這些討論的觀點來閱讀相關的文章。 [11]的研究方法是讓使用者定義一些有興趣的觀點,及這些觀點的相關關鍵 字,接著再計算文章集合中每一個句子和這些觀點的機率分佈,就可以將句子標 記上相關的觀點,最後再根據使用者有興趣的這些觀點挑選出十個句子當做摘. 7.

(14) 要。[3]提出的方法雖會自動產生出分類的類別,但他們的研究方法還需使用一些 外部的資源,例如 WordNet 和 Wikipedia 來擴充字彙。 本論文的方法是從文章集合中自動挑選出文章中討論的觀點關鍵字,並將這 些觀點概念建立出階層結構關係,再從文章集合中計算與這些關鍵字有高度相關 的字詞,以這些字詞集合當成觀點關鍵字的相關擴充字詞集,然後計算文章內容 與這些關鍵字的相關程度值,標記出每一篇文章包含哪一些討論觀點。實驗結果 顯示我們的方法選定各文章的面向與受試者挑選的面向結果一致性很高;且將多 個主題的文章混合在一起時,也可以將不同主題的文章所涵蓋的面向正確地萃取 出來。. 1-4 論文架構 本論文以下章節內容簡介如下:第二章說明本論文所研究的問題及相關名詞 定義。第三章說明本論文提出的研究方法,包括自動探勘出面向的方法以及挑選 每一篇文章的面向的方法。在第四章我們將以實驗結果顯示本論文方法的結果準 確性。最後在第五章提出總結,並探討未來研究方向。. 8.

(15) 第二章. 問題描述與定義. 2-1 問題描述 本論文所要解決的問題是:給定一個新聞話題討論之文章集合,從集合中的 文章內容中找出這些文章討論的話題及使用者的觀點,也就是要挑選出可以代表 這些文章集合的一些關鍵字,即在本論文中指的『面向』。 挑選出來面向之後,就要為集合中的每一篇文章選出最相關的幾個面向,最 後將相同面向的文章集合在一起,就可以提供依不同討論觀點搜尋文章的效果, 在本論文中,我們認為一篇文章中討論的觀點會有很多個,因此每一篇文章可以 有多個面向。. 圖 2.1. 話題討論文章列表 9.

(16) 如圖 2.1 所示,每一個話題會有許多使用者發表的文章,每一位使用者在同 一個話題中討論的觀點都不一樣,所以我們的目標是從這些文章集合中找出使用 者最常討論的觀點,並對各文章自動判斷其所包含的各個面向,便可提供使用者 依討論面向瀏覽相關文章。. 2-2 基本名詞定義 [定義 2.1] 話題 (topic) 本論文所考慮的資料集是由許多話題主題 T = {t1 , t2 , t3 ,..., t n } 的討論文章集合 而成。如圖 2.2 所示,每一個話題主題都會有相關的討論文章。. 圖 2.2. 話題列表. 10.

(17) [定義 2.2] 面向 (facet) 對於每一個主題 ti ∈ T ,我們的目標是要找出一些可以代表這個主題的關鍵 字來做為這個主題 ti 的面向集合。因為面向會是隱含在文章內容中,所以從文章 內容中可以挑選出重要的字詞集做為面向集合 F (ti ) = { f1, f 2 , f3 ,..., f g } , ti ∈ T 。. [定義 2.3] 文章集合 本論文所探討的文章資料集是由許多話題主題 ti ∈ T 的討論文章集合而成, 在其中每一篇文章會有一個對應的主題,此外,一篇文章又可分為標題及文章內 文兩個部分,如圖 2.3 所示,因此一篇文章 dj 表示為 (ti , content , title),其中 ti ∈ T 。. 文章標題 文章所屬的話題 文章內文部分. 圖 2.3. 文章範例. 11.

(18) 如 圖 2.3 所 示 , 一 篇 文 章 的 內 文 是 由 一 些 字 詞 cwi 所 組 成 , d j .content = {cw1 , cw2 , cw3 ,..., cwl } ,此外,文章標題也是由一些字詞 twi 所組成, d j .title = {tw1 , tw2 , tw3 ,..., twm } ,在本論文中,我們不考慮字詞的前後順序,只是將 一篇文章視為一個字詞所形成的集合。 一個主題 ti 的所有文章所形成的集合以 D(ti)表示, {d j | d j ∈ ti , ti ∈ T } ;而 C 則表示全部的話題主題的文章所形成的集合,因此 C = {D (ti ) | ti ∈ T } 。. [定義 2.4] 內文字詞集合 一個主題 ti 的文章內文中出現之字詞所形成的字詞集合以 Wi 表示,因此 Wi = {cwk | cwk ∈ d .content , d ∈ D (ti ) ∧ ti ∈ T } 。 例如在『菸害防制法新制上路』這個主題的字詞集合為 Wi = {人權,汙染,環境,. 公平,禁菸,董氏基金會……}。. [定義 2.5] 字詞出現頻率 一個字詞 cw 在一篇文章 d 的內文部分所出現的次數稱為 cw 在 d 中的字詞 出現頻率(term frequency)以 c(cw, d .content ) 表示。例如在圖 2.4 的文章中,『抽 菸』一詞的出現頻率為 6。. 12.

(19) 圖 2.4. 字詞出現頻率範例. [定義 2.6] 文件出現頻率 整體文件出現頻率(global document frequency)表示一個字詞 cw 在全部的 主 題 文 章 集 合 C 中 有 多 少 篇 曾 經 出 現 過 , 以 gdfC(cw) 表 示 , gdf C (cw) = {d | cw ∈ d .content ∧ d ∈ C} ,因此若一個字詞 cw 在文章集合 C 中,共 有 n 篇文章中出現字詞 cw,則 gdf C (cw) = n 。 gdf C (cw) 只計算有出現 cw 的文章篇數,並不需考慮單一篇文章中 cw 的出現 次數。. 文章編號. 4. 10. 16. 20. 50. 63. c(抽菸,d.content). 3. 2. 1. 1. 3. 4. 表 2.1. 在文章集合 C 中,『抽菸』有出現的文章編號及次數 13.

(20) 例如『抽菸』這個詞的出現次數如表 2.1 所示,其表示抽菸這個詞一共出現 在編號 4、10、16、20、50、63 這六篇文章中,則 gdfC(抽菸)即為 6。 若將 gdf C (cw) 中文章集合範圍改為一個主題 ti 的文章內文集合,就可計算出 一 個 字 詞 在 主 題 ti 下 文 件 出 現 頻 率 , 表 示 為 df (cw, ti ) , 其 中 df (cw, ti ) = {d | cwd .content ∧ d ∈ D(ti )} 。 另外我們定義一個字詞 tw 在一個主題 ti 的文章標題集合中的出現次數為標題 出 現 頻 率 ( title. frequency ) , 以 title _ freq(tw, ti ) 表 示 , 其 中. title _ freq(tw, ti ) = {d | tw ∈ d .title ∧ d ∈ D (ti )} 。. [定義 2.7] 文章長度 一篇文章 dj 之內文的長度是指一篇文章內文全部字詞的出現次數,以 d j .content.length 表示,而 d j .content.length = ∑ cw∈d. 14. j . content. c (cw, d j .content ) 。.

(21) 第三章. 論文方法. 本章節將說明本論文自動探勘出主題面向及文章面向選定的方法:3-1 節先 簡介系統架構,3-2 節介紹本研究所使用之資料及資料的前處理方法,3-3 節詳述 產生各主題的面向集及調整之步驟,3-4 則說明如何為每一篇文章挑選相關面向。. 3-1 系統簡介. 資料蒐集與前處理 1.蒐集資料 2.取出文章標題及內文 3.斷句 4.斷詞. 產生主題面向 1.產生候選面向集合 2.調整面向 3.建立面向之階層架構. 選定文章的面向 1.擴展面向的相關字詞集合 2.計算面向與文章之相關度. 圖 3.1. 系統流程. 15.

(22) 本論文的系統流程如圖 3.1 所示分為三大部份: 1. 資料蒐集及資料前處理:本論文所採用的資料來源為 YAHOO!奇摩新聞- 全民話頭條(http://tw.forum.news.yahoo.com/);資料前處理包括斷句、斷詞處理 及候選面向集合的產生。 2. 產生各主題的面向:這一個步驟先是從候選面向集合中選出每一個主題相 關的面向,接著調整面向集合並建立面向的階層架構。 3. 每篇文章的面向選定:先探勘出每一個面向的擴展相關字詞集合,接著計 算面向與文章的相關性,以此相關性決定文章內容所包含的面向。. 3-2 資料蒐集及資料前處理 3-2.1 資料集 本論文研究所使用之新聞討論文章資料來源為 Yahoo!奇摩新聞全民話頭條 (http://tw.forum.news.yahoo.com/),我們從論壇中取得的資料有:話題標題及話 題中所有討論的文章。Yahoo!奇摩新聞全民話頭條之首頁頁面如圖 3.2 所示。. 16.

(23) 圖 3.2. Yahoo!奇摩新聞全民話頭條首頁. 3-2.2 資料前處理 我們蒐集到的資料,每一篇文章由許多部分所組成,如圖 3.3 所示,在本研 究中只需使用到文章標題及內文的部分,因此我們必須進行前處理分別取出文章 標題和內文的部分,取出的文章標題和內文如圖 3.4 和圖 3.5 所示。. 17.

(24) 文章標題 文章內文部分. 圖 3.3. 資料文章範例. 圖 3.4. 取出的文章標題. 圖 3.5. 取出的文章內文. 18.

(25) 將文章標題和文章內文分別取出之後,針對文章內文部分我們還必須進行兩 個步驟的處理,第一步是將文章斷句,因為在之後計算文章與面向的相關性的時 候也需要計算句子和面向之相關性,所以在前處理的部分要先將文章內容依照句 子一句一句斷好。 由於文章來源檔案為 HTML 格式的檔案,因此除了文字、標點符號之外還包 含有 HTML 標籤,如圖 3.5 所示,因此我們利用標點符號(,.?!~;,。〜;!?等)、 html 標籤(<br>、<p>、<div>等)及空格來將文章內容進行斷句。斷句結果如圖 3.6 所示。. 圖 3.6. 文章內文斷句結果. 19.

(26) 斷句完之後的文章內容,我們再利用事先建立好的約包含五萬兩千多字的字 典及斷詞程式來進行斷詞處理。在此後的處理皆是以此斷句且斷詞完之後的檔案 內容來做為比對、計算的依據。經過斷詞處理若存在字典中的字詞即會被保留並 以空格分隔出來,若字典中沒有的字詞則會被刪去,斷詞完的結果如圖 3.7 所示。. 圖 3.7. 文章內文斷詞結果. 20.

(27) 3-3 建立各主題之面向 3-3.1 建立候選面向集合 本研究的目標是要找出隱藏在文章內容中的面向,因此可以代表話題的面向 關鍵字必須出現在文章內容中。因此,一開始我們取全部話題主題的文章所形成 的文章集合 C,從經過斷句及斷詞處理後的文章內容中計算各字詞 cw 的整體文 件出現頻率 gdf C (cw) ,並刪除 gdf C (cw) 值太高或太低的字詞。 gdf C (cw) 值太高表 示是太廣泛不具有代表性的字詞,例如:『這個』、『那個』等使用者很常使用 的字詞,這一類指示代名詞或是一些疑問語氣詞出現地很頻繁,且不具有明確的 概念含義,因此不能夠用來當做代表一個面向的字詞,本論文方法訂定 gdf C (cw) 值若超過 400 即表示這個字詞的頻率太高,需被刪去。至於字詞出現頻率太低的 字詞也不能夠被當成候選面向,因為這一類的字詞只有很少數的使用者會使用, 若使用這一類的字詞來當成面向,也無法找出與該面向相關的文章,因此我們也 會刪去 gdf C (cw) 值太低的字詞。例:『鷸蚌相爭』、『蜚短流長』等較不常見的 成語或一些太專業艱深的詞彙等,本論文方法訂定 gdf C (cw) 值若低於 5 即表示這 個字詞的頻率太低,會被刪除。 另外有一些字詞在集合 C 中雖然整體文件出現頻率 gdf C (cw) 不算太高也不會 太低,但是這些字詞卻同樣地無法表現出特定主題的概念,例如:『台灣』、『台 灣人』這一些不管在哪一個文章主題中都很常出現的字詞,我們也會將這些字詞 以人為設定排除在候選面向集合之外。. 21.

(28) 3.3-2 建立各主題之候選面向 我們在上一個步驟刪除掉不適合被當作候選面向的字詞後,就要從剩下的字 詞集合中取出每一個主題的候選面向集合。我們認為使用者在文章標題中採用到 的字詞最能夠表現出該篇文章的重點主題,或者該使用者想表達的意見觀點。因 此我們對每一主題 ti 的文章集合 D(ti),從每一篇文章的標題中,找出可以代表主 題 ti 的重要關鍵字。 我們先計算一個字詞 tw 在主題 ti 的文章標題集合中的標題之出現頻率 title_freq(tw,ti)。由於在前一個步驟已經全面性地刪除太廣泛不具有代表性之字 詞,在這一個步驟中,因計算 title_freq(tw,ti)的範圍縮小為一個主題的文章集合, 若有一個字詞的 title_freq(tw,ti)很高,表示很多使用者認為這一個字對此一主題來 說是很重要的,所以才會經常在標題中用到這個字詞,換言之,這一個字詞可以 表現出此主題的重要觀點,可以做為這個主題的一個代表面向。但為避免選出的 面向過多,因此在這一個步驟,我們會對 tw 依 title_freq(tw,ti)由高而低排序,選 出其中前 k%的面向關鍵字,其中 k 為可調整之參數值。例如在『菸害防制法新 制上路』這個主題中,『吸煙』及『人權』這兩個字詞的 title_freq(tw,ti)都很高, 表示皆是很重要且可以代表這個主題的面向。 在上述步驟處理後,針對每一個主題 ti,可以建立出它特有的候選面向集合, 這個候選面向集合中的字詞都是這個主題中很重要的一些字詞,我們將這個候選 面向集合以 F(ti)來表示, F (ti ) = { f1 , f 2 , f 3 ,..., f g } , ti ∈ T 。圖 3.8 所示為本論文建. 22.

(29) 立主題 ti 的候選面向集合 F(ti)的虛擬程式碼。. for d∈ C for cw∈ d count gdfC(cw) delete cw if gdfC(cw)≧maxf or gdfC(cw)≦minf for dj.title∈ DT(ti) , ti∈ T for tw∈ dj.title count tf(tw,dj.title) add tw into F(ti),F(ti)={f1,f2,f3,…,fg} , ti∈ T 圖 3.8. 建立各主題之候選面向之程式碼. 3-3.3 調整各主題之候選面向 經過前一步驟挑選出來每個主題 ti 的候選面向列表集合 F(ti)後,經觀察發現 有些面向在特定主題中其實是在討論同樣的主題,因此可以將這些合併為一個面 向來表示。. [定義 3.1] 面向相關文章集合 為了進一步探勘這些候選面向關鍵字出現的關聯以及相關擴展字詞,本論文 以文章 d 之標題 d.title 所包含面向關鍵字來決定該篇文章與哪一個面向相關,定 義出面向相關文章集合如下。. 23.

(30) 在一主題 ti 的文章集合中,若一篇文章 dj 的標題 dj.title 包含有 fg 這個面向字 詞即可視為文章 dj 與面向 fg 相關,我們將 D(ti)的文章集合中,所有與 fg 這個面向 相 關 的 文 章 集 合 起 來 , 稱 為 面 向 fg 的 相 關 文 章 集 合 , 以 Rig 來 表 示 : Rig = {d j | f g ∈ d j .title ∧ d j ∈ D(t i ) ∧ f g ∈ F (ti )}。而面向 fg 的相關文章集合 Rig 的文 章內文部分所形成的字詞集合,我們以 WRig 來表示: WRig = {cwk | cwk ∈ d .content ∧ d ∈ Rig } 。 例如在『菸害防制法新制上路』這一個主題中,有一篇文章的標題為『不吸 菸的人有不吸二手菸的權利,吸菸的人應該也有吸菸的自由!』,在這一個標題 中出現『吸菸』及『自由』這兩個關鍵字,因此這一篇文章屬於『吸菸』及『自 由』的相關文章。. 我們認為,若有兩個面向常常出現在同一篇文章中,那麼這兩個面向就很可 能是在討論同樣的一件事。換句話說,如果兩個面向的相關文章集合之交集相對 於其相關文章集合佔很大比例,這兩個面向就有很大的機率為同義字。因此我們 檢查兩個面向 fA 和 fB 的相關文章集合 RiA 和 RiB,如果 RiA 及 RiB 中各別的交集文 章數|RiA∩RiB|有超過 RiA 和 RiB 的文章數一半以上,也就是說. | RiA ∩ RiB | ≥ 0.5 且 | RiA |. | RiA ∩ RiB | ≥ 0.5 ,就可以進行下一個合併的步驟。 | RiB | 若. | RiA ∩ RiB | | R ∩ RiB | ≥ 0.5 且 iA ≥ 0.5,我們接著檢查 fA 和 fB 這兩個面向是否 | RiA | | RiB |. 可以合併成一個字詞,若滿足以下兩種情況之一,則表示 fA 和 fB 可以合併。. 24.

(31) 第一種情況是面向 fA 為面向 fB 的子字串,或是面向 fB 為面向 fA 的子字串,這 種情況下只保留字數比較多的面向,刪除字數較少的面向。 例如『防制法』及『菸害防制法』這兩個面向,『防制法』這個面向的相關 文章集合中,有一半以上也同時出現『菸害防制法』這個詞;同時,『菸害防制 法』這個詞的相關文章集合中,有一半以上的文章和『防制法』的相關文章集合 重覆,表示在討論『防制法』這個面向的文章中,有一半以上都是在討論『菸害 防制法』的文章;而且在討論『菸害防制法』的文章中,有一半以上的文章是和 『防制法』有關的。由於『防制法』是『菸害防制法』的子字串,所以根據這項 觀察結果,就可以合併這兩個面向,只保留『菸害防制法』這個面向。 第二種情況是,若. | RiA ∩ RiB | | R ∩ RiB | ≥ 0.5 且 iA ≥ 0.5 ,但是面向 fA 和面向 fB | RiA | | RiB |. 沒有共同的子字串,我們會試著將這兩個面向前後合併組出一個新的字詞,如果 新組出來的詞可以在文章標題中找到,就保留新的字詞,刪除面向 fA 及 fB。 例如『新制』與『上路』這兩個面向的相關文章集合的交集文章數目超過各 自的相關文章集合數目的一半以上,但是這兩個字並沒有共同的子字串。所以我 們將這兩個字合併成『新制上路』和『上路新制』這兩個字詞,再到這一個主題 『菸害防制法新制上路』的文章標題集合中檢查『新制上路』或『上路新制』這 兩個字詞是否為合理的字詞,若在集合中有檢查到新的字詞的存在,就保留新產 生的字詞,並加入至候選面向列表集合之中。以這個例子來說,就會將『新制上 路』這個字詞加入候選面向集合中,並刪去『新制』和『上路』這兩個面向。圖. 25.

(32) 3.9 所示為本論文調整一主題 ti 的候選面向集合 F(ti)之虛擬程式碼。. 實際文章內容中能夠合併並產生新的字詞情況有限,其問題是因為許多字詞 和字詞中間會有“stop words”已被前處理刪除,例如『胡錦濤的「六點主張」』這 個主題中,『六點主張』和『胡錦濤』這兩個字詞的共同相關文章數目超過各自 的相關文章數目的一半以上,且這兩個字詞也沒有共同的子字串,所以我們會試 著將這兩個字詞合併成『六點主張胡錦濤』或『胡錦濤六點主張』,但是在文章 標題集合中都無法找到這兩個詞,因為標題中同時包含這兩個字詞為:『胡錦濤 的六點主張』,如果我們在兩個字詞中加上『的』就可以比對到。因此有許多新 組成較長的字詞會因為此情況而無法產生。在此情況下則會仍各保留原先的兩個 面向關鍵字。. 26.

(33) for fA∈ F(ti) and fB∈ F(ti) , fA≠fB if ((. RiA ∩ RiB RiA. ≥ 0.5 ) and (. RiA ∩ RiB RiB. ≥ 0.5 )). if (fA is a substring of fB) delete fA else if (fB is a substring of fA) delete fB else if ((fA+fB) exists) { delete fA,fB add (fA+fB) } else if ((fB+fA) exists) { delete fB,fA add (fB+fA) } 圖 3.9. 調整候選面向集合之程式碼. 3-3.4 建立面向之階層架構 面向集合產生之後,有些面向為涵蓋範圍較大的面向,即該面向所包含的文 章集合較大,被較廣泛的討論。若以這幾個面向來對文章分析所屬面向,則可能 大部分的文章都會被分到與這幾個面向相關,因此無法有效地達到依面向瀏覽的 效果。為了解決這一個問題,我們進一步建立面向的階層架構。對於此種有廣泛 含義的面向,我們將這類面向挑選出來當成上層的面向,這些面向底下再細分成 多個與這個面向相關的討論子面向,以此建立出面向的階層架構。 如圖 3.10 所示,在『菸害防制法新制上路』這個主題中,『吸菸』這個面向 為一含有較廣泛意義之面向,其底下又包含有:『禁菸』、『人權』這兩個子面 27.

(34) 向;『健康』這個面向為一上層面向,底下又可以細分出『吸煙』、『健康捐』、 『人權』等共三個子面向。. 吸菸. 禁菸. 健康. 人權. 吸煙. 圖 3.10. 人權. 健康捐. 面向之階層架構. 在面向階層架構中,上層的面向含有較廣泛的意義,而與這個面向相關的文 章中,又可以再細分出幾個子面向,為決定哪些面向為上層面向,因此我們計算 任兩個面向 fA 及 fB 所組成的關聯規則之確信度值如下: f B → f A 的確信度值: conf ( f B → f A ) =. | RiA ∩ RiB | | RiB |. f A → f B 的確信度值: conf ( f A → f B ) =. | RiA ∩ RiB | | RiA |. 來決定兩個面向是否有高度的關聯性,以此來架構出階層關係。 若 conf ( f A → f B ) > conf ( f B → f A ) ,我們可以推出 fB 在概念上包含 fA,這樣子 的結果表示:fB 為上層的面向,fA 為 fB 底下再細分出的其中一個子面向。而若 conf ( f B → f A ) > conf ( f A → f B ) ,我們可以推出 fA 在概念上包含 fB,這樣子的結果 表示:fA 為上層的面向,fB 為 fA 底下再細分出的其中一個子面向。. 28.

(35) 例如:在『菸害防制法新制上路』這個主題挑選出來的面向中,我們計算出: P (吸菸|人權) > P (人權|吸菸),因此可以推出『吸菸』為一個上層的面向,這個 面向底下可以再細分出『人權』這個子面向。也就是表示說『吸菸』這個面向具 有較大範圍的概念,計算出全部的面向兩兩之間的關係後,就可以架構出如圖 3.10 所示之面向階層架構。建立面向的階層架構的虛擬程式碼如圖 3.11 所示。. for fA∈ F(ti) and fB∈ F(ti) , fA≠fB compute conf(fAàfB) and conf(fBàfA) if ( conf(fAàfB) > conf(fBàfA) ) add fB to Fh delete fB else if (conf(fBàfA) > conf(fAàfB) ) add fA to Fh delete fA Fh 為上層面向集合. 圖 3.11. 建立面向的階層架構之程式碼. 3-4 選定面向 3-4.1 面向的擴展字詞集合 我們在計算一篇文章或一個句子與面向的相關程度時,若只以面向這個字詞 為依據時,只能以文章或句子中是否出現面向這一個字詞來決定,這樣子計算出 來的相關度不是 1 就是 0,只要沒出現該面向關鍵字便被判定與面向不相關。然. 29.

(36) 而有一些與某一面向關聯性很高的字詞,如果有出現在文章裡面,就算沒有出現 該面向關鍵字,也應該被認為是與該面向相關。所以我們對每一個面向,從該面 向之相關文章集合中找出與該面向有高度相關之字詞集合,以此字詞集當成該面 向之擴展字詞集。 例如在『菸害防制法新制上路』這個主題中,與『健康捐』這個面向相關的 字詞有很多,像是『國稅局』、『財政部』這些字詞與『健康捐』很有相關,所 以若文章中有出現『國稅局』或『財政部』等與『健康捐』相關的字詞,就可視 為與『健康捐』有關。 為取出與面向 fg 相關的擴展字詞,我們從面向 fg 的相關文章集合 Rig 中的字 詞集 WRig 中挑選出重要字詞,透過計算 WRig 中的每一個字詞的 tf_idf 數值,以這 個數值來決定字詞的重要程度。若一個字詞的 tf_idf 值高,就表示這個字詞在面 向 fg 的相關文章集合 Rig 中是很重要的一個詞,也就是說這個字詞與面向 fg 有很 高的相關性。 本論文方法計算一個字詞 cw 與面向 fg 相關程度值的算式如下: tf _ idf cw =. ∑. cw∈d .content , d ∈Rig. ∑. d ∈Rig. c(cw, d .content ). d .content.length. × log(. N )。 df C (cw). 此公式中各項計算式代表意義說明如下: (1). ∑. cw∈d .content ,d ∈Rig. c(cw, d .content ) :在面向 fg 的相關文章集合 Rig 中,在有出現字 詞 cw 的文章內,計算字詞 cw 在各文章的字 詞出現頻率加總值。 30.

(37) (2). (3). ∑. d ∈Rig. ∑. d .content.length :面向 fg 的相關文章集合 Rig 中各文章長度的總和。. cw∈d .content , d∈Rig. ∑. d ∈Rig. c(cw, d .content ). d .content.length. :在面向 fg 的相關文章集合 Rig 中,計算 cw 的. 字詞出現頻率相對文章長度所佔的比例,比 例愈高表示字詞 cw 愈重要。 (4) gdf C (cw) :在文章集合 C 中字詞 cw 的整體文件出現頻率。 (5) N :文章集合C的總文章數。 (6). N :將全部文章數除以字詞 cw 的整體文件出現頻率,若該數值愈高, gdf C (cw) 表示 cw 這個字詞在較少數的文章中出現。 在本論文中 tf_idf 數值的門檻值設成 0.003,對於面向 fg,WRig 中每一個字詞. cw 皆計算出 tf_idfcw 值後,若 tf_idfcw 值有高於這個門檻值的字詞 cw 才會保留做 為面向 fg 的擴展字詞。 另外,我們在篩選擴展字詞的時候,若一個字詞為太常出現或不具代表性的 字詞(3-3.1 提到被排除在候選面向之外的字詞),那麼這個字詞就不會被包含進 來,因為這個字詞很可能跟許多面向都有相關,若在面向的擴展字詞集合中加入 這個字詞,在後續處理裡會無法有效辨別文章內容是和哪一個面向最為相關。此 外,若擴展字詞為已存在面向集合中的其它字詞,也不會被選為擴展字詞,這是 因為若將另一個面向 fy 選為當做面向 fg 的擴展字詞,容易造成判斷文章所屬面向 時概念重覆性太高,因此我們排除這些字詞,不將它們選為面向 fg 的擴展字詞。 我們將一個面向 fg 的擴展字詞集合以 Eig 來表示,在稍後計算文章與面向的相關 31.

(38) 程度的時候,若句子或文章中有出現擴展字詞集合 Eig 中的字詞,就可以視為該 句子或文章與面向 fg 有相關。 我們在以面向 fg 及其擴展字詞集合 Eig 計算文章包含面向 fg 的相關程度時,需 要對每個字詞給定一個權重值,這個權重值也表示該擴展字詞與面向 fg 的相關程 度,若權重值愈大,表示該字詞和面向 fg 相關性愈高。我們分配給面向一個權重 值 α , 然 後 利 用 擴 展 字 詞 cwx 的 tf_idf 值 為 比 例 分 配 字 詞 cwx 權 重 值 weight x =. tf _ idf x × (1 − α )。使得 Eig 中各擴展字詞的權重值加總值為 1 − α 。 ∑ x∈E tf _ idf x ig. 因此我們可以以 Eig = {(cwx , weight x ) | cwx ∈ (WRig − F (ti )) ∧ tf _ idf x ≥ 0.003} ∪ { f g , α } 來表示一個面 向 fg 的擴展字詞集合 Eig。. 圖 3.12. 面向擴展字詞範例. 32.

(39) 如圖 3.12 所示,『二手菸』與『權利』這兩個字詞為『人權』這個面向的擴 展字詞,在計算這篇文章與『人權』的相關程度時,會因為這兩個字詞使得這篇 文章和『人權』的相關程度更大。而且如果在某一篇文章中沒有出現『人權』這 個詞,我們也可以因為文章中有出現『人權』的擴展字詞,而找出與『人權』有 相關的文章。. 3-4.2 選定文章的面向 本研究採用文章和一個面向 fg 之間的相似程度來評估一篇文章是否包含面向 fg 的觀點;我們除了以整篇文章的字詞來計算和各面向的相似度之外,也會以文 章中的每一個句子逐句來計算和各面向的相似程度。由於一篇文章中可能包含多 個面向,計算句子和面向的相似程度是為了在展示結果的時候可以標示出文章中 哪一個句子與哪一個面向相關,讓使用者有效瀏覽,如圖 3.13 所示。. 33.

(40) 這篇文章的面向:『人權』和『抽菸』 和『抽菸』這個面向相關的句子. 和『人權』這個面向相關的句子. 圖 3.13. 文章與相關面向結果展示範例. (一)計算文章與面向的相似度 本論文使用向量空間模型來計算面向與文章之間的相似度,將 Wi 中的字詞定 成向量空間維度,將面向及它的擴展字詞集合的比重值建立成一個特徵向量,文 章也以所包含的字詞在該文章的字詞出現頻率建立成一個特徵向量,接著計算這 兩個向量在向量空間中的 cosine similarity,若計算出來的值愈大就表示此面向和 該文章愈相似,也就是說這篇文章的文字內容和這個面向的概念較接近。. 34.

(41) 我們計算文章 dj 與面向 fg 的相似度以 doc_simjg 來表示,而 doc _ sim jg =. ∑. ∑. wu∈E ig. c( wu , d j .content ) × weight wu. 2 cw∈d j .content , d ∈D ( t i ) c( cw, d j .content ) ×. ∑. wu∈E ig. weight wu. 2. 。此公式中. 各項計算式代表意義說明如下: (1). ∑. wu∈Eig. c( wu , d j .content ) × weight wu :若文章 dj 中的字詞 wu 和 Eig 中有相同的 字 wu,就將字詞 wu 在這篇文章中的字 詞出現頻率乘上其在 Eig 中的權重值。. (2). ∑. cw∈d j .content , d ∈D ( t i ). c(cw, d j .content )2 ×. ∑. 2. wu ∈Eig. weight wu :分母則是將分子的 數值一般化,讓計 算出的相關度值 會在 0 到 1 之間。. 每一篇文章 dj 會與 該 主題的面向 集合 中的每一個面向 fg 計算相似度 doc_simjg,若相似度 doc_simjg 有高於門檻值 0. 1,就判定文章 dj 面向 fg 有相關, 若文章 dj 與三個以上的面向有相關,我們只取出前三名相似度 doc_simjg 最高的面 向做為文章 dj 的相關面向。. (二)計算句子與面向的相似度 計算完每一篇文章與各面向的相關程度之後,接著我們另計算出文章中各句 子與各面向之間的相關程度值。本方法中計算句子與面向之間相關程度的方法與 向量空間模型的 cosine similarity 方法類似,但是我們做了以下修改。 35.

(42) 若文章 dj 中的句子 dj.sentences 中的字詞和 Eig 中有相同的字詞,就將該字詞 在這個句子中的字詞出現頻率乘上其在 Eig 中的權重值,我們就以這個計算出來 的分數做為句子 dj.sentences 與面向 fg 的相似度數值。我們以 sent_simsg 來表示句 子與面向的相似度,因此 sent _ simsg = ∑ cw∈d j . sentences , d ∈D ( ti ) c(cw, d .sentences ) × weight cw 。其中 d j .sentences 為一 篇文章 dj 中的第 s 個句子,每一個句子又是由多個字詞 cw 組成。 在這個算式中我們沒有再將數值做一般化處理,原因是一個句子所包含面向 關鍵字及擴展字並不多,再以句子中總字詞數做一般化處理將不易顯示出其所屬 面向的重要性,因此在此處不另做一般化計算處理。 每一個句子 dj.sentences 會與該主題的面向集合中的每一個面向 fg 計算出相似 度 sent_simsg,若相似度 sent_simsg 高於門檻值 0. 001 則保留,但由於每一個句子 只能指定一個最相關的面向,因此若高於門檻值的面向有一個以上,則會保留相 似度最高的面向為該句子的所屬面向。 計算完文章 dj 中每一個句子 dj.sentences 與各面向 fg 的相似度 sent_simsg 之後, 我們在顯示文章內容時,會同時結合一篇文章中文章內容面向的選定結果及句子 的面向選定結果,以文章的面向結果顯示在標題後,再以不同顏色標示出與這些 面向相關的句子,結果如圖 3.13 所示。. 36.

(43) 第四章. 實作系統簡介與實驗評估. 本章節將評估本論文方法的面向選定結果,在 4-1 節先介紹面向分析系統的 操作介面,接著在 4-2 節說明實驗方法與結果,最後在 4-3 節分析及討論實驗之 結果。. 4-1 新聞論壇多面向分析系統介紹 本論文方法所實作出之新聞論壇多面向分析系統,系統網址為: http://140.122.184.122/fpc.php。圖 4.1 所示為本系統操作介面,先勾選欲分析之一 個或多個主題,如本例勾選『你支持台獨嗎?』及『菸害防制法新制上路』兩則 文章主題,勾選完畢點選『送出』按鈕,待系統頁面傳回分析結果。. http://140.122.184.122/fpc.php 1. 選擇主題. 2. 送出查詢,等待分析結果傳回. 圖 4.1. 新聞論壇多面向分析系統使用介面. 37.

(44) 系統頁面會先列出系統所探勘出面向階層架構中上層的面向,如圖 4.2 所 示。點選上層面向後,系統會展開屬於該面向的下層面向,在階層架構面向之下, 還有一些單獨存在的面向,如圖 4.2 所示。. 上層面向. 點選欲展開瀏覽的面向. 展開『吸菸』 『吸菸』的下層面向. 不屬於面向架 構中的其它面 向. 圖 4.2. 系統分析結果回傳頁面. 38.

(45) 點選欲閱讀的文章. 圖 4.3. 展開面向,列出與面向相關的文章. 接著再點選想要瀏覽的面向,就會展開顯示與該面向相關的文章列表,如圖 4.3 列出與『人權』相關的文件。再點選要閱讀的文章標題,就會展開文章的內 容,如圖 4.4 所示。. 39.

(46) 這篇文章的面向:『人權』和『抽菸』 和『抽菸』這個面向相關的句子. 和『人權』這個面向相關的句子. 圖 4.4. 面向與相關文章結果展示範例. 每一篇文章開頭會先列出與此篇文章內容相關的面向,按照相似度值的高低 順序列出,愈相關的面向會排在愈前面,並以不同顏色標記面向;文章內容以斷 句的結果顯示,並且一個句子若與某一面向相關即會標記該面向的顏色,方便使 用者閱覽。 有一些研究是從許多文章中取出與面向或關鍵字相關的句子,將這些句子列 出來給使用者,但是有的時候只有一個句子,而沒有一起把那一個句子的前後文 一起列出來給使用者,因此看不出來那個句子真正要表達的意思。所以我們將完 整的文章內容列出來,只在與面向相關的句子另行標記,讓使用者可以閱讀整篇 40.

(47) 文章,而不是只看到一些句子組合而成的結果;若使用者只想看看有哪一些句子 和特定面向相關,也可以很容易找到與該面向相關的句子。. 4-2 實驗評估 我們做了兩個實驗來評估本論文所提出的研究方法的效果。第一個實驗的目 的是檢驗本研究方法為每一篇文章挑選出的面向是否適合;第二個實驗則評估本 論文方法將多主題文章混合在一起時挑選面向的效果。. 4-2.1 單一主題之文章的面向選定效果評估 實驗一所採用的測試文章集合從 Yahoo!奇摩新聞全民話頭條中的『消費券政 策』主題(http://tw.forum.news.yahoo.com/topic/tbn_1226807171.html)共 464 篇 文章中,亂數挑選出 30 篇文章當成本實驗的測試文章集合。 參與本實驗的受試者共有 15 位,每一位受試者閱讀 10 篇文章,每一篇文章 各有 5 位受試者閱讀,並提供受試者由本系統產生的『消費券政策』這個主題的 所找出的所有面向,讓使用者從面向集合中挑選出其認定與文章最合適的一個面 向。再將受試者參與實驗之結果與本論文方法對該文章面向選定結果進行比較。 本論文方法會對每篇文章選出最多三個面向,並依照相關程度值的高低將面 向排名第一、二、三名。若受試者挑選的面向落在系統挑選出來的面向的前三名, 則給予一個排名分數,分別為 1 分、2 分、3 分。我們計算每一篇文章被選定面. 41.

(48) 向的平均使用者排名分數來評估系統面向選定的結果。文章 d 之面向的平均使用 者排名分數的計算方式如以下式子所列: RankingScore d =. 1× n + 2 × m + 3 × p ,其 (n + m + p ). 中 n 為使用者挑選的面向與系統挑選的面向中第一名面向相同的人數,m 為使用 者挑選的面向與系統挑選的面向中第二名面向相同的人數,p 為使用者挑選的面 向與系統挑選的面向中第三名面向相同的人數。每一篇文章面向的平均排名分數 如圖 4.5 所示,其中橫軸顯示文章編號,縱軸為該篇文章的平均使用者排名分數 值。若分數值在 0 以上且愈接近 1,表示使用者挑選的面向中,與本研究方法選 出來的第一名面向一致的程度愈高。 我們計算這 30 篇文章的平均面向排名分數 Avg RS =. ∑ RankingScore N. d. ,以此. 分數評估我們的方法選出來的面向是否接近使用者挑選的面向結果。在本實驗 中,因為有 8 篇文章的面向挑選結果,使用者挑選的面向和系統挑選出來的面向 沒有交集,因此 N 設成(30-8)=22。本實驗的平均面向排名分數為 1.08。 若以機率來計算挑選每一篇文章的面向的排名分數,得到的平均面向排名分 數為 2;若以亂數方式挑選每一篇文章的面向,再計算排名分數,模擬產生的結 果計算出的名均面向排名分數為 1.79。表示本論文系統挑選的面向結果比隨機挑 選面向的結果要好很多。. 42.

(49) 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 21. 57. 91. 101 118 131 162 202 321 516 639 669 754 1015 1016 1026 1362 1377 1480 1570 1662 1818 1947 1955 2113 2158 2228 2245 2279 2396. 圖 4.5. 實驗一:每一篇文章的排名分數. 此外我們也計算了每一篇文章面向挑選結果的 Recall 值:. n+m+ p ,其中 n、 5. m、p 值如計算平均面向排名分數中之定義,也就是計算看過同一篇文章的 5 個 人所選定的 5 個面向關鍵字中,有多少比例落在系統所挑出的前三名面向之中。 每一篇文章計算出來的 Recall 值如圖 4.6 所示,其中橫軸為文章編號,縱軸為其 Recall 數值。 我們計算這 30 篇文章的平均 Recall 值:. ∑ Recall N. d. ,在本實驗中,共有 30. 篇文章,因此 N 設成 30,本實驗所得之平均 Recall 值為 0.46。其中約有半數(14 篇)文章的 Recall 值達到 0.6 以上。. 43.

(50) 1.2 1 0.8 0.6 0.4 0.2 0 21. 57. 91 101 118 131 162 202 321 516 639 669 754 1015 1016 1026 1362 1377 1480 1570 1662 1818 1947 1955 2113 2158 2228 2245 2279 2396. 圖 4.6. 實驗一:每一篇文章的 Recall 值. Recall 值不高的原因有可能為文章中某一關鍵字出現很多次,所以系統會判 定該篇文章與該關鍵字相關,但是受試者在閱讀該篇文章時卻會注意整篇文章綜 合起來的意思,而不是由關鍵字的多寡來決定面向。 也有可能是因為面向關鍵字在文章中的表達方式不同,如圖 4.7 所示,該篇 文章系統挑選的面向為『經濟』與『刺激消費』,但是受試者挑選的面向為『債 留子孫』和『舉債』,與系統挑選的面向皆不相同。 在這個例子中,『債留子孫』一詞在文章中可能是以『這些負債到了我們的 子孫輩都還要承擔』這樣子的句子來表示,受試者即會認為這樣子的句子與『債 留子孫』有關,而選了這一個面向。或者文章中使用的字詞是『負債』而非『舉 債』,受試者就會認為這篇文章與『舉債』相關而選了舉債,但因文章中沒有出 現明確的『舉債』這個詞,所以系統並不會將『舉債』選為面向。. 44.

(51) 圖 4.7. 受試者與系統結果不一致之範例. 另外,有一些文章在本方法是沒有被分配到與面向相關的,如圖 4.8 所示, 這一篇文章被系統判定為無相關的面向,本實驗的受試者也認為此篇文章與面向 集合中的面向皆不相關,因此顯示本系統也可以有效找出文章集合中與主題不相 關的文章。. 45.

(52) 圖 4.8. 沒有相關面向的文章範例. 4-2.2 多主題文章混合的面向選定評估 實驗一是針對單一主題中的文章,比較系統挑選面向的結果和受試者挑選面 向的結果是否一致。另外我們想要實驗看看我們的方法用在區分文章主題的應用 是否可行,所以在實驗二我們將多個主題的文章混合在一起,然後從這個混合主 題的文章集合中找出面向,同樣對每一篇文章指定其所屬面向。. 46.

(53) 每一個主題應該具有它特有的、與該主題非常相關,但和其它主題較不相關 的面向,實驗二就是評估當有多個主題的文章混合在一起,系統是否同樣可以找 出這些主題特有的面向。 因此我們對每一個面向檢查系統指定具有該面向的相關文章是否都屬於同 一個主題,若面向的相關文章都是同一個主題,表示這個面向是可以代表該主題 的概念。我們以『你支持台獨嗎?』及『菸害防制法新制上路』這兩個主題下文 章的面向分析結果來檢驗找出面向用於文章分群的效果。 圖 4.9 所示為這兩個主題所找出之各個面向,以及系統指定具有該面向之文 章數分屬兩個不同主題下所佔的百分比例值統計圖表,由此統計圖可看出大部分 具有特定面向的相關文章都是屬於同一個主題的文章,只有少數幾個面向是兩個 主題下的文章都有涵蓋,但佔的比例也不高,當這幾個面向剛好在這兩個主題下 的文章中都會有使用者討論到,才會發生這樣的情況。. 47.

(54) 你支持台獨嗎. 菸害防制法新制上路. 董氏基金會. 100%. 新法. 100%. 菸害防治法. 100%. 菸害防制法. 100%. 政策. 100%. 政府. 27.50%. 72.50%. 抽 煙 1.32%. 98.68%. 抽菸. 100%. 自由. 30.30%. 世界. 69.70% 80.77%. 中華民國. 96.92%. 健康捐. 100%. 吸 煙 1.12%. 100%. 人 權 3.33%. 96.67%. 中國. 3.08%. 98.88%. 禁菸. 政治. 19.23%. 93.33% 99.02%. 6.67% 0.98%. 不同主題的文章所佔之百分比例. 圖 4.9. 各面向的相關文章中屬於不同主題的百分比例. 圖 4.10 所示為『扁家四大案扁珍致靚從重量刑』和『陳水扁遭收押禁見』這 兩個主題系統所找出之各個面向,以及系統指定具有該面向之文章數分屬兩個不 同主題下所佔的百分比例值統計圖表。因為這兩個主題所討論的話題原本就很相 似,所以系統找出來的面向也會很相似,造成這一組找出來的面向都是兩個話題 共同討論的,因此每一個面向的相關文章會是兩個主題都佔滿大的比例。. 48.

(55) 扁家四大案扁珍致靚從重量刑. 總統. 46.46%. 無恥. 5 3 .5 4%. 6 3 . 16%. 媒體. 3 6 .8 4%. 35.29 %. 貪污. 6 4 . 7 1%. 52 . 1 4%. 國民黨. 4 7 . 8 6%. 5 6 .9 2%. 馬英九. 4 3 . 08 %. 6 7 . 7 4%. 特偵組. 3 2 .2 6%. 5 2 .7 8%. 政治. 4 7 . 2 2%. 4 0 .6 8%. 政府. 5 9 . 3 2%. 6 0 . 0 0%. 扁案. 4 0 .0 0%. 5 0 .0 0%. 法律. 5 0 .0 0%. 5 9 . 5 7%. 法官 和尚. 陳水扁遭收押禁 見. 4 0 .4 3%. 7 8 .5 7%. 2 1 . 4 3%. 2 5 . 00%. 7 5 .0 0%. 收押禁見 1 2 . 50% 民主. 8 7 .5 0%. 3 5. 4 8%. 6 4 . 5 2%. 各面 向的相關文章 中屬於不同主題 的百分比例. 圖 4.10. 各面向的相關文章中屬於不同主題的百分比例. t1. t2. t3. t4. t5. t6. t7. 你支持台獨嗎?. t1. --. 82.91%. 74.03% 94.50% 74.35% 87.51% 81.50%. 李慶安的雙重國籍問題. t2. --. --. 75.00% 93.04% 77.11% 86.92% 79.78%. t3. --. --. --. 菸害防制法新制上路. t4. --. --. --. --. 請問政治領袖!. t5. --. --. --. --. --. 消費券政策. t6. --. --. --. --. --. --. 94.35%. 陳水扁遭收押禁見. t7. --. --. --. --. --. --. --. 扁家四大案 扁珍致靚從重量刑. 表 4.1. 93.88% 74.03% 89.53% 63.03% 91.05% 94.71% 94.15% 85.09% 74.67%. 不同主題組合之的面向相關文章的百分比例平均值 49.

(56) 每兩個主題一組,每一組主題系統找出來的面向的相關文章中屬於不同主題 的百分比例平均值如如表 4.1 所示。由此表可以看出,主題討論的話題愈相似, 面向的相關文章中屬於不同主題的百分比例就愈低。但若是主題的討論內容很不 相關,面向的相關文章中屬於不同主題的百分比例就會很高,例如『菸害防制法 新制上路』和『消費券政策』這兩個主題的百分比例平均值高達 94.71%,表示這 兩個主題的文章混合在一起,系統也可以找出這兩個主題各別相關的面向。. 4-3 分析與討論 由所探勘出的面向集合中可以發現一般常見誤用字情形所造成的問題,例如 吸『菸』與吸『煙』,消費『券』與消費『卷』,『抽』菸與『吸』菸等,應為 同義詞的兩個字詞,但系統會將這兩個字詞視為不同的字詞,且這兩個詞不符合 一字詞包含另一字詞的情形,故無法合併,只能當成是兩個字詞。又此二字詞的 出現頻率都很高,因此皆會被選為面向,造成計算字詞的出現頻率分散計算,降 低其相關值分數。若可以將此二字詞視為同一字詞合併計算,實驗之準確度應可 以再提升。 一個關鍵字在文章中的位置不同,對於讀者來說可能會有不同的意義,例如 讀者會認為在一篇文章的第一段或最後一段出現的概念是整篇文章的重點,或者 因為一篇文章太長,讀者閱讀的時候只會先閱讀第一段或最後一段,且文章的作 者在撰寫文章內容時也會先在文章的第一段提及他要表達的意見,在最後一段總. 50.

(57) 結這一整篇文章所要表達的概念為何。因為這個原因,讀者在挑選一篇文章的面 向時,會先參考文章的第一段或最後一段的概念,以此做為參考,再閱讀整篇文 章。 所以在挑選一篇文章相關的面向的時候,可以考慮在不同位置的關鍵字的重 要程度給予不同的權重值,例如在整篇文章的前 25%或最後 25%的部分的關鍵字 的權重值加倍,讓一篇文章中比較重要的概念可以突顯出來,這樣也許可以讓面 向的挑選結果更為精確。. 51.

(58) 第五章. 結論與未來研究方向. 本論文研究自動從文章內容集合中挑選出與文章討論相關的面向關鍵字集 合,且自動建立出面向的階層架構關係。本論文研究方法不需使用外部的資源來 幫忙取出面向,也不需利用外部資源來建立架構關係,從所給文章集合中即可自 動探勘,且實驗結果顯示:將多個主題的文章混合在一起時,本論文方法也可以 將不同主題的文章所涵蓋的面向正確地萃取出來。 計算面向與文章的相關程度時,我們使用文件集合中的資訊來擴展面向的相 關字詞,而不是藉由外部資源來擴展字詞,此方法可以更有效地找出在所給資料 文件集中與面向相關的字詞。我們利用向量空間模型來計算文章與面向的相關程 度,並且分別計算文章中每一個句子與面向的相似度。在我們的面向分析系統 中,使用者可以清楚地看到與某主題討論文章中相關的觀點面向,這些面向的階 層架構,還有與這些面向相關的文章,至於文章內容則是會列出相關的面向,並 會在文章內容中以不同的顏色標記出與面向相關的句子。從實驗結果來看,本論 文系統對所選定的面向與受試者挑選的面向結果一致性很高。 未來研究可以改進的地方像是誤用字的情形,例如:吸『菸』與吸『煙』, 消費『券』與消費『卷』,『抽』菸與『吸』菸等,這些應為同義詞的兩個字詞, 在本論文之系統中卻會將這兩個字詞視為不同的字詞,造成統計出現頻率時被分 散,若可以使用一些方法,例如:建立同義字詞典,將此二字詞視為同一字詞合 併計算,實驗之準確度應可以再提升。在建立面向之階層架構時,因為我們只有 52.

(59) 建立兩層的架構關係,但是有一些下層的面向其實可能也是其它面向的上層面 向,若在建立架構的時候,再遞迴檢查是否下層的面向還可以再分出其它的面 向,就可以形成多層架構,較能呈現出架構的完整模樣,這些問題皆是未來可進 一步改進探討的方向。. 53.

(60) 參考文獻 [1] W. Dakka, P. G. Ipeirotis, and K. R. Wood, “Automatic construction of multifaceted browsing interfaces,” In Proceedings of the 14th ACM international conference on Information and knowledge management (CIKM), 2005. [2] W. Dakka, R. Dayal, and P. G. Ipeirotis, “Automatic discovery of useful facet terms,” In Proceedings of the 29th ACM SIGIR conference on Faceted Search, 2006. [3] W. Dakka and P. G. Ipeirotis, “Automatic Extraction of Useful Facet Hierarchies from Text Databases,” in Proceedings of the 24th International Conference on Data Engineering (ICDE), 2008. [4] D. Dash, J. Rao, N. Megiddo, A. Ailamaki1, and G. Lohman, “Dynamic Faceted Search for Discovery-driven Analysis,” In Proceedings of the 17th ACM international conference on Information and knowledge management (CIKM), 2008. [5] G. Erkan and D. R. Radev, “LexPageRank: Prestige in Multi-Document Text Summarization,” In Proceeding of the 2004 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2004. [6] M. Gamon, S. Basu, D. Belenko, D. Fisher, M. Hurst, and A. C. König, “BLEWS: Using Blogs to Provide Context for News Articles,” In National Conference on Artificial Intelligence (AAAI), 2008. [7] B. He, C. Macdonald, J. He, and I. Ounis, “An Effective Statistical Approach to Blog Post Opinion Retrieval,” In Proceedings of the 17th ACM international conference on Information and knowledge management (CIKM), 2008. [8] M. Hu, A. Sun, and E. Lim, “Comments-Oriented Blog Summarization by Sentence Extraction,” In Proceedings of the 16th ACM international conference on Information and knowledge management (CIKM), 2007. [9] M. Hu, A. Sun, and E. Lim, “Comments-Oriented Document Summarization: Understanding Documents with Readers’ Feedback,” In Proceeding of the 31st ACM SIGIR conference on Research and Development in Information Retrieval, 54.

(61) 2008. [10] L. Ku, Y. Liang, and H. Chen, “Opinion Extraction, Summarization and Tracking in News and Blog Corpora,” In National Conference on Artificial Intelligence (AAAI), 2006. [11] X. Ling, Q. Mei, C. Zhai, and B. Schatz, “Mining Multi-Faceted Overviews of Arbitrary Topics in a Text Collection,” In Proceeding of the 11th ACM SIGKDD international conference on Knowledge discovery in data mining, 2008. [12] G. Mishne, “Multiple Ranking Strategies for Opinion Retrieval in Blogs,” in Proceedings of the 15th of Text REtrieval Conference (TREC 2006), 2006. [13] G. Mishne, “Using Blog Properties to Improve Retrieval,” In proceedings of International Conference on Weblogs and Social Media (ICWSM), 2007. [14] G. Salton, “Automatic Information Organization and Retrieval,” McGraw-Hill, New York, 1968. [15] E. Stoica, M. A. Hearst, and M. Richardson, “Automating creation of hierarchical faceted metadata structures,” In Proceedings of NAACL/HLT 2007, 2007. [16] W. Zhang, C. Yu, and W. Meng, “Opinion Retrieval from Blogs,” In Proceedings of the 16th ACM international conference on Information and knowledge management (CIKM), 2007.. 55.

(62)

參考文獻

相關文件

Hofmann, “Collaborative filtering via Gaussian probabilistic latent semantic analysis”, Proceedings of the 26th Annual International ACM SIGIR Conference on Research and

in Proceedings of the 20th International Conference on Very Large Data

(1999), &#34;Mining Association Rules with Multiple Minimum Supports,&#34; Proceedings of ACMSIGKDD International Conference on Knowledge Discovery and Data Mining, San Diego,

The International Conference on Innovation and Management 2012 (IAM 2012) is an annual conference on Innovation and management since 1999, organized and sponsored by the

and Liu, S.J., “Quantifying Benefits of Knowledge Management System: A Case Study of an Engineering Consulting Firm,” Proceedings of International Symposium on Automation and

Lange, “An Object-Oriented Design Method for Hypermedia Information Systems”, Proceedings of the Twenty-seventh annual Hawaii International Conference on System Sciences, 1994,

[23] Tiantong You, Hossam Hassanein and Chi-Hsiang Yeh, “PIDC - Towards an Ideal MAC Protocol for Multi-hop Wireless LANs,” Proceedings of the IEEE International Conference

Proceedings of the Fifth International Conference on Genetic Algorithms, Morgan kaufmann Publishers, San Mateo, California, pp.110~117, 1996. Horn, J., “Finite Markov Chain Analysis