隨機遊走模型與社群網絡 - 文獻探討 - 關鍵詞與階層式詞彙文本分群之應用

第二章文獻探討

第四節隨機遊走模型與社群網絡

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

跟大怒，從這樣的例子可以知道詞網是個由上而下、越分越細的架構，由 155327 個詞彙、175979 個語意、207016 個詞彙-語意配對所建置，其辭典分成名詞、動詞、形容詞、副詞四種網絡，並依據不同網絡記載不同的語意關係，

如名詞網絡中以同義詞的概念所建構，透過上位詞(hypernym)與下位詞

(hyponym)串連，由最頂層十一個抽象起始點開始向下以樹狀圖方式延伸，最深層的層次串連了十六個節點，而在動詞方面除了同義詞外，反義詞的概念被建入動詞網絡下，同時四個網絡仍有互相指引的關係，如名詞「director」與動詞

「direct」間的關係稱為 morphosemantic link．在文字分析中最常遇到的詞義消歧的問題，多詞一義的情形常會造成文章間的關係無法確定，因此許多分析者透過詞網記載的語義訊息來降低因同義詞所造成的影響，Hotho, Staab and Stemme(2003)提到利用詞網確實可以提高分群效果，Reforgiato(2007)使用詞網做維度化簡，對分群結果相當有幫助。

圖 3-1 Tiger 在詞網中的語意架構

第四節隨機遊走模型與社群網絡

社群網絡是一個描繪社會結構的網絡概念，透過描繪節點與節點之間的關係來觀察整個網絡的概況，且社群網絡依據議題呈現的結果也不同，在軍事互動的網絡中，中國美國與北韓影響著其他國家，而在教育網絡中，新加坡的教

‧

方面分為有向圖(Directed graph)、多重圖(Multigraph)、超圖(Hypergraph)、權重網絡(Weighted network)，在「量度」方面包含了點度(degree)、密度(density)、

派別(Clique)、親密度中心性(Closness Centrality)、中介度中心性 (Betweeness Centrality)、叢聚係數(Clustering Coefficient)，搜尋引擎中評斷網頁重要性的方式也是透過社群網絡的觀點定義出佩奇排名(PageRank)。

而多年來社群網絡的想法也被運用在文字分析上，Beliga 等(2015)提出的關鍵詞檢索，將詞彙當作每一個節點，並定義新的變量 selectivity 來描述詞彙的重要程度，與其他非社群網絡的關鍵詞檢索方法有相同的檢索能力。

本文將社群網絡想法套用在機器學習最常探討的分群議題上，而社群網絡的結構與分群議題從2001年Condon等(2001)提出的 I 群落種植法(Planted l-Partition)與Grivan 等(2002)提出得分群係數，試圖將網絡結構作分群解構，並在解構後得到每一個子群的階級式(hierarchical)關係，但儘管透過子群性質解構出網絡中的子群分佈，但當網絡複雜度提高，運算成本也大幅增加使得時間成本提高， Newman(2004)以貪婪演算法(greedy algorithm)的想法，先從 n 個子群開始解構網絡，藉由分群與合併使得目標函數模組(modularity)可以最佳化；

Donetti(2004)則是使用拉普拉斯矩陣特徵向量(the eigenvectors of the Laplacian matrix)套用在階層式分群上面。

隨意遊走模型(WalkTrap)由Pascal與Matthieu(2006)提出，其核心概念是在網

‧

層式分群法(Hierarchical tree clustering)的演算法流程，從一開始每個節點各自一群，依序合併、重新計算距離與分群評比，反覆這個流程得到最佳模組分數下

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

的子群分群結果。

‧

的過程又簡稱為ETL，描述將資料從源端萃取(Extract)、轉置（transform）、載入（load）至資料庫或目的端的過程，資料萃取最常使用的技術為網頁爬蟲，

透過程式解析網頁架構，並將回傳網頁資訊剖析來截取出重要資訊。本文的研究資料包含《人民日報》、TSSCI 與美國專利文本，《人民日報》資料庫由過去學長林家安透過R 軟體撰寫爬蟲程式來剖析網頁，並以資料庫的方式依年份做管理；TSSCI 期刊資料庫依據人工搜尋與複製剪貼期刊中的論文摘要與關鍵詞，並製作成Excel 檔；美國專利文本則是先透過USPTO(United States Patent and Trademark Office)的線上檢索工具，檢索出四個方向截然不同企業底下的專利文本，包含MEDIATEK、MERCK、Microsoft、Toyota，再透過 Python 撰寫爬蟲程式來篩選重要資訊，包括摘要(Abstract)、詳細說明(Detail Description)、

公開公告號...，並利用 Python 與 MSSQL (Microsoft SQL)的串接工具，將爬取的資訊分成六大資料庫，存入MSSQL 做管理．選擇這三個文集的主要原因在

在文檔中關鍵詞與階層式詞彙文本分群之應用 - 政大學術集成 (頁 16-20)

隨機遊走模型與社群網絡

第二章 文獻探討

第四節 隨機遊走模型與社群網絡

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第四節 隨機遊走模型與社群網絡

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

第二章文獻探討

第四節隨機遊走模型與社群網絡

立政治大學

第四節隨機遊走模型與社群網絡

立政治大學