• 沒有找到結果。

第二章 文獻探討

第四節 隨機遊走模型與社群網絡

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

跟大怒,從這樣的例子可以知道詞網是個由上而下、越分越細的架構,由 155327 個詞彙、175979 個語意、207016 個詞彙-語意配對所建置,其辭典分成 名詞、動詞、形容詞、副詞四種網絡,並依據不同網絡記載不同的語意關係,

如名詞網絡中以同義詞的概念所建構,透過上位詞(hypernym)與下位詞

(hyponym)串連,由最頂層十一個抽象起始點開始向下以樹狀圖方式延伸,最深 層的層次串連了十六個節點,而在動詞方面除了同義詞外,反義詞的概念被建 入動詞網絡下,同時四個網絡仍有互相指引的關係,如名詞「director」與動詞

「direct」間的關係稱為 morphosemantic link.在文字分析中最常遇到的詞義消 歧的問題,多詞一義的情形常會造成文章間的關係無法確定,因此許多分析者 透過詞網記載的語義訊息來降低因同義詞所造成的影響,Hotho, Staab and Stemme(2003)提到利用詞網確實可以提高分群效果,Reforgiato(2007)使用詞網 做維度化簡,對分群結果相當有幫助。

圖 3-1 Tiger 在詞網中的語意架構

第四節 隨機遊走模型與社群網絡

社群網絡是一個描繪社會結構的網絡概念,透過描繪節點與節點之間的關 係來觀察整個網絡的概況,且社群網絡依據議題呈現的結果也不同,在軍事互 動的網絡中,中國美國與北韓影響著其他國家,而在教育網絡中,新加坡的教

方面分為有向圖(Directed graph)、多重圖(Multigraph)、超圖(Hypergraph)、權重 網絡(Weighted network),在「量度」方面包含了點度(degree)、密度(density)、

派別(Clique)、親密度中心性(Closness Centrality)、中介度中心性 (Betweeness Centrality)、叢聚係數(Clustering Coefficient),搜尋引擎中評斷網頁重要性的方 式也是透過社群網絡的觀點定義出佩奇排名(PageRank)。

而多年來社群網絡的想法也被運用在文字分析上,Beliga 等(2015)提出的關 鍵詞檢索,將詞彙當作每一個節點,並定義新的變量 selectivity 來描述詞彙的 重要程度,與其他非社群網絡的關鍵詞檢索方法有相同的檢索能力。

本文將社群網絡想法套用在機器學習最常探討的分群議題上,而社群網絡 的結構與分群議題從2001年Condon等(2001)提出的 I 群落種植法(Planted l-Partition)與Grivan 等(2002)提出得分群係數,試圖將網絡結構作分群解構,並 在解構後得到每一個子群的階級式(hierarchical)關係,但儘管透過子群性質解構 出網絡中的子群分佈,但當網絡複雜度提高,運算成本也大幅增加使得時間成 本提高, Newman(2004)以貪婪演算法(greedy algorithm)的想法,先從 n 個子 群開始解構網絡,藉由分群與合併使得目標函數模組(modularity)可以最佳化;

Donetti(2004)則是使用拉普拉斯矩陣特徵向量(the eigenvectors of the Laplacian matrix)套用在階層式分群上面。

隨意遊走模型(WalkTrap)由Pascal與Matthieu(2006)提出,其核心概念是在網

層式分群法(Hierarchical tree clustering)的演算法流程,從一開始每個節點各自一 群,依序合併、重新計算距離與分群評比,反覆這個流程得到最佳模組分數下

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

的子群分群結果。

的過程又簡稱為ETL,描述將資料從源端萃取(Extract)、轉置(transform)、載 入(load)至資料庫或目的端的過程,資料萃取最常使用的技術為網頁爬蟲,

透過程式解析網頁架構,並將回傳網頁資訊剖析來截取出重要資訊。本文的研 究資料包含《人民日報》、TSSCI 與美國專利文本,《人民日報》資料庫由過去 學長林家安透過R 軟體撰寫爬蟲程式來剖析網頁,並以資料庫的方式依年份做 管理;TSSCI 期刊資料庫依據人工搜尋與複製剪貼期刊中的論文摘要與關鍵 詞,並製作成Excel 檔;美國專利文本則是先透過USPTO(United States Patent and Trademark Office)的線上檢索工具,檢索出四個方向截然不同企業底下的專 利文本,包含MEDIATEK、MERCK、Microsoft、Toyota,再透過 Python 撰寫 爬蟲程式來篩選重要資訊,包括摘要(Abstract)、詳細說明(Detail Description)、

公開公告號...,並利用 Python 與 MSSQL (Microsoft SQL)的串接工具,將爬取 的資訊分成六大資料庫,存入MSSQL 做管理.選擇這三個文集的主要原因在

相關文件