實驗設計 - 實驗方法與驗證 - 在高度分散式環境下進行Top-k相似文件檢索

第四章實驗方法與驗證

4.1 實驗設計

引表。而我們整體實驗過程皆是在 Intel(R) Core i5-2400 3.10GHz 的核心處理器以及 8GB 的存取記憶體，搭配 Windows 7 64 位元作業系統的電腦規格下進行，並且以 Java

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

彙抽取，依照其權重值的大小對各文件保留 Top-k 特徵字詞向量，建立其所屬的字詞文件表格 (Term-Document Table)，並且依各文件的特徵字詞向量，計算彼此在向量空間中的餘弦相似度，依據此相似度值作階層式聚集分群演算法，對各節點內所有文件作分群動作。而分群後各個群集仍需保留文件原有的 Top-k 特徵字詞向量，並且對所有特徵字詞取聯集後，重新計算群集的 Top-k 特徵字詞權重，以作為群集的代表資訊。最後，

在選出數個起動節點後，我們會將整體端對端網路切割成數個區域，每個顏色即代表一個區域，如下圖 4.1 所示：

圖 4.1：區域切割後的端對端網路

當 P2P 網路內的區域切割完畢後，各啟動節點便會去蒐集各自區域內的特徵字詞向量，作為未來建立特徵索引表的依據。在演算法的比較部分，我們會與 SON-based Framework 做比較，SON-based Framework 也是在端對端網路環境下，找出與查詢文件 Top-k 相似的文件集合。使用的方法主要是透過語義層疊式網路的建構，來對具有相似內容的文件群集做合併，並且再針對具有相似內容的節點再做一次合併，形成跨區域的階層式語義層疊式網路，算是一種很直覺式的方法。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

4.1.1 分群演算法實驗

由於分群演算法所產生出的分群結果，很明顯會影響我們的方法在查詢處理時的結果與搜尋速度。因此在實驗過程中，我們會針對不同節點數量的端對端網路環境下，去測試其各節點資料庫內群集之間的相似度平均值，該數值的大小也代表群集之間的分離程度：

當群集之間的相似度平均值較大，代表分群結果是較差的，群集彼此所擁有的文件過於相似；若平均值低，則表示我們所採用的分群演算法，可有效的將文件依特徵字詞向量做分群。並且額外記錄各群集所擁有的 Top-k 特徵字詞向量個數，以及在該網路環境下的總群集數量。以上是我們的第一個實驗。

4.1.2 準確率與查詢成本比較實驗

在本研究所提出的問題中，為了幫助我們實驗的驗證，會以傳統集中式搜尋引擎 (Baseline Algorithm) 進行 Top-k 相似文件查詢的結果文件，作為標準答案。也就是去檢索所有文件當中包含查詢文件的所有特徵字詞，以便測試我們的方法架構與 SON-based 的準確率優劣，並以各自查詢過程中，須接觸多少個節點資料庫數量，才可回傳 Top-k 相似文件結果，作為整體查詢成本耗費的比較，而 SON-based 演算法在相關研究章節中已有做詳細的介紹了。

因此在查詢處理的實驗上，我們首先會針對 Ohsumed 文件資料庫的三十五萬分文件當中，隨機從這二十三種類別當中，挑選一百篇病例報告文件作為查詢集合。再從這一百份文件當中，挑選一篇文件作為查詢文件，並且計算其查詢文件與經過我們方法所得出的結果文件集合之餘弦相似度，再透過設定的相似度門檻值來決定有哪些文件是與查詢文件相似的，因此我們可以定義出檢索後得到文件集合的準確率。

‧

100 500 1000 2000

Number of contacted peers

Network size ( Number of peers)

SON-based@25 F.I.T@25 SON-based@50 F.I.T@50

在文檔中在高度分散式環境下進行Top-k相似文件檢索 - 政大學術集成 (頁 35-39)

實驗設計

第四章 實驗方法與驗證

4.1 實驗設計

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

第四章實驗方法與驗證

立政治大學

立政治大學