• 沒有找到結果。

第四章 實驗方法與驗證

4.1 實驗設計

引表。而我們整體實驗過程皆是在 Intel(R) Core i5-2400 3.10GHz 的核心處理器以及 8GB 的存取記憶體,搭配 Windows 7 64 位元作業系統的電腦規格下進行,並且以 Java

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

27

彙抽取,依照其權重值的大小對各文件保留 Top-k 特徵字詞向量,建立其所屬的字詞文 件表格 (Term-Document Table),並且依各文件的特徵字詞向量,計算彼此在向量空間 中的餘弦相似度,依據此相似度值作階層式聚集分群演算法,對各節點內所有文件作分 群動作。而分群後各個群集仍需保留文件原有的 Top-k 特徵字詞向量,並且對所有特徵 字詞取聯集後,重新計算群集的 Top-k 特徵字詞權重,以作為群集的代表資訊。最後,

在選出數個起動節點後,我們會將整體端對端網路切割成數個區域,每個顏色即代表一 個區域,如下圖 4.1 所示:

圖 4.1:區域切割後的端對端網路

當 P2P 網路內的區域切割完畢後,各啟動節點便會去蒐集各自區域內的特徵字詞向 量,作為未來建立特徵索引表的依據。在演算法的比較部分,我們會與 SON-based Framework 做比較,SON-based Framework 也是在端對端網路環境下,找出與查詢文件 Top-k 相似的文件集合。使用的方法主要是透過語義層疊式網路的建構,來對具有相似 內容的文件群集做合併,並且再針對具有相似內容的節點再做一次合併,形成跨區域的 階層式語義層疊式網路,算是一種很直覺式的方法。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

28

4.1.1 分群演算法實驗

由於分群演算法所產生出的分群結果,很明顯會影響我們的方法在查詢處理時的結果與 搜尋速度。因此在實驗過程中,我們會針對不同節點數量的端對端網路環境下,去測試 其各節點資料庫內群集之間的相似度平均值,該數值的大小也代表群集之間的分離程度:

當群集之間的相似度平均值較大,代表分群結果是較差的,群集彼此所擁有的文件過於 相似;若平均值低,則表示我們所採用的分群演算法,可有效的將文件依特徵字詞向量 做分群。並且額外記錄各群集所擁有的 Top-k 特徵字詞向量個數,以及在該網路環境下 的總群集數量。以上是我們的第一個實驗。

4.1.2 準確率與查詢成本比較實驗

在本研究所提出的問題中,為了幫助我們實驗的驗證,會以傳統集中式搜尋引擎 (Baseline Algorithm) 進行 Top-k 相似文件查詢的結果文件,作為標準答案。也就是 去檢索所有文件當中包含查詢文件的所有特徵字詞,以便測試我們的方法架構與 SON-based 的準確率優劣,並以各自查詢過程中,須接觸多少個節點資料庫數量,才可 回傳 Top-k 相似文件結果,作為整體查詢成本耗費的比較,而 SON-based 演算法在相關 研究章節中已有做詳細的介紹了。

因此在查詢處理的實驗上,我們首先會針對 Ohsumed 文件資料庫的三十五萬分文件 當中,隨機從這二十三種類別當中,挑選一百篇病例報告文件作為查詢集合。再從這一 百份文件當中,挑選一篇文件作為查詢文件,並且計算其查詢文件與經過我們方法所得 出的結果文件集合之餘弦相似度,再透過設定的相似度門檻值來決定有哪些文件是與查 詢文件相似的,因此我們可以定義出檢索後得到文件集合的準確率。

100 500 1000 2000

Number of contacted peers

Network size ( Number of peers)

SON-based@25 F.I.T@25 SON-based@50 F.I.T@50

相關文件