• 沒有找到結果。

本論文系統架構主要分成三部分,第一個部分為包含查詢字之資料物件搜尋,

第二個部分為選取代表標籤字,第三個部分則將代表標籤字先遵行語意概念廣度 大小排名,並依排名順序加入建立出標籤概念階層式架構。

圖 3.1 系統架構圖

系統架構中分成線上處理(Online processing)和離線訓練(Offline training)兩大部份。

如圖 3.1 所示。

線上處理可分為:蒐集候選標籤字 ( Candidate tag collection )、挑選代表標籤 字以及概念階層式架構之建立三大處理步驟。而第三步驟又可細分為標籤字概念 廣度排名評估( Concept Tag Ranking )以及代表標籤字關係之建立( Tag Hierarchy

Construction ),如圖 3.2 所示,以下將逐項說明。

圖 3.2 系統線上處理流程圖

圖 3.2 所示為系統流程圖,以下將逐項說明。

1. 由於我們的目的在幫助使用者篩選查詢結果,因此必須先把涵蓋查詢字的資 料物件挑選出來。蒐集這些查詢結果的標籤字形成候選標籤字,接著再做後 續的篩選處理。

2. 在找出與查詢字一同出現的候選標籤字後,有些字可能是一些具不明確意涵 的字,或是出現過於頻繁而非重要字。所以必須進行代表標籤字挑選的處理,

1. 獲取查詢結果並 蒐集候選標籤字

標籤資料庫

2. 挑選代表標籤字

3. 產生概念階層式組織架構 3.1 標籤概念廣度排名

3.2 標籤上下包含關係之建立 查詢

取出代表標籤字。

3. 經過上述步驟,蒐集到代表標籤字集合。標籤階層式架構初始為空,系統會 將代表標籤字先進行語意概念廣度排序,再依序根據標籤和當時標籤階層式 架構中已存的標籤是否有上下包含關係的判定,加入到階層式架構中的適當 位置。

在步驟三中為了進行標籤概念廣度的評估以及上下包含關係之判定,因此需 要在 離線處理 先訓練排名模型 (ranking model) 和分類模 型 (classification model)兩個處理單元來輔助線上處理階段之判斷。以下將對於此兩項工作進行說 明:

(1)建立排名模型– 給定多組含有概念上下關係的標籤字對,並且對每一組 標籤字取出特徵值後,運用 Rank-SVM 工具建立概念廣度排名模型。該建立模型 將用來對代表標籤字進行語意概念廣度排序。

(2)建立分類模型– 給定具有語意上下關係和不具有語意上下關係的標籤 字對,並取出其多項特徵為訓練資料,以 SVM 工具進行分類學習,產生用來判 斷一組標籤間是否有概念上下關係的分類模型。而該模型將用來在建立標籤階層 式架構時,判斷一個代表標籤字是否允許加入在另一個代表標籤字下。

相關文件