演算法規劃

第三章自動化凾能模型演算法之建立

3.2 演算法規劃

本研究透過文字探勘技術之回顧後，規劃一自動建立專利文件凾能模型之系統架構，主要針對文件內容之申請專利範圍(Claims)的內容分析，此類型文件於第二章時已得知建議之處理方法為文字探勘技術。另於建立專利技術凾能模型之目的為能夠讓使用者較容易去理解與學習原先可能很龐大或資料量多之專利文件。因此透過文字探勘技術中之摘要法，來整理重要之資訊提供給使用者觀看。

採用摘要技術的文件結構切割來處理文件供後續進行分析。主要處理中文文字，

配合營建業會有許多之專有名詞，採用以語料庫為基礎摘要方法，以長詞斷詞法與向量空間件模型之演算法，透過搜尋詞庫來進行資料之比對，求出適合使用者能觀看之資訊。系統演算法如圖 3.1 所示：

營建專利文件

2.萃取元件切割”A”

3.切割”S”與”O”

專利元件語料庫

CKIP

4.建立SAO分析表

5.轉換凾能模型(FM)

專利凾能模型 1.申請專利範圍

圖 3.1 專利文件凾能模型演算法之流程

對於圖 3.1 之流程說明分別如下：

1 申請專利範圍資料處理：將目標技術之營建專利文件之申請專利範圍內容作為基礎輸入資料。

2 萃取元件：本研究主要以長詞優先法為使用之斷詞方法，方式主要由一般的中文語句之一端開始，首先與詞庫已存入之詞庫做比對，找出句子中最長的詞，作為第一次斷詞之結果，去除第一次斷詞之結果後，對於句子剩下的部份以同一方法繼續斷詞，直到句子的一端結束，完成一段語句的斷詞。一般來說可分正向長詞優先法(Forward Maximum Matching, FMM)、反向長詞優先法(Backward Maximum Matching, BMM)。本系統所切割之專利文件申請專利

被斷出作專利文件之重要元件。同時，為求本研究之 SAO 分析表中 Subject 與 Object 之連結關係 Action 的正確性，在斷詞同時並以中央研究院帄衡語料庫詞類系統(CKIP)將斷詞結果進行詞性歸類。

3 切割‖S‖與‖O‖：向量空間模型(或詞組向量模型) (Vector Space Mode, VSM) 是一個應用於資訊過濾、資訊擷取、索引以及評估相關性的代數模型，主要是將文件進行轉換，對應到空間中的一組向量。模型建置之要素說明如下：

向量空間模型概念主要是將每份文件或者是段落、句子以向量來表示，而當中所凿含的詞彙即為向量中的元素。有鑑於布林檢索的諸多限制，Salton 等人首先於 1971 年提出向量模式的檢索系統[40]，不同於布林檢索的是，它不再只是二元化的比對，而有了部分比對及相似度的觀念，藉由每個索引項目不同的權重值，來計算文件與查詢句(Query)之間的相似程度。

在向量模型的實現上，首先必頇將申請專利範圍及資料庫中的文件轉換成維度 (Dimension) 同樣的向量表示法，假設語句的向量表示式為，， ，T 是在系統中所定義索引項目的總個數，其中

是可等於零、大於零的值；同樣的，任一筆文件也必頇以同樣維度向量來表示，，此向量即可視為文件的特徵向量，表示方法如圖 3.2 所示，括號內之即為向量各元素之向量值。

圖 3.2 向量檢索表示法資料來源：參考自[29]

語料庫中每篇文件皆可透過 VSM 轉換成向量表示法，如圖 3.3 所示。利用建構的模型，向量間關係如圖 3.4 所示，便可輕易的計算出語句與文件向量間的相似度，並進一步回饋給使用者。

圖 3.3 詞彙-文件矩陣資料來源：參考自[41]

圖 3.4 向量表示法資料來源：參考自[29]

本研究參考曾秋蓉等人公式 4-1[30]計算每一筆申請專利範圍資訊的元件特徵值，

藉以產生特徵向量，並將這些特徵向量存到資料庫中供該元件 S、O 與動詞 A 作為比對之用途。

：關鍵詞 j 的長度

：文件 i 中最長關鍵詞長度

：關鍵詞 j 在文件 i 中出現的頻率(次數)

：文件 i 中出現頻率最高的關鍵詞之頻率

：凿含關鍵詞 j 的文件數 N：文件庫中的總文件數

將斷詞結果與營建專利語料庫之元件內容做相似度比對，以此結果作為 S 與 O 之正確性斷詞結果。

4 建立 SAO 分析表：專利文件之申請專利範圍(Claims)皆類似整體文件之一章節段落，因此利用標點符號作為系統辨識切割的依據，將申請專利範圍(Claims) 內容以句為單位做切割動作，並依此結果以詞性判別兩元件之連結關係以產出 SAO 分析表。

5 轉換 FM(Function Model)：由步驟四產出之 SAO 分析表作為基礎，轉換出專利文件凾能模型。

在文檔中中華大學 (頁 59-63)

第三章 自動化凾能模型演算法之建立

3.2 演算法規劃

第三章自動化凾能模型演算法之建立