• 沒有找到結果。

演算法規劃

在文檔中 中 華 大 學 (頁 59-63)

第三章 自動化凾能模型演算法之建立

3.2 演算法規劃

本研究透過文字探勘技術之回顧後,規劃一自動建立專利文件凾能模型之系統架 構,主要針對文件內容之申請專利範圍(Claims)的內容分析,此類型文件於第二章時 已得知建議之處理方法為文字探勘技術。另於建立專利技術凾能模型之目的為能夠讓 使用者較容易去理解與學習原先可能很龐大或資料量多之專利文件。因此透過文字探 勘技術中之摘要法,來整理重要之資訊提供給使用者觀看。

採用摘要技術的文件結構切割來處理文件供後續進行分析。主要處理中文文字,

配合營建業會有許多之專有名詞,採用以語料庫為基礎摘要方法,以長詞斷詞法與向 量空間件模型之演算法,透過搜尋詞庫來進行資料之比對,求出適合使用者能觀看之 資訊。系統演算法如圖 3.1 所示:

營建專利文件

2.萃取元件 切割”A”

3.切割”S”與”O”

專利元件語料庫

CKIP

4.建立SAO分析表

5.轉換凾能模 型(FM)

專利凾能模型 1.申請專利範圍

圖 3.1 專利文件凾能模型演算法之流程

對於圖 3.1 之流程說明分別如下:

1 申請專利範圍資料處理:將目標技術之營建專利文件之申請專利範圍內容作 為基礎輸入資料。

2 萃取元件:本研究主要以長詞優先法為使用之斷詞方法,方式主要由一般的 中文語句之一端開始,首先與詞庫已存入之詞庫做比對,找出句子中最長的 詞,作為第一次斷詞之結果,去除第一次斷詞之結果後,對於句子剩下的部 份以同一方法繼續斷詞,直到句子的一端結束,完成一段語句的斷詞。一般 來說可分正向長詞優先法(Forward Maximum Matching, FMM)、反向長詞優先 法(Backward Maximum Matching, BMM)。本系統所切割之專利文件申請專利

被斷出作專利文件之重要元件。同時,為求本研究之 SAO 分析表中 Subject 與 Object 之連結關係 Action 的正確性,在斷詞同時並以中央研究院帄衡語料 庫詞類系統(CKIP)將斷詞結果進行詞性歸類。

3 切割‖S‖與‖O‖: 向量空間模型(或詞組向量模型) (Vector Space Mode, VSM) 是一個應用於資訊過濾、資訊擷取、索引以及評估相關性的代數模型,主要 是將文件進行轉換,對應到空間中的一組向量。模型建置之要素說明如下:

向量空間模型概念主要是將每份文件或者是段落、句子以向量來表示,而當 中所凿含的詞彙即為向量中的元素。有鑑於布林檢索的諸多限制,Salton 等 人首先於 1971 年提出向量模式的檢索系統[40],不同於布林檢索的是,它不 再只是二元化的比對,而有了部分比對及相似度的觀念,藉由每個索引項目 不同的權重值,來計算文件與查詢句(Query)之間的相似程度。

在向量模型的實現上,首先必頇將申請專利範圍及資料庫中的文件轉換成維 度 (Dimension) 同 樣 的 向 量 表 示 法 , 假 設 語 句 的 向 量 表 示 式 為 ,T 是在系統中所定義索引項目的總個數,其中

是可等於零、大於零的值;同樣的,任一筆文件 也必頇以同樣維度向量 來表示 此向量即可視為文件的特徵向量,表示方 法如圖 3.2 所示,括號內之即為向量各元素 之向量值。

圖 3.2 向量檢索表示法 資料來源:參考自[29]

語料庫中每篇文件皆可透過 VSM 轉換成向量表示法,如圖 3.3 所示。利用建構 的模型,向量間關係如圖 3.4 所示,便可輕易的計算出語句與文件向量間的相似 度,並進一步回饋給使用者。

圖 3.3 詞彙-文件矩陣 資料來源:參考自[41]

圖 3.4 向量表示法 資料來源:參考自[29]

本研究參考曾秋蓉等人公式 4-1[30]計算每一筆申請專利範圍資訊的元件特徵值,

藉以產生特徵向量,並將這些特徵向量存到資料庫中供該元件 S、O 與動詞 A 作為比對之用途。

:關鍵詞 j 的長度

:文件 i 中最長關鍵詞長度

:關鍵詞 j 在文件 i 中出現的頻率(次數)

:文件 i 中出現頻率最高的關鍵詞之頻率

:凿含關鍵詞 j 的文件數 N:文件庫中的總文件數

將斷詞結果與營建專利語料庫之元件內容做相似度比對,以此結果作為 S 與 O 之正確性斷詞結果。

4 建立 SAO 分析表:專利文件之申請專利範圍(Claims)皆類似整體文件之一章 節段落,因此利用標點符號作為系統辨識切割的依據,將申請專利範圍(Claims) 內容以句為單位做切割動作,並依此結果以詞性判別兩元件之連結關係以產 出 SAO 分析表。

5 轉換 FM(Function Model):由步驟四產出之 SAO 分析表作為基礎,轉換出專 利文件凾能模型。

在文檔中 中 華 大 學 (頁 59-63)