• 沒有找到結果。

第四章 自動化經驗學習演算法之規劃

4.1 演算法規劃

本研究透過文字探勘技術之回顧後,規劃一自動建立經驗學習檔 案之系統架構,主要針對文件之內容為知識社群與問題尋求解答的內 容,其原系統本身於提出分享或問題時,皆已依指示於各欄位填入個 人資訊、主題、問題、類型等,主要可歸類屬於半結構化之文件,此 類型文件於第三章時已得知建議之處理方法為文字探勘技術。另於建 立經驗學習檔案之目的為能夠讓使用者較容易去理解與學習原先可 能很龐大或資料量多之文件。因此透過文字探勘技術中之摘要法,來 整理重要之資訊提供給使用者觀看。

採用摘要技術的文件結構切割來處理文件供後續進行分析。主要 處理中文文字,配合營建業會有許多之專有名詞,採用以語料庫為基 礎摘要方法,以長詞斷詞法與向量空間件模型之演算法,透過搜尋詞 庫來進行資料之比對,求出適合使用者能觀看之資訊。演算法流程如 圖4.1 所示:

切割段落

標點符號切 割句子

轉換VSM 轉換VSM

斷詞產生關 鍵字 斷詞產生關

鍵字

標點符號切 割句子

段落4

、..

句子1

相似度比對 句子2 句子3…

段落2

轉換VSM 斷詞產生關

鍵字 標點符號切

割句子

句子1 句子2 句子3…

段落3

選取較高相似度之句子

展示提供給使用者作為 解決方案參考

文件資料

段落1

句子1 句子2 句子3…

步驟一

步驟二

步驟三

步驟四

步驟五

步驟六

步驟七

圖4.1 自動化經驗學習演算法流程圖

對於圖4.1 之流程說明分別如下:

步驟一:將作為自動化處理基礎之文件內容輸入

步驟二:文件結構切割。知識社群之提問與回應內容,其文件之特性 皆類似整體文件之一個段落,因此只利用標點符號(!, @, \t, $,

%, ^, &, *, (, ), \n, \r, -, _, +, =, {, }, [, ], :, ;, \dblquote, \lquote,

<, >, ,, ., ?, /, ~, `, ,, 。, 「, 」)作為系統辨識切割的依據,

將提問與回應內容以句為單位。

步 驟 三 : 斷 詞 。 本 研 究 主 要 以 長 詞 優 先 法(Maximum Matching Algorithm, MM)為使用之斷詞方法,方式主要由一般的中文 語句之一端開始,首先與詞庫以存入之詞庫作比對,找出句 子中最長的詞,作為第一次斷詞之結果,去除第一次斷詞之 結果後,對於句子剩下的部分以同一方法繼續斷詞,直到句 子的一端結束,完成一段語句的斷詞。一般來說可分正向長 詞優先法(Forward Maximum Matching, FMM)、反向長詞優 先法(Backward Maximum Matching, BMM)[38]。

所切割的SOS 案例資料大多為中文文字,因此本研究將 英文單字過濾掉,以避免,中英文詞彙同時被斷出作關鍵 字。利用長詞斷詞法將切割後的提問、回應內容以斷出提 問、各回應內容的關鍵字。

步驟四:向量空間模型(或詞組向量模型) (Vector Space Mode, VSM) 是一個應用於資訊過濾、資訊擷取、索引以及評估相關性的 代數模型,主要是將文件進行轉換,對應到空間中的一組向 量。模型建置之要素說明如下:

向量空間模型概念主要是將每份文件或者是段落、句子 以向量來表示,而當中所包含的詞彙即為向量中的元素。有 鑑於布林檢索的諸多限制,Salton 等人首先於 1971 年提出向 量模式的檢索系統[39],不同於布林檢索的是,它不再只是 二元化的比對,而有了部分比對及相似度的觀念,藉由每個 索引項目不同的權重值,來計算文件與查詢句(Query)之間的 相似程度。

在向量模型的實現上,首先必須將使用者的詢問句及資 料庫中的文件轉換成維度(Dimension)同樣的向量表示法,假

設查詢句的向量表示式為qϖ=[w1,q,w2,q,...wt,q]T

T

是在系統中所 定義索引項目的總個數,其中

w

i,j是可等於零、大於零的值;

同 樣 的 , 任 一 筆 文 件dϖj

也 必 須 以 同 樣 維 度 向 量 來 表 示

T j t j j

j w w w

dϖ =[ 1, , 2, ,... , ]

此向量即可視為文件的特徵向量,表示方 法如圖4.2 所示,括號內之即為向量各元素

w

i之向量值。

圖4.2 向量檢索表示法 資料來源:參考自[29]

語料庫中每篇文件皆可透過 VSM 轉換成向量表示法,

如圖4.3 所示。利用建構的模型,向量間關係如圖 4.4 所示,

便可輕易的計算出查詢語句與文件向量間的相似度,並進一 步回饋給使用者。

⎥⎥

⎥⎥

⎥⎥

⎥⎥

⎢⎢

⎢⎢

⎢⎢

⎢⎢

ki k

k k

i i i

W W

W Doc

W W

W Doc

W W

W Doc

Term Term

Term

...

...

...

...

...

...

...

...

...

...

...

...

...

...

...

...

...

...

...

....

...

...

...

...

...

...

...

...

...

...

...

...

...

2 1

2 22

21 2

1 12

11 1

2 1

圖4.3 詞彙-文件矩陣 資料來源:參考自[40]

圖4.4 向量表示法 資料來源:參考自[29]

利用公式 4.1[41]計算每一筆 SOS 案例提問資訊的特徵 值,藉以產生特徵向量,並將這些特徵向量存到資料庫中供 該案例之回應內容作為比對之用途。

) log(

) 5 . 0 5 . 0 (

max ,

, max

, ,

j i

j i

i j j

i df

N tf

tf L

IMF = L + × (4.1)

L

j:關鍵詞 j 的長度

max ,

L

i :案例i 中最長關鍵詞的長度

j

tf

i, :關鍵詞j 在案例 i 中出現的頻率(次數)

max ,

tf

i :案例i 中出現頻率最高的關鍵詞之頻率

df

j

:包含關鍵詞 j 的案例數 N:案例庫中的總案例數

步驟五:相似度比對。相似度計算是廣受運用之技術,不管是文件的 群聚、分類、檢索等等,都需要利用相似度計算來進行處理。

當文件與詢問句用同樣的向量空間來表示時,就可以將 它們的相似度用量化的方法來呈現,而此相似度的計算,最 直覺的方式即是以 Cosine 來計算二向量的夾角,其值為 0

或大於0 的值:

∑ ∑

=

=

×

= ×

×

= •

t i

t

i iq

j i t

i ij iq

j j j

w w

w w q

d q q d

d sim

1 2

, 2

,

1 , ,

) ,

( ϖ ϖ

ϖ ϖ ϖ ϖ

(4.2)

d ϖ

j

q

ϖ

分別為VSM 所產生之兩個向量,提供在文件空 間的等化(Normalize)作用;藉由式 4.2 的運算,一個 Query 可分別對一案例之所有回應內容計算其與 Query 向量的 Cosine 值以得出相似程度的值,當兩向量夾角為 0 時,其 Cosine 值為 1 最大值,而當兩向量夾角為 90 度垂直時,其 Cosine 值為 0 亦即相關度為 0。

對於向量中的索引項目可透過 TF-IDF(Term Frequency and Inverse Document Frequency)[39]公式計算權重,其中的 TF 是屬於單一文件內部的分佈特性,它可以用來描述一篇 文件對某一索引項目的包含程度,亦即在本文中的出現頻 率。

( )

=

t

k i j i

w j w

i

,

, ,

TF (4.3)

上式即

w

j在第

i

篇文件的 TF 值;而 IDF 則屬於全域資 料的分佈特性(Inter-document characterization),它是用以量 測在所有文件中,不同索引項目的重要程度,亦可將此值視 為鑑別性的參考依據。

( )

nj

j N

IDF =log (4.4)

其中N 為資料庫中的文件筆數,

n

j則是包含索引項目

w

j 的文件筆數,由式子中可得知當IDF 趨近 0 時代表該索引項 在絕大部分的文件中都有出現,因此本索引項的鑑別性就會

很低;相反的,若IDF 值很大時,則此索引項只出現少數幾 篇文件中,則此項的鑑別性就顯得十分重要。將TF 與 IDF 作乘法運算即為向量模式中最常使用的權重計算法則。

w

i,j

= TF ( ) i , j × IDF ( ) j

(4.5) 權重與相似度計算完成後,再將SOS 系統既有的貢獻度 評分機制加入排序之考量要素,貢獻度評分主要透過由SOS 提問者對於熱心同仁之各個回應,做一到五分的相關、重要 程度做給分,五分為貢獻度最高;一分則是貢獻度較低。

步驟六:將步驟五所計算出所有資料之相似度排序。

步驟七:建立經驗學習檔案。將前述步驟一至步驟六之處裡,最後得 出相似程度的排名。此種特性,即使某篇文件只有部分與 Query 相同,它仍有可能被檢索出來,因此可訂定適當的臨 界值(Threshold),只取出某種相關程度以上的文章即可。將 相關之資訊已經驗學習檔案之格式程現給使用者作閱讀。

經驗學習檔案(Lessons-Learned File, LLF)建置主要目的 以有效儲存顧問公司的各類知識活動所外顯可供參考、學習 之經驗為主。本研究將對於現有SOS 提問系統所累積之案例 進行格式化、屬性化,建立系統後,來產生經驗學習檔案,

建立之 LLF 可供同仁參考使用。其格式之建立規劃說明如 下:

一、參考美國營建產業研究中心(CII)所提供之樣本,建立格 式化、標準化之 SOS 系統 LLT。

二、建立網路化之經驗學習魔術師系統,對於LLT 所需之內 容,修改成為對象顧問公司 KMS 適用之網路化經驗 學習問卷系統,問卷填寫完畢,即新增一 LLF。

所完成之LLF 包含(1)案例之知識分類、(2)案例之問題 描述、(3)解決方案說明、(4)案例效益評估等四部分,格 式如圖 4.5 所示:

圖 4.5 LLF 格式內容

相關文件