文字探勘技術應用於自動化知識管理經驗學習系統之研究

(1)

中華大學碩士論文

文字探勘技術應用於自動化知識管理經驗學習系統之研究

Application of Text Mining to Automatic Lesson-Learned File Generator for a Knowledge

Management System

系所別：營建管理研究所學號姓名：M09516001 魏宇德指導教授：余文德博士

中華民國九十八年二月

(2)

誌謝

我要畢業了，這功勞首先要誠摯的感謝指導教授余文德博士，老師細心與耐心教導並在我有放棄念頭的時候鼓勵我，使我得以順利畢業，更讓我在研究所的學習生涯中受益良多，不只學業方面，再作人處事也給於了諸多建議。在此致上本人最誠摯的謝意與敬意。

感謝呂守陞老師、王維志老師與鄭紹材老師於校外審查時給予的研究建議與指導，使我獲益良多。感謝楊智斌老師、曾秋蓉老師等諸位老師於研究、課業上的協助。以及冠霖大哥、佩倫學姐等在百忙之中，

仍費心提供我在研究上的許多資源與建議，讓我論文的架構得以成型。感謝紹松、志魁、冠雄、為民、家均、建立等學長姐的耐心教導，

感謝小安、祥宇、奇政、力威、偉志、傑中、昌成、志宏、東盈、小董、阿國、宣合等同學在研究所期間互相扶持還有彼此激勵。感謝侑霖學長、智瑋在我論文遇到瓶頸時，鼓勵還有提供我技術支援讓我渡過難關；也要特別感謝珮娟助理、曉雯姐等好友們一直以來的鼓勵、

支援還有教訓，讓我在研究所的期間中倍感溫馨。其他還有很多有給於我協助建議的人，我也都銘記在心。最後要感謝我的家人，給我勇氣與陪伴，讓我在這條辛苦的求學路中，能夠度過。

魏宇德謹誌於新竹中華大學 2009/02

(3)

摘要

關鍵字：文字探勘、經驗學習、語料庫、知識管理。

經驗學習檔案常被營建業用來保留過去所累積之經驗與知識，以做為未來專案之用。傳統經驗學習檔案之建立方式倚賴具經驗之工程師或專案經理以人工撰寫之方式，此種人工填寫方式不但耗費心力，

且許多營建工程知識常隱含在施工日報、計畫書、竣工報告、規範等工程文件中。欲以人工方式由上述文件中建立經驗學習檔案，確有其困難。文字探勘在自動化資料處理領域成功應用於其他領域之文件摘要處理，若能將此一技術引入營建業經驗學習檔案之建立，對於營建業知識管理之發展與技術經驗之累積將有突破性之助益。本研究參酌美國CII 之經驗學習檔案格式，並以文字探勘技術中之「摘要技術」

為基礎，建立經驗學習檔案格式樣版。雖然本研究之成果尚屬實驗性質，文字探勘技術應用在自動建立經驗學習檔案上具有大幅提升經驗學習效率之潛在效益，值得學術與產業界進一步發展。

(4)

ABSTRACT

Keywords: Text mining, lessons-learned, corpus, knowledge management

Lessons-learned file (LLF) is commonly adopted to retain previous knowledge and experiences for future use in many construction organizations. Current practice in capturing LLF is mainly through the costly and time-consuming manual processes conducted by the construction engineers or managers. Moreover, many construction knowledge accumulated from previous projects is berried in the construction documents such as construction journals, proposals, as-built drawings, SPECs, plans, etc. It is impossible to develop LLFs from these documents manually. Text mining (TM) techniques have been successfully applied to document summarization in many areas. It is promising to adopt TM techniques for automatic lesson-learned file generation in construction. This research is a preliminary attempt to develop an Automatic Lessons-Learned File Generator (ALLFG) based on text mining techniques and the lesson-learned file template of CII. A prototype system is programmed. Case study is conducted to extract meaningful LLF from sample Chinese construction document automatically. Although the results are still experimental, promising potentials can be envisioned for practical applications.

(5)

目錄

第一章緒論...1

1.1 研究動機

...1

1.2 研究課題

...2

1.3 研究目的

...2

1.4 研究範圍

...3

1.5 研究方法

...3

1.6 研究流程

...4

第二章文獻回顧 ...6

2.1 知識管理

...6

2.1.1 知識之定義...6

2.1.2 知識管理系統定義...6

2.1.3 知識管理系統之類型與功能...7

2.1.4 知識活動分類...8

2.2 經驗學習

...9

2.2.1 經驗學習之定義...9

2.2.2 經驗學習相關系統...12

2.2.3 經驗學習系統概念...14

2.2.4 CII 於經驗學習之研究 ...15

2.2.5 LL 系統相關研究...19

2.3 小結

...22

第三章資料探勘技術 ...24

3.1 摘要之類型

...26

(6)

3.2 文字探勘

...27

3.3 資訊檢索

...30

3.3.1 資訊檢索簡介...30

3.3.2 資訊檢索相關技術簡介...31

3.4 以語料庫為基礎的文件摘要方法

...34

3.5 以文件關聯為基礎的文件摘要方法

...39

3.6 以潛在語意為基礎的文件摘要技術

...45

3.7 近年相關研究

...46

3.8 小結

...48

第四章自動化經驗學習演算法之規劃 ...50

4.1 演算法規劃

...50

4.2 案例說明

...57

4.2.1 案例之背景...57

4.2.2 手動計算範例...60

4.3 小結

...66

第五章系統開發 ...68

5.1 研究工具

...68

5.2 功能元件

...69

5.3 系統展示

...72

第六章結果驗證與比較 ...77

6.1 實驗設計

...77

6.2 測試資料

...77

6.3 向量空間模型參數測試分析

...77

6.4 系統專家信度驗證

...82

6.4.1 驗證結果說明...83

(7)

6.4.2 不符案例之原因探討...85

第七章結論與建議 ...87

7.1 結論

...87

7.2 建議

...88

參考文獻...89

附錄一實驗設計結果 ...92

附錄二案例處理結果 ...98

(8)

圖目錄

圖1.1 研究流程圖 ...5

圖2.1 知識管理系統功能架構參考 ...8

圖2.2 四種知識轉換過程 ...9

圖2.3 知識轉換螺旋 ...9

圖2.4 Motorola 公司進行 LL 之流程...10

圖2.5 一般經驗學習過程 ...12

圖2.6 LLP-Wizard 軟體介面 ...16

圖2.7 LLP-Wizard 軟體介面-LL 參考流程圖...17

圖2.8 LLP-Wizard 軟體介面-LL 資料庫 ...18

圖2.9 LLP-Wizard 軟體介面-LL 改進學習步驟...19

圖2.10 LL 管理支援系統流程 ...22

圖3.1 傳統文字探勘架構 ...25

圖3.2 資料庫知識發掘步驟 ...29

圖3.3 以語料庫為基礎的自動摘要技術系統概觀 ...36

圖3.4 壓縮比對摘要系統正確率的影響 ...39

圖3.5 Text Relationship Map 範例...40

圖3.6 Paragraph Relationship Map 與其對應的 Text Segmentation ...43

圖3.7 計算 Aggregate Similarity 的概念圖示...44

圖3.8 LSA 工作原理示意圖...46

圖4.1 自動化經驗學習演算法流程圖 ...51

圖4.2 向量檢索表示法 ...53

圖4.3 向量表示法 ...54

圖4.4 詞彙-文件矩陣 ...53

(9)

圖4.5 LLF 格式內容 ...57

圖4.6 個案對象導入之系統規劃 ...59

圖5.1 案例搜尋畫面 ...72

圖5.2 案例搜尋畫面－逐步觀看各階段資料 ...73

圖5.3 觀看提問資訊 ...73

圖5.4 提問資訊切割段落 ...73

圖5.5 提問資訊其他功能選單 ...74

圖5.6 回應資訊選擇回應 ...74

圖5.7 回應五資訊段落切割結果 ...75

圖5.8 回應資訊其他功能選單 ...75

圖5.9 經驗學習檔案展示 ...76

圖6.1 選取之案例回應數分佈 ...83

圖6.2 選取之案例段落數分佈 ...83

圖6.3 案例處理結果比例 ...84

(10)

表目錄

表2.1 相關知識管理產物比較 ...12

表2.2 過去相關 LL 工具及提出者整理 ...15

表2.3 LL 相關軟體之之比較 ...20

表3.1 GBP、DFP 與 SBP 比較 ...43

表3.2 近年相關研究彙整 ...47

表4.1 提問斷詞結果呈現 ...60

表4.2 回應一處理結果 ...61

表4.3 回應向量轉換結果 ...63

表4.4 回應相似度結果呈現 ...66

表6.1 案例編號第 345 號之提問、回應內容 ...78

表6.2 實驗參數說明 ...79

表6.3 回應段落切割結果 ...80

表6.4 提問資訊向量轉換結果 ...80

表6.5 回應五資訊向量轉換結果 ...81

表6.6 回應資訊相似度比對結果 ...82

表6.7 專家建議決方案不同於系統建議解決方案之資料 ...85

(11)

第一章緒論

1.1 研究動機

知識是累積、處理資料與資訊後得到的產物。從 90 年代起，各個產業在進行相關工作時，持續的創新與研發相關領域之新知識。

工程顧問公司是在營建產業中，使用「知識」最密集的對象。

但於經驗上之累積與傳承較不易，一位工程師、專案經理所能觸及的工程或專案有限。工程、專案結束後，所獲得之經驗儲存在自己本身的腦袋裡。要將過去之經驗分享出來，讓其他同仁於日後再次遇到類似之情況時，能夠借鏡作為參考是不容易的。

知識管理系統(Knowledge Management System, KMS)已廣泛的應用再建立知識管理機制以累積個人及公司知識資產，促進員工知識成長及提高員工活用知識資產的能力，進而提供業主滿意的服務、達成公司業績目標、提升品質管理效益。

在進行知識活動時，對於知識的呈現方式可區分為內隱知識以及外顯知識，內隱知識是一種存在於個體，被隱藏起來不易發覺或是表達出來；外顯知識則是能夠用語言或文字呈現，清楚的將之是表露出來的。由內隱與外顯的轉換過程組合，則能夠將知識轉換方式區分成社會化(內隱至內隱)、外化(內隱至外顯)、結合(外顯至外顯)以及內化(外顯至內隱)四種轉換過程。營建業或其他產業透過這四種知識轉換過程產生的”知識轉換螺旋”，在知識的創新上不斷的進步，對於品質管理的提升也應有相當之助益。

但以現有的知識管理系統來說，目前大多所提供之功能皆為提供被動之平台，使用者仍需以人工手動、半自動方式進行儲存、分享

(12)

知識或搜尋其他同仁之經驗，對於使用者尚需費心力去進行使用分享知識。且過去儲存的資料可能有多種類型，如結案報告、案例資料等，

未經過規劃與整理，使用者要在利用資料上，需對內容重新逐一閱讀，將造成相當大之負擔。

1.2 研究課題

以建置經驗學習檔案之方式，可將一龐大之文件，篩選出較重要之資訊，並且以一既定之格式將資訊填入，讓使用者可同時解讀、

再利用不同類型之資料，提升知識庫資料之使用性。

文字探勘技術可從大型資料集合中找出隱含的、未知的與具有潛在價值的資訊。此技術在自動化處理資料領域上已有相當成熟的技術與應用，若將此技術引入經驗學習檔案之建立，對於營建業建立與儲存經驗學習檔案將有突破性之助益，對於公司或相關單位於知識分享、產生能更加增加競爭力。

1.3 研究目的

因此本研究之主要目的在既有之知識管理系統中利用文字探勘技術建立「自動化經驗學習檔案產生系統」，以營建業中的工程顧問業為對象，以此模組對此個案進行實證分析。希望分別分析採用經驗學習模組後之實際現況，以獲得到以下之結果：

(一) 規劃文字探勘摘要之演算法，以此演算法能處理知識文件，

並建立經驗學習檔案。

(二) 依據所規劃之演算法，建立初步實際可運行之自動化經驗學習檔案產生系統。

(13)

1.4 研究範圍與限制

本研究將於規劃完成文字探勘摘要演算法時，以個案對象之知識管理系統之計有案例作為研究之對象，取用其中數個知識社群之案例作為資料來源。透過本研究發展之自動摘要程式將其填寫為經驗學習檔案之格式。

本研究因屬前期研究，因此所採用之文字探勘技術將先採用較被廣泛使用以及使用方法較容易之演算法、技術來進行演算法之規畫以及系統之開發。

1.5 研究方法

本研究所採行之研究方法如下：

一、次級資料分析法

透過文獻資料之回顧，了解分析目前知識管理、經驗學習與文字探勘相關之現況，並找出可利用、改進之處。

二、文字探勘演算方法

藉由文獻回顧所發現過去相關之資料後，進行演算法之分析規劃與建立。分析規劃與建立主要透過了解營建業所需要的經驗或內容為何之後，設計一經驗學習檔案範本，並將文字探勘技術導入於自動產生經驗學習檔案之建立。

三、系統開發

演算法完成規劃後，對於電腦系統進行規劃與建置：

（一）需求之分析。

（二）功能性之建置。

（三）進行系統之測試。

(14)

將產生之經驗學習檔案，與原先參與案例之專家所填寫之成果，以此進行驗證系統功能以及進行修正系統細部。提供給使用者在建立經驗學習檔案上之輔助。在系統演算法上，本研究暫不加入系統學習之機制。

四、個案研究

分析個案對象之知識管理系統之特徵；並嘗試找出在採用本研究所規劃之演算法、系統後，對於原先系統之所能提升之功能與效能，檢驗其重要性與意義。

1.6 研究流程

本研究於第一章對目前現況進行分析與選定研究目的、範圍；第二章將對知識管理與經驗學習相關之文獻進行回顧；第三章將對文字探勘技術與演算法進行回顧；第四章將對所選用之演算法進行說明與規劃自動化經驗學習演算法；第五章依據所規劃之演算法建置電腦系統並進行測試；第六章中將改變部分演算法之參數進行實驗，以探討出本研究所規劃之演算法是否適合。本研究流程依研究目的及研究方法繪製成圖1.1：

(15)

圖1.1 研究流程圖

(16)

第二章文獻回顧

本研究在此章節將對知識管理系統、經驗學習，並將目前有關經驗學習已開發之系統做一回顧。另對於文字探勘之技術、演算法將於第三章進行回顧。對於本研究之主要研究之知識管理經驗學習系統，

找出適合之技術以及演算法。

2.1 知識管理 2.1.1 知識之定義

知識是價值創造的關鍵。知識若與一般的有形資產相比，知識是個複雜、動態、無形及模糊的觀念，許多學者由許多不同的角度來定義，因此其差別也甚大。然而，由於知識儲存在「人類心智」中，要瞭解知識的定義與本質前，必須先瞭解人類如何吸收、篩選、儲存及學習「知識」，亦指須先瞭解人類「心智模式」(Mental Model)的運作。

呂聯發學者認為，知識與信仰及目的有關，且在特定情境下才具有意義，因此，知識能提供使用者行動的準則 [1]。

Nonaka 對知識的定義是「有充分根據的真實信仰」。也就是知識為個人以「真相」為目標，不斷調整個人信仰的動態人文過程[2]。

2.1.2 知識管理系統定義

根據Alavi & Leidner的定義[3]，知識管理系統指的是一種用來管理組織知識的資訊系統，也就是基於資訊科技來支援組織知識創新、

儲存檢索、轉移與應用的系統，主要目標包括：

一、整理並分享最佳範例(The coding and sharing of best practices)。

二、創造企業知識目錄(The creation of corporate knowledge

(17)

directories)。

三、創造知識網路(The creation of knowledge networks)。

Quaddus & Xu則是採取較為廣義的資訊系統觀點來定義知識管理系統，稱之為「一種專門用來處理組織內外知識的產生、保存與分享的系統」；認為我們需要使用知識管理系統來為知識管理加值，促進知識的生產、保存與分享知識；而知識管理系統在組織執行知識管理過程中也扮演了基礎建設的角色[4]。

2.1.3 知識管理系統之類型與功能

從知識分為外顯與內隱的角度來看，則知識管理系統可分為三種：動態型系統(dynamic systems)、流程導向型系統(process-oriented systems)，與整合型系統(integrative systems)[5]。

葉乃嘉認為知識管理系統平台可分為兩個主流類型，一是強調資料彙集、自動與動態的分類與快速搜尋與檢索，加上各種自然語言處理工具，如文章連結、分類瀏覽架構、人工智慧、自動分類、自動摘要等[6]。

在 2002 年的 Intelligent Content Management System Project Presentation作者以2001年歐洲知識管理研討會(The European KM Forum)裡關於知識管理技術的討論為基礎，彙整一個知識管理系統的參考架構(Knowledge Management System Reference Architecture)，認為知識管理系統應該包含六組不同面向的功能項目(如圖2.1)：領域本體論(domain ontology)、內容儲存(content repository)、知識管理系統執行者合作(KMS actor collaboration)、知識安全(knowledge security)、

內容整合(content integration)、知識傳佈(knowledge dissemination)。

(18)

圖2.1 知識管理系統功能架構參考

2.1.4 知識活動分類

知識的分類，可以引自 Polanyi 的研究，他將知識分為內隱(tacit knowledge)和外顯(explicit knowledge)兩種，是最早提出知識具有內隱性的學者，他認為內隱知識是個人的，與特別情境有關，且難以形式化和溝通；外顯知識則是指可形式化，可制度化，和言語表現達的知識[7]。

Nonka 學者提出知識在流動時可能產生知識轉換過程，主要分為四類：社會化、外化、結合與內化(圖 2.2)。社會化主要轉換是內隱知識到內隱知識；外化則是從內隱知識到外顯知識；結合從外顯知識到外顯知識；內化從外顯知識到內隱知識[8]。

透過這四個過程不斷的重複，形成知識轉換螺旋，將知識從個人能夠逐漸的轉化出到組織(圖 2.3)，形成智慧資產。不斷的累積智慧資產後，可提高組織之競爭力。

(19)

圖2.2 四種知識轉換過程[8]

C o mb i n at i o n E x te r n al i z at i o n

S o ci a l iz a t io n

O n to l o gy Di m e n si o n E p i s t e m o l o g y D i m e n s i o n

I n te r n al i z at i o n

Explici knowledg et

Individu al Group Organizat ion Interorganiz ation Tacit

knowledg et

圖2.3 知識轉換螺旋[8]

2.2 經驗學習

2.2.1 經驗學習之定義

對於營建產業，未來所能產生之效益仰賴了公司內所知識活動所產生之經驗，並持續學習且逐漸更新公司內之知識資產，形成一知識

(20)

螺旋，將公司之知識資產逐漸之增大，此種知識活動也可稱為經驗學習(Lessons-Learned, LL)。

透過經驗學習之活動，公司同仁能夠學習到其他同仁過去成功之經驗，且於未來發生類似情況時，公司同仁即能透過此經驗順利的解決問題。

本研究透過回顧過去相關之文獻後，配合對象顧問公司之活動型態，將其公司內之知識活動，建立一套經驗學習之機制，將公司之經驗有效的儲存且再學習利用。

新墨西哥大學的 Deborah Fisher 學者等，於 1998 年時整理出一本報告，報告中彙整了相當豐富之經驗學習相關之流程、模組、參考案例等。以 Motorola 公司為例，其學習修正規劃之流程分三步驟，

首先進行計畫，第二步執行計畫、第三步則是分析成果與包裝，流程如圖2.4 所示[9]：

圖2.4 Motorola公司進行LL之流程資料來源：引用自[9]

以Martin-Marietta 公司為例，其進行 LL 計畫之流程則分為四步驟，分別為：1.教育員工對 LL 之認知與瞭解；2.建立經驗學習文件；

(21)

3.使用經驗學習文件使其產生價值；4.更新儲存新的知識文件[9]。

Russell et al. [9]學者提出施工性改善(Constructability)與經驗學習之相關探討，施工性原則是透過建立基本參考原則，相關同仁於計畫階段即可透過這些參考原則，來找出並預防進入施工階段後可能發之問題。施工性原則之建立也是經驗之累積，由過去計畫、設計甚至包含整個專案執行曾經發生過之問題，經由前人的記憶儲存下來，再透過討論與分析歸納出 17 項基本施工性原則，此原則經有可擴充性，

可一人事時地物之差異另行增加適合之原則，但這些擴充之原則若無經過經驗學習，是無法順利之產生的。

以組織層面來說，透過系統化的獲取知識、分享知識管道，能有效的進行經驗學習之活動。組織規模較個體大，且有足夠之人力與經濟力發展知識管理系統，建立一個共通之平台能夠提供組織內所有成員進行知識活動，所產生之知識價值也將遠高於一對一或一對多的經 驗傳授。

Stewart 學者認為經驗學習是能夠未來在類似工作最初時就能作為指南、要訣。Secchi 、Ciaschi 認為經驗學習是瞭解或由經驗獲取知識。經驗也許是正面的，是一個成功的測試或使命，是主要的來源之一；也有可能是負面，是在不幸事故或失敗中得到經驗[9]。

表 2.1 整理出一些在知識管理上產物比較，可得知經驗學習是起源於經驗，並同時有描述到成功與失敗之部分，與其他知識管理產物只主要針對成功或失敗部分其中一種，所以可參考性較不佳。

(22)

表2.1 相關知識管理產物比較[9]

知識產物是否起源於經驗?

描述一個完整過程?

描述失敗? 描述成功? 取向

經驗學習是否是是組織

事故報告是否是否組織

警戒是否是否產業

公司記憶可能可能是是組織

最佳的實踐

可能是否是產業

一般經驗學習的過程(圖 2.4)是將組織成員經過收集至一經驗學習中心或平台後，經過各知識領域專家確認之後將資料儲存至經驗學習資料庫，提供回饋給組織成員查詢以及再使用更新智慧資產[9]。

圖2.5 一般經驗學習過程[9]

2.2.2 經驗學習相關系統

經驗學習系統的目標是獲取和提供一個相似的情況的經驗，當遇到類似之情況時。本節所回顧之系統，主要都是應用於施工性改善為

(23)

目的，其主要精神也是利用經驗學習之概念，將過去成功或失敗之案例紀錄，透過系統做搜尋、再利用、更新就有資料，茲介紹如下:

一、 ACTS (Advanced Construction Technology System)

ACTS 系統是由美國密西根大學 Ioannou 等人所研發[10]，

ACTS 基本上是一個施工技術的資料庫查詢系統，提供設計及施工規劃人員在設計及工程規劃階段選擇最適當工法以提昇施工可行性之工具。

二、 ACoRS (Automated Constructability Review System)

ACoRS 是日本大林組(Obayashi)委託美國普渡大學(Purdue Univ.) Skibniewsk 教授所研發之自動化施工性檢核系統[11]。其系統主要目的在分析大林組所研發的新工法於實際工程應用上之效益。

三、 HCS (INDOT) (Hypermedia Constructability System， Indiana Department of Transportation)

HCS 系統是美國印第安那州政府交通局委託普渡大學 McCullouch 教授所研發的多媒體施工性知識庫查詢系統[12]，

其主要功能是提供印第安那州政府交通局官員、設計單位以及施工包商查詢公路施工之相關工法。

四、 CLLD & IKIS (Constructability Lessons Learned Database &

Integrated

Knowledge-Intensive System)CLLD & IKIS 系統是由 Kartam 等人所研發之施工性經驗學習知識庫系統[13, 14]。其目的是建立一簡明扼要且分類完整之中央集中式施工性知識庫，

以提供營造商施工性知識之查詢。

五、 AEPIC (Architecture and Engineering Performance Information Center)

(24)

AEPIC 是馬里蘭大學 Loss 等人所展發有關建築、土木及設施工程之失敗記錄資料中心[14]。其主要目的在於提供一個工程失敗案例資訊的交流管道，讓經驗能夠累積並應用至未來工程，以避免類似失敗發生。

六、 OLRL (On-Line Reference Library)

OLRL 是美國貝泰公司(Bechtel Inc.)所研發完成，用以減少工程人員在查詢搜索參考手冊(Reference Manuals)時耗費之時間。

七、 CEIS (Civil Engineering Information System)

CEIS 是日本鹿島建設(Kajima Corp.)所開發出來，用以儲存先進營建工法相關資訊的電腦系統[13]。

Aha、Weber 學者指出經驗學習系統是普遍存在的，現有的系統通常建立使用於經驗傳播、支等級制度的瀏覽和鍵盤檢索變形的獨立檢索工具。

經驗學習過程目前研究的最為仔細的應該算美國Construction Industry Institute's Modeling LL Research Team，他們調查了2400個組織，描述了145 個最初的反應以及描述了50 個LL之過程，後續持續詳細的調查25 組織。並在1999年時提出一本報告，內容對於經驗學習定義、系統也做了介紹，同時也介紹了一些組織在應用經驗學習的觀念在執行施工性改善或生產品質提升(如NEC等公司)[16]。

2.2.3 經驗學習系統概念

Jone 提出顧客導向之 LL 系統(Clinet-Orient LL systems)之概念 [9]，就商業面來說，顧客是有著相當高的重要性，因此公司所推出之產品若能配合顧客喜好等資料，逐漸的透過經驗來分析顧客之購買導向，來推出適合之產品。

(25)

此系統由 Decision Systems,Inc., Longview, Texas and the Los Alamos National Laboratory, New Mexico 共同發展。

有關經驗學習，已發展出數個可供使用之工具。如表2.2[9]：

表2.2 過去相關LL工具及提出者整理

年度工具提出之專家

1 1994 Prometheus Model Visaggio

2 1993 Decision Support System for Delay Analysis

(DAS) Yates

3 1993 AdvancedConstructionTechnologySystem(ACTS) Ioannou

4 1993 Constructability LL for Infrastructure

Rehabilitation( CL IR)

²

Vanegas

5 1993 Computerized Daily Site Reporting Russell

6 1990 Expert Systems Gatton et al.

7 1993 CDC’S WONDER Friede et al.

資料來源：引用自[9]

2.2.4 CII 於經驗學習之研究

美國營建產業研究中心(Construction Industry Institute, CII)對於 LL 方面之有著相當程度研究除歸納出多本之報告、成果[16]，還將過去相關之資料彙集成一體，將LL 於專案各階段需進行或可參考之經驗，建立了LLP -Wizard 軟體之方式呈現使用者，其中包含三部分，

分別有 LL 參考流程架構、建立 LL 資料庫以及改進學習之步驟，透過 LL 參考流程架構，規劃出符合對象顧問公司知識活動之 LL 建立流程，同時將LL 資料庫所需之內容，配合對象顧問公司之 SOS 系統以及社群活動之類型，建立出經驗學習樣版(Lessons-Learned Templet, LLT)[17]。LLP-Wizard 系統如圖 2.6 至圖 2.9 所示：

(26)

圖2.6 LLP-Wizard軟體介面資料來源：引用自[17]

(27)

圖2.7 LLP-Wizard軟體介面-LL參考流程圖資料來源：引用自[17]

(28)

圖2.8 LLP-Wizard軟體介面-LL資料庫資料來源：引用自[17]

(29)

圖2.9 LLP-Wizard軟體介面-LL改進學習步驟資料來源：引用自[17]

2.2.5 LL 系統相關研究

目前輔助LL 過程之軟體以發展數套，茲彙整成表 2.3、表 2.4 作為比較，比較如下：

(30)

表2.3 LL相關軟體之之比較

Data Retrieval No Software

Item (version)

Platform Application Data

Organization Keywords text Word – Whole Chronological Theme Project-wise

1 Lotus Notes (4.0)

Windows, UNIX, Macintosh

Collection, Formal and informal dissemination

Directory hierarchy of the operating System

◎ ◎ ◎ - ◎

2 Process - Book

PC,

Windows3.*,Macintosh

Cololection, Some analysis, Implementation

Directory structure of the operating System

◎ ◎ - ◎ ◎

3 REASON Windows3.* Root Cause analysis

Directory structure (Nodatabase facility)

N/A N/A N/A N/A N/A

4 Teamflow Windows3.* Process Revision

Windows directory structure - - - - ◎

5 QuestMap Windows3.*

Windows95 Novell Netware

Collection, (Informal knowledge)

Interface creastes a on-line conversation.

The map can be stored in dos directory hierarchy

N/A N/A N/A N/A N/A

(31)

表2.3 LL相關軟體之之比較(續)

Data Accessibility Data Presentationj No Software Item

(version)

Cost

Portability to other platforms Network Support

Audio Images Video Hypertet

1 Lotus Notes (4.0)

One server license $275 One client license $275

◎ ◎ ◎ ◎

2 Process -Book $5900 ◎ ◎ ◎ ◎ ◎

3 REASON $1125 ◎ Possible ◎ Possible

4 Teamflow Individual

license $295 Five network license $1350

◎ N/A ◎ N/A N/A

5 QuestMap Single

license $895 25-pack $8750

◎ ◎ ◎

(32)

以適用性來說，ProcessBook 較適合應用於顧問業，除了可對應網路工作等，能夠支援之檔案格式也較豐富，礙於因此需額外購買以及考量一般公司既有之 KMS 整合之考量，本研究將參考 CII 所整理之LL 相關內容與格式，以修正既有內容規劃一經驗學習範本。

Rosina [9]提出了建築產業於 LL 之應用研究，其中提到相關之管理支援系統，流程如圖2.10 所示，該支援系統同樣累積過去之案例，

當使用者提出 INPUT，支援系統將會提出適合之 OUTPUT，此模式類似於LLW 之規劃，能夠將對象顧問公司之 SOS 系統最有知識價值之經驗學習檔案LLF 儲存。

圖2.10 LL管理支援系統流程資料來源：引用自[9]

2.3 小結

知識已普遍存在於各產業，善於利用對於提升員工知識、組織競

(33)

爭力將有相當幫助。同時若透過知識管理系統可輔助組織同仁進行有效率的知識之管理與擷取。

經驗學習已是將知識與過去經驗結合後形成之更進一步更具有知識價值之內容。對營建業來說，經驗學習為回顧過去重要成果之介面。

結合經驗學習與知識管理系統對於可有效協助營建業執行新計畫或學習前人之經驗。

(34)

第三章資料探勘技術

文字探勘於目前來說已有廣泛之研究與應用，傳統文字探勘架構主要於前置之文字收集作業完成後，分為兩階段對文件進行處理，分別為文字處理階段與文字探勘階段，如圖3.1 所示[18]：

一、文字處理階段：主要對於文字作預先處裡，包括文字辨識、無用字去除、字源合併、詞彙擷取與統計、關鍵字辨識等。

二、文字探勘階段：主要對於文字處理階段結束之後，以文字探勘技術為基礎，依照需求選擇進行自動摘要、分類、群集、關聯規則分析、概念地圖等方式呈現資料。

(35)

文字

語彙辭庫

文字辨識

無用字去除

字源合併

詞彙擷取與頻率統計

文字處理階段

文字探勘階段文字探勘

分群分類關聯規則

分析摘要概念地圖

結果分析

文字收集

圖3.1 傳統文字探勘架構[18]

其中自動摘要之部分於營建業上之應用較為不甚廣泛，本章節將針對摘要技術之部分進回顧，以探討出營建業知識管理是否引用摘

(36)

要技術於自動產生經驗學習檔案。

3.1 摘要之類型

現有文件資料等主要可分為結構化(structural)資料、非結構化 (non-structural)資料以及介於其中的半結構化(semi- structural)資料 [19]

結構化資料以資料庫之觀點來說，即為依據「資料綱要」建置之資料，被分門別類的建置於資料庫，使用者可依類別去搜尋資料 [19]。主要常用的方法為資料探勘技術，針對存在資料庫中的結構化資料做分析，處理特殊的特徵(pattern)及有限的資料集合。傳統的資料探勘技術主要是從一群資料中發掘有用的資訊或知識，而處理的對象是大型資料庫中的資料。相關的研究領域有：知識萃取(knowledge extraction)、資訊發現(information discovery)、資訊獲取(information harvesting)、資料考古(data archeology)與資料特徵處理(data pattern processing)[20]等。

非結構化資料即為一般普遍所見之文件等皆為此類型，同樣文件內容會依因撰寫者習慣不同而產生出可能截然不同之文章，此類資料較無既定之規律[19]。

對於非結構化資料與半結構化資料所採用之技術則為文字探勘 (Text Mining)，主要是針對半結構或非結構的文件資料做分析，能有效的處理以文件模式存放的大量資料，發掘在文件資訊中潛藏的珍貴知識，不受特殊格式的限制[20]。

摘要為文字探勘的其中一種方法，目的是作為文件之重點內容提示，透過一定之字數將原本內容所要描述之訊息整理出來，根據文件摘要所要所要達成目的其類型可分為指示性摘要、訊息性摘要、評論性摘要、摘錄[21, 22]：

(37)

一、指示性摘要(Indicative Abstract)：提示使用者該文件的存在，並提供使用者足夠資訊，使其能決定是否需要閱讀其原始文件。具有宣示、篩檢、回溯功能。

二、資訊性摘要(Informative Abstract)：提供豐富的內容資訊，有時甚至可以取代具有取代、回溯功能。

三、評論性摘要(Critical Abstract)：以摘要的型式對原始文件作一個評論。具有回溯功能。

四、摘錄(Extract)：直接由原始文件之字句中，選取提供事實資料的文句、段落等，其可能是指示性或資料性的性質。

具有宣示、篩檢、取代、回溯功能。

上述各摘要類型具有之功能說明如下：宣示功能：是宣示原始文件的存在性；篩檢功能：判斷原始文件的相關性；取代功能：取代原始文件；回溯功能：查詢原始文件。

另外對於摘要之長度，研究報告、專論，以 250 字為佳；附錄、

簡訊性質，以100 字為佳；社論、讀者來函，只需 1 個句子即可；技術報告、學位論文，以500 字為限[21]。

3.2 文字探勘

文字探勘亦可稱為文字知識發掘(Knowledge Discovery from Text, KDT)或是文件資訊探勘(Document Information Mining)，其過程目的在從大型資料集合(Data Sets)中找出隱含的、未知的與具有潛在價值的資訊[22]。

Fayyad[23]認為資料庫知識發掘是由資料中發現並確認有效、未

(38)

知、並且具有使用潛力趨勢的一個過程，而資料探勘是資料庫知識發掘最特殊的一個步驟，它可以運用某些特殊的演算法取出資料中的特徵與模型。

Brachman et al.[24]認為知識發掘所有活動及過程，是為了從資料中找到有用的樣式，其中包括運用資料探勘的演算法，以及對於知識的再次處理，並找到解決問題的關鍵原因。

Han et al.[25]也同樣認為資料探勘為資料庫知識發掘中的一個步驟。並指出資料庫知識發掘過程包括資料清理(Data Cleaning)、資料整合(Data Integration)、資料選擇(Data Selection)、資料轉換(Data Transformation) 、資料探勘 (Data Mining) 、樣式評估 (Pattern Evaluation)、知識呈現(Knowledge Presentation)等七個步驟，如圖 3.2 各步驟之意義說明如下：

一、資料清理：將錯誤、不完整或矛盾的資料去除。

二、資料整合：整合多種資料來源。

三、資料選擇：從資料庫中選取欲分析的資料。

四、資料轉換：透過加總或是程式的方法將資料轉換成適當的格式，

以便進行資料探勘。

五、資料探勘：應用統計或是演算方法萃取出資料的樣式。

六、樣式評估：根據各種標準進行樣式評估，並確認使用者真正感興趣的樣式。

七、知識呈現：將資料探勘的結果以視覺化、統計圖表或是規則的知識呈現技術提供使用者參考。

(39)

圖 3.2 資料庫知識發掘(Knowledge Discovery in Database)步驟資料來源：引用自[25]

Dörre 即指出文字探勘具有兩個主要困難點：(1)人工進行多樣且大量的文件特徵選擇，缺乏效率且不符成本。(2)文件資料的內容維度過多，特徵的屬性不易清楚定義或界定。因此，相較於資料庫探勘，

文字探勘需要加上額外的資料選擇處理程序，以及複雜的特徵擷取步驟[26]。

曾元顯也指出文字探勘所考量之因素、面臨的挑戰：(1)要能觸

(40)

裡大量資料；(2)要能快速回應，提供互動性；(3)多面向、多維度的分析；(4)高階、視覺化的使用介面[27]。

3.3 資訊檢索(Information Retrieval) 3.3.1 資訊檢索簡介

利用電腦科技協助分類管理、儲存、搜尋、過濾大量的電子資訊，

就是所稱的資訊檢索技術(Information Retrieval)。資訊檢索(IR)是與資料庫系統平行發展了很多年的一個領域。與資料庫系統不同，資訊檢索研究的主要不是結構資料的查詢和交易處理的問題，而是研究大量文本文件的資訊組織和檢索。典型的資訊檢索問題是根據使用者的輸入(如關鍵字或樣例文件)來定位尋找出相關的文件檔案，例如線上圖書館目錄系統和線上文件檔案管理系統。

目前常用的資訊檢索模式主要可分為三大類，包括布林模型 (Boolean Model)、向量模型(Vector Model)及機率模型(Probability Model)[28, 29]。三種模式之說明如下：

一、布林模型：其主要是在速度快、檢索者可完全控制檢索過程，並預測檢所結果。其運算之結果沒有依照符合程度排序，使用者較不易表達查詢條件較複雜之情況。

二、向量模型：轉換文件及查詢語句到向量空間後比對相似度，常用餘弦夾角(cosine)，可允許使用者輸入任何字串，查詢時不受資料誤植、錯字、冗字的限制。向量模型又可稱為「近似字串查詢」、「容錯查詢」、「模糊搜尋」、

「近似自然語言查詢」或「自然語言查詢」。

三、機率模型：將查詢詞彙與相關文件的不確定性，以機率描述並加以運算，亦可作到向量模式的查詢效果，與向量模式

(41)

的不同點在於基本假設與運算模式。

整體來說三種模式中，向量空間模式較易使用，其優點主要有下列三項：

一、藉由權重值的給定，其檢索效能大幅勝過了布林檢索正確率。

二、它提供了部份比對的機制，可將分佈情形最相近的文件檢索出來。

三、藉由相似度的運算，可得到依相似程度排名的結果。

另外對於資訊檢索來說，目前皆會存在著幾個問題[27]：

一、字串不匹配；

二、使用者需求差異甚大；

三、領域需求差異大；

四、資料本身不一致、不乾淨，檔案格式差異大；

五、文件格式、資訊架構、作業環境的差異影響。

3.3.2 資訊檢索相關技術簡介

資訊檢索技術研究包括關鍵字擷取(Keyword Extraction)、全文資訊檢索(Full-Text Information Searching)、文件自動分類(Document Classification)以及文件自動摘要(Text Summarization)相關技術等，將於本節加以說明。

一、關鍵字擷取(Keyword)

「關鍵字擷取」是一種辨認有意義且具代表性片語或詞彙的自動化技術。而在自然語言的研究領域中，將此問題定義為「斷詞」。運用關鍵字擷取的目的乃希望能夠更精準、更有效率之搜尋機制，將此搜尋機制所搜尋之資訊回饋給使用者。

關鍵字擷取的方法主要可分為人工解析、自動化解析與自然語言處理等三種方式[30]。

(42)

二、全文資訊檢索(Full-Text Information Searching)

早期的全文資料庫經常藉由已有的資料庫，配以全文檔案所組成，他們把全文中與檢索相關的屬性(Attribute)資料或關鍵字 (Keywords)利用人工或電腦程式整理出來，並利用資料庫管理系統建立為欄位化的資料庫，在此資料庫中以指標(Pointers)指向相關原文的檔案中的地址，故其設計主要是以書目資料庫的模式為基礎發展而來，因此全文資料庫的檢索方式和傳統的資料庫一樣，只是多提供了參閱原文的機會而已。由於從原文中摘出檢索所需的屬性或關鍵字，存在許多與語文相關的技術㆖的困難，例如：同義字、同形異義字、相關字等，因此必須由各種專家建立索引典等權威工具對詞彙加以控制，以做為處理資料及檢索資料的依據。

此作法即牽涉到索引法(Indexing)中的內容分析與選定所引用語的工作，換言之必先整理詞彙，由詞彙做主要的查詢控制，如此只要文獻增加而使用詞彙變化時，資料庫的索引必須全部更新，引起系統維護方面的龐大負擔。

三、文件自動分類(Document Classification)

文件檔案自動分類是一種重要的本文探勘工作，因為現存大量的線上文件檔案，要自動將其加以組織成不同類別，以便能進一步提供給文本檢索與後續分析使用，雖然這是一必要的工作但此卻是很煩人的。

一般進行自動文件檔案分類的做法如下：首先把一組預先分類過的文件檔案做為訓練集。然後對訓練集進行分析以便得出分類模式。這種分類模式通常需要一定的測試過程，不斷地細化。

(43)

然後再用這些導出的分類模式對其他線上文件檔案加以分類。

這一處理過程與關聯資料的分類相似。但他們還是存在著本質上的不同。關聯資料是結構化的，每個元組定義為一組屬性- 值對。例如：在元組{sunny, warm, dry, not-windy, play_tennis}中值“sunny”對應屬性weather_outlook，“warm”對應屬性temperature 等等。分類分析會判斷哪一個屬性-值對再決定一個人是否要打網球這件事情上，是具有最大影響力的。文件檔案資料庫則不是結構化的，它沒屬性-值對的結構。與一組文件檔案相關的關鍵字並不能用一組屬性或維度來組織。因此，通常關聯資料導向的分類方法，如決策樹分析，並不能使用來對文件檔案資料庫作分類。

對文件檔案分類的一個有效的方法是association-based classification(基於關聯的分類)，它是基於一組關聯的、經常出現的文本模式來對文件檔案加以分類。基於關聯的分類方法處理過程如下：首先，透過簡單的資訊檢索技術和簡單的關聯分析技術來找出關鍵字和辭彙。其次，使用已經有的詞類，如WordNet，

或基於專家知識，或使用某些關鍵字分類系統，可以生成關鍵字和詞的概念階層。訓練集中的文件也可以分類為類別階層。然後，詞關聯探勘方法可用在一組被發現的關聯詞上，此關聯詞可以最大化地區分一類文件檔案與另一文件檔案。這導致了對每一文件檔案，會有一組對應的關聯規則。這些分類規則可以根據其出現頻率和辨識能力，來加以排序，並用來對新文件檔案的分類上。此基於關聯的文件檔案分類方法已經證明是有效的。

四、文件自動摘要(Text Summarization)

大量的資訊文件充斥於現今社會，使用者必需透過文件摘要

(44)

的方法，快速並有效率的找出自己所想要的資訊文件。以往使用者可能透過資訊檢索、關鍵字搜尋等等方法來檢視所搜尋出來的文章是否符合本身需求，但依據使用者所輸入的條件找出的文件，並不能完全正確的找到符合使用者所要的資訊文件。因此，

若能透過文件摘要的技術，找出具代表整篇文件的關鍵字詞，勢必能提高符合使用者欲查閱文件的正確率。

自動化文件摘要的研究從1950年開始，就已經有國外學者開始在研究，至今已有一段歷史。Luhn H. P.[31]最早開始於文字探勘技術研究，他是利用統計的方法，以字詞的出現頻率和字詞的正規化的方法來找出文件摘要。

而過去文件摘要的技術主要都是著重於英文文件摘要方面的研究，有鑑於英文文件與中文文件特性─比如關鍵詞的斷詞、

語句切割、特徵值計算方式的不同等，如果要將英文文件摘要的方法套用到中文文件摘要上，是必要英文文件的摘要方法有所修正。

自動化摘要方法之相關技術，分別於下列3.4節到3.6節詳加介紹。

3.4 以語料庫為基礎的文件摘要方法(Corpus-based Approaches)

不同類型的文件，有其不同的寫作方式及專有用詞等特性的不同，最後所產生的摘要形式也應有所差異。以營建業來說，營建業的文件所注重的摘要重點不外乎「成本」、「進度」、「品質」三大項目，

而新聞文件注重的是給閱讀者概觀性的敘述。

以語料庫為基礎的文件摘要技術在文件摘要上扮演著一個重要的角色。透過機器學習的方法，使其可以從文件的內容學習其中的規

(45)

則使系統能找出符合我們需要的摘要。國外學者 Kupiec 將以語料庫為基礎的自動化摘要技術的流程分為兩個階段(圖 3.3)[32]：

一、訓練階段：使用者必需輸入事先由人工標示好摘要的訓練語料庫，具有學習能力的摘要系統會自動從每篇訓練語料庫其對應的摘要中擷取出具有代表性的特徵，接著參考相關的領域知識，並選擇適當的學習演算法來產生相對應的摘要規則。

二、測試階段：輸入同類型的文件(與訓練階段不同的文件)，系統根據學習得之摘要規則擷取出相關的特徵，並套用摘要規則產生屬於該測試文件的摘要。

(46)

圖3.3 以語料庫為基礎的自動摘要技術系統概觀資料來源：參考自[32]

Kupiec[32]並於 1995 年提出利用貝氏定理(Bayesian classifiers)應用於以語料庫為基礎的文件摘要法中，用以計算出每個語句的權重 值。假設每一個語句 s 是測試文件 S 中的任一個語句，而F₁到

F

_k是系統用以衡量語句重要性的k 個不同的特徵，那麼語句 s 屬於摘要的機 率如方程式3-1：

( )

) ,...F F , P(F

) )P(

,...F F , ,..., P(F

, P

k 2 1

k 2 1 2

1

S s S F s

F F S

s

_k

∈ ∈

=

∈

(3.1)

若每個特徵都是獨立事件的話，則方程式1 可簡化為方程式 3-2：

( ) ( ) ⁽ ⁾

∏ ( )

∏

=

∈ ∈

=

∈

_k

j j

k

j j

k

P F

S s P S s F P F

F S s

1 1

2 1

, ,..., F

P

(3.2)

其中：

(

^s∈^S

)

P 、P

(

F_j s∈S

)

、

P ( ) F

j ：是在訓練階段時由訓練語料庫計算得知；

) ( s S

P ∈

：代表訓練語料庫中每個語句屬於摘要的機率，為一常數值；

(47)

(

^F ^s ^S

)

P _j ∈ ：代表當語句s 屬於摘要的情形時，

F

_j出現在摘要中的條件機率；

( )

Fj

P ：代表訓練語料庫中，特徵

F

_j的分佈機率。

其他相關詳細公式如方程式3-3、方程式 3-4 和方程式 3-5：

( ) ( )

( sentence in summary )

F feature has

and summary

in sentence S

s

^j

j

#

, F #

P ∈ =

(3.3)

Eq.3-3：當 s 屬於摘要的情形下，Fj 出現在摘要中的條件機率

( ) ( )

( sentence in training corpus )

#

F feature has

and , corpus training

in sentence

#

_j

j

= F

P

(3.4)

Eq.3-4：訓練語料庫中，特徵 Fj 的分佈機率

( ) ( )

) (

# P #

corpus training

in sentence

summary in

sentence S

s ∈ =

(3.5)

Eq.3-5：訓練語料庫中，摘要語句的分佈機率

Kupiec 於其實作的系統中，用來判斷語句重要性的特徵主要為下列幾項：

一、語句長度(Sentence Length)

語句的長短常會涉及到所涵蓋資訊量的多寡，較長的語句所包含的資訊通常比較短的語句所含的資訊量來得豐富。Kupiec 等人認為語句的長度至少必須要5 個字才能屬於摘要。

二、提示片語(Fixed-Phrase)

文件中常用的提示片語，如”in summary”以及”in conclusion”

等等，這些片語往往會出現在介紹或總結主題敘述的語句中。他們認為文件中的語句如果包含這些常用的提示性片語，那麼該語

(48)

句便有極高的可能性是屬於摘要。

三、段落位置(Paragraph)

他們將文件分為 paragraph- initial、paragraph-medial 以及 paragraph- final 等三個部分；並認為出現在 paragraph- initial 以及 paragraph- final 這兩個部份的語句，通常都是帶出主題或是總結主題的語句，所以，落於這兩個部份的語句具有較高的重要性。

四、主題字詞(Thematic Words)

一篇文件中，如果某個關鍵字重複出現許多次，則這篇文件的主題極可能與此關鍵字有關。他們認為擁有愈多出現頻率越高的關鍵詞的語句，愈有可能是屬於文件的摘要中。

五、大寫字詞(Uppercase Words)

他們認為文件中大寫(Uppercase)的字詞或是特殊的專有名詞 (Proper Nouns)具有較高的重要性，因此擁有愈多大寫字詞或專有名詞的語句便愈可能屬於文件摘要。

Kupiec等人於這篇研究中有兩個最重要的結論：

一、雖然使用上述五個特徵當作語句重要性的計算依據，但是，

實驗的結果顯示，若只考慮Paragraph 、 Fix-Phrase 以及 Sentence Length 的組合所得到的結果最佳。

二、文件摘要的壓縮比會影響到自動摘要系統結果的正確率。從圖3.4中可知，當摘要系統所摘要出來的語句數目越多的話 (代表壓縮比越高)，所得到的正確率就越高。

(49)

圖3.4 壓縮比對摘要系統正確率的影響資料來源：參考自[32]

3.5 以文件關聯為基礎的文件摘要方法(Text Relationship Approaches)

主題關係地圖(Text Relationship Map)由自動主題連結(Automatic Text Link)的研究延伸而來的。自動主題連結原本用在建構文件集中文件間之關聯，作法上將每篇文件以關鍵字詞的向量表示法表示，並計算所有文件兩兩間之相似度(Similarity)；如果相似度大於系統內定的臨界值時，表示這兩篇文件具有相似的連結關係(Semantic Related Link)。依此原則可以建構出所有文件間之關係地圖。

(50)

圖3.5 Text Relationship Map範例資料來源：參考自[33]

舉例來說，圖3.5中編號17012 及17016 的文章，二者的相似程度約0.57，大於臨界值0.01，所以存在連結關係；而8907 與22387 這兩篇文章的相似度則因為低於臨界值，所以在Text Relationship Map 中並沒有連結存在。具有連結的文章，即是具有關聯性。

Salton 等人[33]將 Text Relationship Map 的概念應用在文件摘要的研究上，並提出一個以段落(Paragraph)為摘錄單位的文件摘要系統。對於輸入的文件，以每個段落為單位計算兩兩段落間之相似度，

建構Paragraph Relationship Map。他們認為若某個段落與其他段落的連結數愈多，則代表該段落和整篇文章主題的相關性愈高。根據這個想法，連結數目愈多的段落則愈重要。

至於根據Paragraph Relationship Map來產生摘要，作法上分為兩個步驟。第一是判斷Text Relationship Map中每個段落的重要性；第二，

根據Text Relationship Map中的連結數目來決定摘錄段落的先後順序。他們提出以下三種方法[33, 34, 35]：

一、Global Bushy Path

(51)

Global Bushy Path是依各個段落與其他段落連結的多寡排序，擷取排行在前的數段用以組合成摘要。

首先定義Text Relationship Map上任一節點的Bushiness為該節點與其他節點間的連結數目，擁有越多關聯連結的節點，表示該段落與其他段落的寫作與用字方式相似，並且討論的主題也相似，因此，該段落視為討論文件主題的段落。Global Bushy Path 乃是將段落依照原本出現在文件中的順序以及其連結個數由大而小的排列結果。

定義Global Bushy Path之後，只要從Global Bushy Path中挑選排名最前面的K個段落(Top K)，即可當作該文件的摘要。此方法所摘錄出來的段落雖然涵蓋整篇文件所要表達的涵義，但是可能發生段落間語意不連續的問題，導致摘要的可閱讀性(Readability) 降低；也就是說，所挑選出來的摘要中連續兩個段落雖然都是很重要的段落，但是所描述的事情可能截然不同。

二、Depth- first Path

Depth-First Path，是由連結點最多的段落開始往下延伸，以擷取所有相關連的段落。

此方法可避免Global Bushy Path的問題。首先選取一個節點，

可能是第一個節點或是具有最多連結的節點，接著每次選取在原始文件中順序與該節點最接近且與該節點相似度最高的節點當作下一個節點，依此原則選取出重要而且連續的段落以形成文件摘要。

這個方法挑選重要段落的時候也一併考慮到原始文件中的段落順序與關聯，因此可以避免類似Global Bushy Path的問題，同時使摘要的一致性(Coherence)與可閱讀性提高。然而，其最大的

(52)

問題在於摘要內容的一致性提高，並不見得能夠涵蓋原始文件中所有主題與概念，原因乃是摘要的大小是固定的，為了要使摘要內容的連貫性提高，勢必要選取重複敘述的段落，如此便會造成篇幅的不足，而導致摘要內容的不完整。

三、Segmented Bushy Path

以上兩個方法共同的問題在於沒有考慮到文件的內容架構，

舉例來說，根據文件的起承轉合，文件的內容可分為幾個不同的結構，如Introduction、Main Them以及Conclusion等等；如果套用上述的方法來挑選段落，很容易忽略掉屬於不同結構，但是重要性同樣很高的段落，最後導致摘要內容的完整性不足。Segmented Bush Path可用來解決上述的問題。Segmented bushy path，即針對內文中每一個可明顯分區的區塊(segment)無論連結點多寡，都一一以Global Bushy Path的方式選取在區塊中最多連結點的段落

Segmented Bushy Path分為兩個步驟：

Step1：文件結構的切割(Text Segmentation)，也就是分析文件

內容並將文件內容切割成幾個具有代表的結構。Text Segmentation利用Paragraph Relationship Map來分析文章的結構，圖3.6的左半很明顯地發現Map上幾個節點之連結數目近乎相同，而形成可以分割的區段，其分割的結果如圖右半部，共分割成5個結構。

Step2：針對每個Segmentation個別利用Global Bushy Path來選

取重要的段落。為了保留每個Segmentation的涵義，每個Segmentation至少要挑選出一個段落納入最後的摘要。這樣做的

好處是摘要可以涵蓋不同的主題，並使其完整性提高。

(53)

圖3.6 Paragraph Relationship Map與其對應的Text Segmentation 資料來源：參考自[33]

Kupiec 等人將以上三種方法的特性整理如表 3.1 所示[32]：

表3.1 Global Bushy Path, Depth-first Path與Segmented Bushy Path比較 Importance of initial

paragraph

Coherence/

comprehensiveness Global

bushy path

Usually starts with

important early paragraph

Not coherent because adjacent

paragraphs may be unrelated

Segmented bushy path

May lose important first paragraph because of need to include material from other segments

Not coherent but more comprehensive than global central path

Depth-first path

Starts with important first paragraph

Not comprehensive but more coherent than central paths, may be specialized to important subtopic 資料來源：參考自[32]

另一位學者Kim[36]認為若將每個連結的權重(語句的相似度)納

(54)

入考慮，可產生更好的摘要，因此，他們提出一個以Aggregate Similarity計算每個語句重要性的方法。

圖3.7 計算Aggregate Similarity的概念圖示資料來源：參考自[36]

圖3.7是Aggregate Similarity的概念圖示。圖中的每個節點代表的是文件中某個語句的關鍵詞向量表示法，每個連結代表兩個語句間的相似度，任兩個語句的相似度即是計算相對應向量間的內積值，詳細的計算方法如方程式3-6：

( ) ∑

=

ⁿ

k

k j k

i

s

s j

i sim

1 ,

*

,

(3.6)

Eq.3-6： Si, Sj 相似度的計算方式

其中n表示出現在整份文件中相異的名詞個數，Si 可以

(

S

_i_,₁

, S

_i_,₂

,..., S

_i_,_n)表示，

S

_i_,_k 是名詞

N

_k在語句Si 中出現的頻率。Si 的 Aggregate Similarity的計算方式如方程式3-7：

( ) ∑ ( )

=

= ⁿ

j

j i sim i

asim

1

,

, j ≠ i (3.7)

Eq.3-7：Si 的Aggregate Similarity 的計算方式 資料來源：參考自[36]

(55)

對於某個節點而言，Aggregate Similarity為此節點與其他節點之相似性的總和。計算每個語句的Aggregate Similarity的好處在於除了考慮到每個節點的連結個數，更考慮到每個連結的權重值。因此，

Aggregate Similarity的結果理論上會比Global Bushy Path的結果來得好。

3.6 以潛在語意(Latent Semantic)為基礎的文件摘要技術

Landauer[37]認為LSA(Latent Semantic Approach)除可作為文件的知識表示(Knowledge Representation)外，並可用來推演隱性的知識關聯；此外，LSA的知識模型與知識推演過程接近於人腦用來理解文件知識的推演與認知機制模型。

潛在語意分析(LSA) 是以數學統計為基礎的知識模型，其運作方式與跟類神經網路(Neural Net)的極為相似，不同的是類神經網路以權重的傳遞與回饋來修正本身的學習，LSA則以奇異值分解(Singular Value Decomposition, SVD)與維度約化(Dimension Reduction)為核心作為邏輯推演的方式。

LSA的應用非常廣泛，主要集中在資訊擷取、同義詞建構、字詞與文句的相關性判斷標準、文件品質優劣的判別標準及文件理解與預測等各方面的研究。

LSA 的工作原理如圖3.8所示：利用SVD 及維度約化將輸入的知識模型抽象化，整個過程除可以將隱含的語意顯現出來外，更能將原本輸入的知識模型提升到較高層次的語意層面。

(56)

圖3.8 LSA工作原理示意圖資料來源：參考自[37]

實際運作的過程中，首先將文件集(Corpus)中所有文件的 Context 用Word-by-Context 矩陣 M 來表示，矩陣中的每個元素即是某關鍵詞在某 Context 中的重要性或出現頻率。接著，將矩陣 M 經過 SVD 分解轉換得成新的矩陣乘積LSUT，亦即 M=LSUT，其中 S 代表語意空間(Semantic Space)，L 代表關鍵詞在此語意空間中的表示法，UT 則代表Context 在此語意空間中的表示法。LSA 利用維度約化可更精確地描述語意空間的維度，並重建矩陣M~M’=L’S’U’T，更明確地探究出Word-Word、Word-Context 或 Context-Context 間的關聯性。

3.7 近年相關研究

文字探勘技術之於中文文字研究於國內已進行了不少，但主要研究領域皆在於專利、圖書資料、醫藥學、人才招募以及新聞資料上。

針對營建業進行研究的，則較無再進行。只發現在台灣科技大學的曾敬峰，曾進行相關之研究。主要採用之方法是將中文資料轉換為英文後，透過較成熟之英文文字探勘技術處理，再轉換為中文後提供給使用者進行參考。相關研究文獻彙整如表3.2 所示：

(57)

表3.2 近年相關研究彙整

年度研究生論文名稱文字探勘研究領

域 91 詹培萱利用文字探勘技術進行犯罪資

料之發掘—以網路販售違禁品及網路賭博為例

網路犯罪

91 陳佳宏以自我組織圖為基礎之文字探勘技術於主題圖自動產生之研究

主題圖

91 章秉純以機器學習與文字探勘技術解整合文件分類問題

文件分類 92 蒙以亨非結構化文件中語意知識擷取

方法之設計與研究

資訊擷取 93 謝周熾專利文件比對模型之研究專利 93 鍾任明運用文字探勘於日內股價漲跌

趨勢預測之研究

財經 93 柯秀奎應用文字探勘技術於客訴留言

品質及分類管理之研究

企業管理 93 楊正銘以文字探勘技術應用於疾病分

類之輔助系統-以出入院病歷摘要為例

醫藥學

94 曾敬峰文字探勘技術在營建管理運用之探討

營建管理

94 黃國政

運用文字探勘技術於人才招募推薦

系統之研究

人力資源管理

95 何文峰網路文字探勘運用於電信業客

戶流失的研究

網路資訊 95 許勝巽利用文字探勘法建置專利地圖專利 95 顏大訓結合文字探勘與創新性問題解

決理論(TRIZ)於專利檢索之機制

專利

95 蔡欣怡使用文字探勘技術分析疾病候選基因與基因功能註解

醫藥學 95 陳淑芬運用文字探勘與貝氏網路技術

於建構基因關聯網路

生物基因 95 楊曜瑋利用文字探勘技術擷取出蛋白

質間交互作用反應

生物基因

(58)

表3.2 近年相關研究彙整(續)

年度研究生論文名稱文字探勘研究領域

95 李依蓉文字探勘結合引文連結技術建構知識來源地圖之研究

知識地圖 96 許玉青應用文字探勘技術於交通運輸

旅客意見處理之研究

交通運輸 96 童瓊慧資訊檢索結合文字探勘之應用

－以中醫婦科專題文獻資料庫為例

醫藥學

馮雅民運用文件探勘技術進行新聞報導評價分類－以網路財經新聞為例

財經

97 廖庸盛以文字探勘技術來分析光儲存產業競爭優勢

產業競爭 97 楊博文以語意結構建立專利文件分群

模型

專利 97 喻欣凱運用支援向量機與文字探勘於

股價漲跌趨勢之預測

財經資料來源：本研究彙整

3.8 小結

以一般營建業普遍之文件來說，常見之資料結構為非結構化或半結構化之資料，如結案報告或知識管理系統隻知識活動內容等。此種類型之文件適合之資訊處理技術為文字探勘。

文字探勘以需求不同可再區分為數種處理方式，自動摘要、分類、群集、關聯規則分析、概念地圖等。

三種資訊檢索模式(布林模型、向量模型及機率模型)中，向量空間模型在檢索正確率與容易使用方面皆勝於其他兩種模型。

以營建業知識活動之內容來看，可規劃進行摘要處理，讓使用者能從過去龐大之資料庫中，先由摘要之產生，讓使用者由簡短之摘要

(59)

找出所欲觀看之內容再去觀看詳細之內容。三種不同的文件摘要方法 (語料庫、文件關連與潛在語意)中，以文件關聯摘要法為基礎之摘要方法較適合擁有相當多專有名詞之營建業採用，透過專有名詞之使用可以找出新舊文件資料之相關程度提供作為參考。

透過回顧國內相關研究也可發現，目前尚無針對營建業資料進行文字探勘之處理，因此本研究則欲將對中文資料直接進行文字探勘之處理，並直接提供給使用者進行參考。

文字探勘技術應用於自動化知識管理經驗學習 系統之研究

中 華 大 學 碩 士 論 文