運用特定領域文件集合進行自我學習之知識本體增補技術

(1)

i

國立臺灣大學工學院土木工程學系碩士論文

Department of Civil Engineering College of Engineering

National Taiwan University Master Thesis

運用特定領域文件集合進行自我學習之知識本體增補技術

A Self-Learning Method for Enhancing Ontology from Domain-Specific Documents

金育暉 Yu-Huei Jin

指導教授：謝尚賢博士

Advisor: Shang-Hsien Hsieh, Ph.D.

中華民國 101 年 8 月

August, 2012

(2)

ii

(3)

iii

誌謝

在 CAE 的兩年奮鬥，終於走到了這一頁，雖然這是論文的開頭，

卻是整個碩士生活的結尾。一路走來顛顛簸簸，受到了許多人的幫助與指導，要說聲感謝的人的不計其數。而最為感謝的人則是一路給予我指導的謝尚賢老師，謝老師從我大四修學士論文開始，一路給我研究上的指導並告訴我研究上所需注意的事項。謝老師也相當關心我的生活，讓我在碩士生活中得以安心地做研究，在此深深的感謝他。而在口試時不吝給予我意見的王明德老師、郭榮欽老師、吳翌禎老師也要深深感謝，三位老師都對於我的研究給了很多有用的意見，讓這一篇論文更加完整，並感謝國科會研究計畫（NSC 100-2221-E-002 -224 -MY2）對研究經費上的補助。

同時也要感謝在研究路上一直給予我幫助的乃文學長，他讓我從一個不懂資訊檢索的學生到以資訊檢索作為研究的題目並順利的畢業，這一路有了他的指導讓我少走了許多彎路，也少做了許多無用之功。另外還要特別感謝孟涵學姊，除了對於我的研究提供了許多建議，

她還會三不五時對我在研究生活中所需要注意的事項給予提醒，也常常提供了不同的思維給我，讓我對於生活有了新的想像與想法。

(4)

iv

再來要感謝 R99 的夥伴們，蔡承諺、jacob、matthew、小古、郭品岑、劉柔君、義彬、南同學、BK、三凱、瀚嶸，我們一起奮鬥了兩年，製造了許多笑點，讓兩年生活不只有研究的苦悶，而是還有許多與你們一起分享的歡樂。而在這兩年認識的 CAE 學長學弟們也都非常感謝，像是奕竹總是被我以奇奇怪怪的問題騷擾、pattern 不斷地嗆飛我、KID 抓我去打羽球、濟華大大不斷幫我製造新的封號……等等，湘如跟銘峰也幫我解決了許多有的沒有的事情。總之在 CAE 的兩年認識了許多有趣的學長學弟學姊學妹，讓這兩年的歡樂無限。

最後要感謝高中的那群，這兩年來跟你們的每次聚會都是一種充電，讓我又有了繼續往前的動力，那群中有人的研究生活太好命，有人的研究生活太悲慘，所以我知道我不是孤獨走在這條路上的。而在那群中要特別感謝黃群凱，除了平常他的多所照應，在研究生活的最後一段路是因為有他的支持，我才能走到今天這個終點，也才有了這一頁的誕生。

(5)

v

摘要

知識本體（Ontology）是一種用來表達知識的方式，其被廣泛的應用於各種領域中。知識本體利用簡潔的方式表示該領域中所含有的知識概念以及知識概念相互之間的關係，讓知識本體可以被電腦解讀並加以使用。然而目前在建置知識本體的流程上，並未有統一的標準與方法，且在建置知識本體的過程中，需要大量領域專家的投入，並隨著領域中知識的發展，必須不斷對知識本體進行增補。因此如何以自我學習的方式來建議知識本體的增補內容，以減少領域專家人力的參與，是建置知識本體時的重要議題。

本研究的主要目的為縮短增補特定領域的知識本體內容時，所需花費的時間與人力。為此在本研究中選定「建築資訊塑模(Building Information Modeling)」領域作為研究的特定領域，由分析塑模領域的文獻開始，收集文獻中所整理的知識概念以建置塑模領域的基本知識本體，並建立該領域的文件集合，以驗證使用知識本體的資訊檢索技術之成效表現乃優於使用向量空間模型的資訊檢索技術，再針對資訊檢索的檢索結果進行知識概念擷取，來對知識本體的內容進行補充。本論文將詳述各步驟所進行之研究內容，並先透過實驗來驗證應用知識本體進行資訊檢索確實能提高資訊檢索的成效表現，再驗證經過資訊檢索技術所增補的知識本體亦能提高資訊檢索之成效。

關鍵字：知識本體、建築資訊模型、建築資訊塑模、資訊檢索

(6)

vi

ABSTRACT

Ontology, which has been widely used in different domains, concisely represents the knowledge as a set of concepts and the relations of those concepts. However, with the growth of the domain knowledge and its lack of unified standards, building and revising the ontology is not only time-consuming but also requires a large amount of manpower. For making the process more efficient, this research proposed a self-learning method to suggest the enhancement of the ontology on a specific domain.

In this research, the specific domain is focused on building information modeling (BIM). There are three steps of the research progress. First, collect concepts from the related researches as reference to build the base ontology. Then, propose an ontology-based retrieval model to improve the retrieval effectiveness. Finally, propose a methodology to extract the concepts from the ontology-based retrieval results. According to the experiment results, using the enhanced ontology to the ontology-based retrieval could improve the retrieval effectiveness.

The enhanced ontology can also help learning and sharing the domain knowledge.

Keyword: Ontology, Building Information Model, BIM, Building Information Modeling, Information Retrieval

(7)

vii

目錄

誌謝 ... iii

摘要 ...v

ABSTRACT ... vi

目錄 ... vii

圖目錄 ... ix

表目錄 ... xi

第一章緒論 ...1

1-1 研究背景與動機 ... 1

1-2 研究目的及範圍 ... 1

1-3 研究方法及步驟 ... 2

1-4 論文架構 ... 3

第二章建立特定領域之知識本體 ...5

2-1 知識本體簡介 ... 5

2-2 以特定領域之知識來源建置知識本體 ... 7

2-2-1 建築資訊塑模簡介... 8

2-2-2 收集特定領域之知識概念 ... 10

2-2-3 建立階層與關聯性... 12

2-2-4 知識本體展示 ... 15

第三章特定領域之資訊檢索 ...18

3-1 資訊檢索簡介 ... 18

3-2 建立特定領域之測試文件集 ... 20

3-2-1 選擇與準備文件 ... 21

3-2-2 定義資訊需求 ... 22

(8)

viii

3-2-3 評估文件相關度 ... 22

3-3 運用知識本體於特定領域資訊檢索之成效評估 ... 26

3-3-1 向量空間模型簡介... 26

3-3-2 以知識本體為基礎之資訊檢索方法 ... 27

3-3-3 資料檢索成效評估... 31

第四章以資訊檢索技術增補知識本體 ...33

4-1 增補知識本體之流程 ... 33

4-1-1 擷取知識概念 ... 35

4-1-2 自動化增補知識本體 ... 41

4-1-3 領域專家協助修訂... 46

4-1-4 領域知識本體 ... 46

4-1-5 系統建置與限制 ... 47

4-2 自動化增補知識本體之成效評估 ... 48

4-2-1 自動化增補知識本體流程之參數設定 ... 48

4-2-2 自動化增補知識本體展示 ... 55

第五章結論與建議 ...60

5-1 結論 ... 60

5-2 未來研究方向建議 ... 61

參考文獻 ...63

(9)

ix

圖目錄

圖 1 本研究之進行步驟 ... 3

圖 2 建置知識本體之流程[5] [6] ... 7

圖 3 BIM 基本知識本體 ... 14

圖 4 擴展後的 BIM 基本知識本體 ... 15

圖 5 中文版 BIM 基本知識本體 ... 17

圖 6 資料檢索流程圖[18] ... 19

圖 7 研討會文件掃描檔 ... 21

圖 8 測試文件集範例 ... 22

圖 9 向量空間模型資訊檢索系統 ... 27

圖 10 知識本體資訊檢索系統 ... 28

圖 11 概念分層架構 ... 29

圖 12 權重地圖 ... 30

圖 13 運用資訊檢索技術增補知識本體之流程 ... 34

圖 14 bigram 切分結果 ... 36

圖 15 trigram 切分結果 ... 36

圖 16 自動化增補知識本體之流程 ... 42

圖 17 中文版 BIM 基本知識本體 ... 43

圖 18 K=3 時，不同 N 值的平均求準率 ... 50

圖 21 N=3 時，不同 K 值的平均求準率 ... 52

(10)

x

圖 24 N=3、K=4 的平均求準率 ... 55

圖 25 第一次增補後的知識本體 ... 56

圖 26 第二次增補後的知識本體 ... 57

圖 27 第三次增補後的知識本體 ... 58

圖 28 第四次增補後的知識本體 ... 59

(11)

xi

表目錄

表 1 BIM 應用項目使用分類[11] ... 11

表 2 BIM 工具使用分類[12] ... 12

表 3 專家評估結果 ... 23

表 4 Cohen’s Kappa measure 計算結果 ... 24

表 5 overlap value 計算結果 ... 24

表 6 兩種不同資訊檢索模型的平均求準率 ... 32

表 7 文件關鍵字排名表 ... 39

表 8 知識概念關鍵字排名表 ... 44

表 9 「規劃與設計」的平均求準率 ... 49

表 10 「營運」的平均求準率 ... 49

(12)

1

1 第一章緒論

1-1 研究背景與動機

知識本體（Ontology）是一種用來表達知識的方式，其被廣泛的應用於各種領域中，如生醫領域用知識本體表達蛋白質相關知識[1]；

地球科學領域的 SWEET(Semantic Web for Earth and Environmental Terminology)計畫[2]。因為知識本體利用簡潔的方式表示該領域中所含有的知識概念與知識概念相互之間的關係，讓知識本體可以被電腦解讀並加以使用，因此在不同的專業領域上，都會有建置與使用知識本體的需求。

然而目前在建置知識本體的流程上，並未有統一的標準與方法，

且在建置知識本體的過程中，需要大量領域專家的投入。並隨著領域中知識的發展，必須不斷對知識本體進行修正。因此如何有效的以自動化的方式來進行知識本體的增補，以減少領域專家人力的參與，是建置知識本體時的重要議題。

1-2 研究目的及範圍

本研究的主要目的為縮短建置特定領域的知識本體時，所需花費的時間與人力，因此本研究提出以自動化方式從特定領域文件集合中，

擷取文件中的知識概念，進行知識本體內容增補之方法，並利用知識本體技術改善資訊檢索技術之成效表現。

本研究中選定「建築資訊塑模(Building Information Modeling)」

領域作為研究的特定領域。而在改善資訊檢索的成效表現上，則是以搜尋結果的準確率為優先考慮的準則，而不以檢索過程所耗費的時間作為評估的標準。

(13)

2

1-3 研究方法及步驟

本研究步驟如圖 1，共分為四個步驟，各步驟的內容與採用之方法如下：

1. 建置特定領域之基本知識本體

本研究由特定領域相關的文獻資料中，整理並分析該領域中的知識概念，並將這些知識概念建置成該特定領域的基本知識本體。

2. 建立特定領域測試文件集

因選用的建築資訊塑模領域，目前並無合適的測試文件集，

因此在這個步驟中先建置所需的測試文件集，以進行資訊檢索的成效評估。

3. 利用知識本體進行資訊檢索之成效評估

使用第二個步驟中所建置的測試文件集，測試以知識本體進行資訊檢索方法與一般資訊檢索方法之間的成效比較，以驗證使用知識本體技術進行資訊檢索可改善特定領域的資訊檢索成效。

4. 利用資訊檢索技術增補知識本體

利用以知識本體進行資訊檢索的檢索結果進行分析，來增補基本知識本體的內容，並將增補後的知識本體再次進行使用知識本體的資訊檢索方法。將其檢索結果與只使用基本知識本體的資訊檢索結果及未使用知識本體的資訊檢索結果進行成效比較，以驗證增補過後之知識本體確能提高資訊檢索的成效表現。

(14)

3

1-4 論文架構

本文的內容依照實作流程整理成以下章節：

第二章建立特定領域之知識本體

本章將簡介知識本體與選用的特定領域：建築資訊塑模，並說明目前知識本體於建築資訊塑模的應用以及說明本研究所使用的特定領域之基本知識本體。

第三章特定領域之資訊檢索

本章將說明如何建置特定領域之測試文件集，並利用特定領域文件集合進行以知識本體技術進行的資訊檢索，並與向量空間模型的資訊檢索方式進行成效比較。

圖 1 本研究之進行步驟

建置特定領域基本知識本體

建立特定領域測試文件集

利用知識本體進行資訊檢索成效評估

利用資訊檢索技術增補知識本體 1

2

3

4

(15)

4

第四章以資訊檢索技術增補知識本體

本章利用第三章以知識本體進行資訊檢索的檢索結果進行分析，

擷取出特定領域文件集合中的知識概念，以藉此增補知識本體中的知識概念，並利用增補後的知識本體再次進行資訊檢索並與第三章的結果進行成效比較。

第五章結論與建議

對於本研究實作與分析結果做出結論，並針對所面臨之問題提出改善之建議。

(16)

5

2 第二章建立特定領域之知識本體

2-1 知識本體簡介

知識本體為一種整理與儲存知識的方式，其定義為將一知識內容用清楚並標準化的方式「概念化」[3]，而其中「概念化」的含意為將知識內容以不失原意的方式將其內容簡化。因此使用知識本體的方式為當獲得一個知識時，將其知識內容簡化成一知識概念，接著將該知識概念跟其他原有的知識概念進行連結。此項連結可能會包含有此知識概念為另一知識概念的實例，或是此知識概念是另一知識概念的解釋，或更多不同的關聯性。利用這樣的方式，將不同知識概念進行連結。更重要的是可以藉由這樣的連結關係，去推論出兩個未有直接連結的知識概念之間的關係。而將知識本體以 OWL (Web Ontology Language)[4]的格式儲存後，就可以使電腦理解並儲存知識概念。更進一步的可以讓電腦利用知識本體的內容來進行知識概念之間的邏輯推論。

由於每個知識領域對於知識本體的運用方式不同，所以知識本體就需要依照每個知識領域的使用目的進行建置，因此在建置知識本體時的步驟就會有所不同。如圖 2 左為 Noy 與 McGuinness 對於他們所設計的知識本體建置軟體 Protégé，在進行知識本體建置時建議的操作步驟[5]，共分為六個步驟，由決定知識領域範圍開始，先使用已存在的知識本體作為基礎，接著列舉重要的知識概念並定義知識概念彼此之間的關係與屬性。而圖 2 右則為 Uschold 與 Gr¨uninger 對於在進行知識本體建置時的所建議的步驟[6]，共分為四個步驟，首先為確定知識本體的使用目的與應用範圍，再進行知識本體內容的抓取，接著將知識本體編碼儲存後，融入現有知識本體。

(17)

6

分析兩者建置知識本體的步驟後，可以發現兩者有相似之處，在圖 2 中以虛線註明並進行對照，因此可以統整出在建置知識本體的過程中重要步驟，共有三個部分：

 確認知識本體所涵蓋的領域範圍

確認想要建置的知識本體的領域，並對該領域有一明確定義並限定該領域的範圍。

 知識概念擷取與知識概念的關聯性建置

將在限定範圍內的知識概念擷取出來並定義不同知識概念之間的關聯性。

 將知識本體的內容轉換為電腦可閱讀之格式

將知識本體中的知識概念與其相互之間的關係，依造電腦可閱讀的格式進行儲存。

根據以上所統整的知識本體建置流程，第一個與第二個步驟皆需要許多領域專家參與協助，其中又以第二步驟需要領域專家投入許多時間進行，以確認何項知識概念是屬於欲建置的知識本體的範圍內。

且根據 Noy 與 McGuinness 的建議，建置知識本體為一不斷循環的流程，因此領域專家須不斷對知識本體的內容進行修訂，以增加該知識本體的內容與完善性。但如此一來在建置知識本體時將耗費大量的人力與時間，所以如何減少領域專家在建置知識本體時所參與的工作量，

是本研究的主要目標。

(18)

2-2

Inf 新興訊塑

2 以特定

在本研 formation 興領域，因塑模領域中

定領域之知

研究中所 n Modeli 因此以下內

中已有的圖

知識來源

選定的特 ng)，建築內容將從的知識來源

圖 2 建置

7

源建置知識

特定領域築資訊塑模從介紹建築

源，建置建置知識本體

識本體

域為建築模領域為築資訊塑模建築資訊塑

體之流程[

資訊塑模為土木營建

模開始，說塑模的基本

[5] [6]

模 (Build 建工程領域說明由建築本知識本體

ding 域之築資體。

(19)

8

2-2-1 建築資訊塑模簡介

建築資訊塑模其主要的表現方式為在三維虛擬空間中的立體模型，但其真正的意義為一整套與生產、溝通、分析相關的 3D 模型技術[7]。因此，建築資訊塑模的使用時間包含了整個建物的生命週期，

從規劃設計到現場施工再到建物完成後的營運維護。

而使用建築資訊塑模所帶來的好處，也已經有相關研究[8]，分別有以下幾點：

 更快與更有效率的流程(Faster and more effective processes) 建物相關的資訊可以更容易分享、加值與重複使用。

 更好的設計(Better design)

在初期設計時，建物可以得到更嚴謹且更快的分析，因此可以在初期設計階段時使用更多不同的設計。

 包含整個生命週期的成本與環境資料

(Controlled whole-life costs and environmental data)

環境對建物的影響更容易預測，對於建物生命週期中所需要的各項花費更加清楚。

 更好的文件品質(Better production quality)

在建物的生命週期內所需要的相關文件的可以自動化產出並更加彈性。

 更好的客戶服務(Better customer service)

經由 3D 模型的展示，業主可以更輕易的理解建物的設計與施工過程。

 包含整個生命週期的資料(Lifecycle data)

所有建物的相關資訊，可以持續使用到營運維護上。

(20)

9

由以上幾點，可以知道一個完整的建築資訊模型 (Building Information Model)，其所包含的資料量會相當的龐大。因此，BIM Handbook[9]一書提供 M.A. Mortenson Company 所定義的一個良好的建築資訊模型必須包含六個要點：

 數位的(Digital)

其儲存資料的方式要以數位資料方式儲存。

 空間的(Spatial)

其數位模型資料需以虛擬三維(3D)的方式呈現。

 可量測的(Measurable)

在數位模型資料中的資料是數值化並可計算的，如在模型中有樑的尺寸、數量，並可對各種樑的數值進行計算。

 完整的(Comprehensive)

在數位資料中不只含有建物模型的數值資料，並包含有建物在規劃設計階段、現場施工階段等，不同階段中與該建物相關的資訊。

 易取得的(Accessible)

其儲存的資料格式必須是不受限於單一電腦軟體或硬體，其資料檔案可在不同的軟硬體間交換，

 持久的(Durable)

其資訊必須可以長時間保存並維持一致性於整個建物生命週期。

由此可知建築資訊塑模為運用於建物完整生命週期之技術，且其在三維虛擬空間的表現方式，讓過去在使用平面圖來表達建物設計上，

因誤解圖面表示方式而導致物件互相衝突的狀況大量減少，並讓不同階段的參與者，經由建築資訊模型能有更好的溝通方式。

(21)

10

2-2-2 收集特定領域之知識概念

由於所需使用的基本知識本體，其領域範圍已限定在建築資訊塑模領域中，而目前在建築資訊塑模領域中，已經有許多文獻對於建築資訊塑模領域的內容進行整理與分析，因此在進行知識概念的收集時，

即可根據這些文獻的內容，來整理出建築資訊塑模領域中較為重要的知識概念。因此在此節中將回顧建築資訊塑模的相關文獻，以收集建築資訊塑模領域的知識概念。

由美國國家建築科學研究院(NIBS/National Institute of Building Sciences) 所公布的美國國家 BIM 標準(NBIMS-US/The National BIM Standard-United States)第二版中[10]，在 Term and Definitions 章節裡，

有對於建築資訊塑模領域中各式詞彙進行說明，其內容包含有該詞彙的縮寫與定義，如 Component 此詞彙在該書中的定義為，在建築物中的各項設備與該設備在虛擬三維空間中的位置。因此根據此章節的內容，就可收集到在建築資訊塑模中較為重要的知識概念。

而由 buildingSMART 於 2010 年發行的 BIM Project Execution Planning Guide 一書中[11]，其第二章(Identifying BIM Goals and Uses For a Project)的內容為針對建築物不同生命週期所使用的各種應用項目進行說明，總共提出二十五個應用項目，其內容整理後如表 1。其每個應用項目所使用的階段皆有所不同，並在該書的附錄 B 中，有針對每個項目的詳細內容進行描述，因此這些應用項目，可視為目前在建築資訊塑模領域進行應用的各項知識概念。

(22)

11

表 1 BIM 應用項目使用分類[11]

PLAN DESIGN CONSTRUCT OPERATE

Existing Conditions Modeling Cost Estimation

Phase Planning

Programming

Site Analysis

Design Reviews

Design Authoring

Energy Analysis

Structural Analysis

Lighting Analysis

Mechanical Analysis

Other Eng. Analysis

LEED Evaluation

Code Validation

3D Coordination

Site Utilization Planning

Construction System Design

Digital Fabrication

3D Control and Planning

Record Model

Maintenance Scheduling

Primary BIM Uses Building System Analysis Secondary BIM Uses Asset Management

Space Mgmt/Tracking

Disaster Planning

另一項資料來源則為 Eastman 所編寫的 BIM Handbook[9]，其為建築資訊塑模領域的資訊手冊，該書的內容對建築資訊塑模有詳細的介紹，並針對在建物生命週期中的擔任不同工程角色時，所會面臨到的問題一一列舉與說明。而在該書中的 Glossary 章節有對於建築資訊塑模領域中相關的知識概念進行介紹，並對不同知識概念之間的相關性進行說明。

(23)

12

而由 IBC(Institute for BIM in Canada)組織於 Evironmental Scan of BIM Tools and Standards[12]報告中統計目前已存在的 BIM 工具，並對每個 BIM 工具在建築資訊塑模中所應用的領域範圍進行統計，其整理出的分類架構如表 2，此分類架構即是對建築資訊塑模領域中的知識概念的整理。

表 2 BIM 工具使用分類[12]

Tool Category Areas of Use

Planning and Design

Site Modeling Spatial Programming Design Authoring Design Review Engineering Analyses Code Evaluation Cost Estimation

Construction

Sequential Planning

Construction Site Utilization Temporary Structure Design 3D Coordination

Site Analysis and Phase Planning Cost Estimation

Operation

Building Record Building Performance Space and Asset Management Disaster Planning

Maintenance Scheduling Building Analysis

2-2-3 建立階層與關聯性

在知識本體中，需定義不同知識概念之間的關係，所以由上節的文獻回顧中，本研究選用 BIM Handbook 的 Glossary 章節，來做為基本知識本體的主要知識來源。因該章節的內容除了對於知識概念的說明以外，仍有針對不同知識概念之間的關係進行說明。

(24)

13

以下條例出本研究所選用的知識概念與其彼此之間的關係：

1. Building information modeling (BIM)

基本知識本體的領域範圍為 BIM，因此選用該知識概念作為基本知識本體的最上層結構。

2. BIM system

其內容為整合 BIM 工具並提供平台讓不同工具進行連接，所以此知識概念為 Building Information Modeling 的下層概念。

3. Building Model

其內容為可供 BIM 工具讀取與編輯的數位資料，所以此知識概念為 Building Information Modeling 的下層概念。

4. BIM Process

為使用 BIM 工具處理建物生命週期中所遇到的各種工作事項，所以此知識概念為 Building Information Modeling 的下層概念。

5. BIM application

其內容為工作團隊為某一種特定目的而對 Building Information Modeling 所採取的使用方式，此概念在 BIM system 中有提及並進行描述，所以此概念為 BIM system 之下層知識概念。

6. BIM tool

其內容為可產生並操作 Building Information Model 的軟體。其概念在 BIM system 中提及並進行描述，所以此知識概念為 BIM system 之下層知識概念。

7. Building objects

其定義為組成建築物的基本單位，如柱、梁、版、牆以及建築物的空間概念。所以此知識概念為 Building Model 下層之知識概念。

(25)

Building m 其定義為為物件式念為 Buil Building D 其定義為概念為 B 綜合以訊塑模的知關係為「包識概念「包子知識概念

而在 Pr

，而沒有全 ols and Sta

model rep 為儲存 Bui 式的儲存方

lding Mod Data Mod 為儲存 Bui Building M

以上 9 個知知識本體包含」，因包含」了念。

rocess 之下全部列舉 andards 所

pository ilding Info 方式且具有

del 之下層 del

ilding Info Model 下層

知識概念以

，其內容如因此根據圖

BIM Syst

下的知識概舉。因此本

所提供的知圖 3

14

ormation M 有檢索個別層知識概念

ormation M 層知識概念以及其相容如圖 3。

圖 3 所表示 tem、BIM

概念，在本研究參考

知識概念進 BIM 基本

Model 的資別元件的念。

Model 的檔念，用來說相互之間的共為三層示的基本 M Model 與

BIM Han 考了 Envir

進行知識本本知識本體

資料庫，該的功能。所

檔案格式說明模型的的關係可以層架構，每本知識本體

與 BIM Pro

ndbook 裡 onmental 本體的擴體

該資料庫內所以此知識

，所以此知的檔案格式以得到建築每一層之間體，BIM 此 ocess 共三

裡只有部分 Scan of B 擴展。

內容識概

知識式。

築資間的此知三個

分舉 BIM

(26)

Environ ocess 分為

每一個部分各項知識概域的基本知概念，其知念。

2-4 知識經過上兩知識本體其知識概念知識概念進

nmental Sc 為三個部分分有包含概念添加知識本體知識概念之

識本體展示兩節的整

，但由於該念的內容進行翻譯圖

can of BIM 分：Plannin 含有各種子加進目前 B 體就擴展為

之間的關係

示

整理之後，本該基本知容皆為英文譯。

圖 4 擴展

15

M Tools a ng and De 子應用方向

BIM Proce 為圖 4。其

係為上層

本研究已知識本體的

文。為將這展後的 BIM

and Stand sign、Con 向。依造該 ess 知識概其總共有四層的知識概

已整理出建的知識來源這些知識概 M 基本知識

dards 此篇 nstruction、

該篇報告整概念的下層

四層架構概念包含有

建築資訊塑源皆為英文概念轉換成

識本體

篇報告將 B

、Operatio 整理之結果層。因此 B

，共 27 個有下層的知

塑模領域的文的文獻成中文，需

BIM on，

果，

BIM 個知知識

的基

，因需要

(27)

16

本研究首先採用 AEC-STIIRS 工具[13] 來進行翻譯，該工具提供了在營建領域中各式詞彙的中英文版本。其資料來源有兩個部分：

CEDICT[14]與牛頓工程詞典[15]。CEDICT 為一般詞典，其中包含了 33000 組詞彙，牛頓工程詞典則為營建工程領域的專業詞典，共有 35000 組詞彙。

因此根據 AEC-STIIRS 工具可翻譯出部分知識概念，以下說明使用該工具在翻譯時的三種狀況：

只有單一解釋，如「tool」此知識概念使用 AEC-STIIRS 工具查詢後，其中文翻譯只有「工具」，而「工具」也符合此知識概念所表達之含意，因此選用「工具」做為此知識概念的中文版本。

含有多種解釋，如「model」此知識概念，在使用 AEC-STIIRS 工具查詢後，其中文翻譯有「模型」、「模範」、「雛型」三種不同的解釋，因此需根據此知識概念在知識本體中所表達的含意，來決定該知識概念的中文翻譯，而在此例選用「模型」做為此知識概念的中文版本。另一個相同的例子為「system」，其中文翻譯有「系統」、「制」、

「系」、「綱」、「法」、「式」共六個，本研究選用系統作為此概念的中文翻譯。

未有直接翻譯，如「disaster planning」此知識概念在翻譯工具中並無直接的翻譯，但在 AEC-STIIRS 工具中有一英文詞彙為「disaster prevention plan」，該詞彙的中文翻譯為「防災計畫」，其含意與「disaster planning」相同，因此可以將「disaster planning」翻譯為「防災計畫」。

(28)

由於仍有分知識概念實現營建協為：代理者

ent、Colla sign revie llaborative

因此根據為中文版本

有部分知念參考前協同設計者、協同審

aborative ew 的中

e 後可以知據以上的本的基本

圖

知識概念在前人的文獻計審查之研審查設計審

design rev 中文解釋

知道 desig 的步驟，就本知識本體

圖 5 中文

17

在 AEC-ST 獻進行翻譯研究」[16]

審查、建築 view、BIM

為協同審 gn review 就可將英文體，其成果

文版 BIM

TIIRS 工具譯。如在

中，其作築資訊模型

M。由此可審查設計

的中文翻文版本的基果如圖 5。

基本知識

具中並沒有

「以 BIM 作者所定義

型；英文的可以知道 C

計審查，翻譯為設計基本知識本

。

識本體

有資料，因與代理者義的中文關的關鍵字為 Collabora

，而扣除計審查。

本體(圖 4 因此者技關鍵為：

ative 除掉

4)翻

(29)

18

3 第三章特定領域之資訊檢索

3-1 資訊檢索簡介

隨著資訊時代的發展，各式資料的電子化已經是進行知識管理的必要程序。但隨著資料數量的增加，若無妥善的整理方式，則儲存的資料裡所蘊含的知識就無法迅速的被找到，如此一來儲存的資料也無法進行有效的應用，因此資訊檢索技術就應運而生。

資訊檢索(Information Retrieval)為在儲存的資料中迅速找到所需要的相關資料的一種技術[17]。其最常見的形式就是網路上的各式搜尋引擎，如 GOOGLE、YAHOO、BING……等。其運作方式為接收到使用者的資訊需求(Information Needing)後，根據不同的資訊檢索模型 (Retrieval Model) 進行資訊需求與事先已蒐集好的文件集合 (Document Collection)的相關性計算，並依造相關性計算的結果，給予使用者經過排序過後的檢索結果。

參考文獻[18]中所提供的資訊檢索流程，本研究進行整理後將資訊檢索技術分為三個部分並繪製成圖 6，分別為圖 6 上方的使用者介面 (User Interface) ，圖 6 右下方的文件集合處理 (Document Collection)，圖 6 左下方的資訊檢索模型(Retrieval Model)。以下分別說明各部分所進行的內容。

(30)

使用者介處理使用在文字檢索檢索系統時索系統也會資料搜索的

文件集合分析所儲析方式為將為表示該詞索系統在進型來建置完

介面 (User 用者的資索中所代時，會利用會記錄使的成效表合處理 (Do

儲存的文將文件中詞彙在那進行檢索完整的資

r Interface 資訊需求，

代表的意義用簡單的使用者在搜表現。

ocument C 文件集合中中的詞彙擷那一篇文件索時的處理資訊檢索系圖 6 資

19

e)

延伸或擴義就是檢索的詞彙來表

搜尋結果中

Collection 中所有文件擷取出來，

件中曾出現理速度，而系統。

資料檢索流

擴展使用者索詞彙(Qu 表達自己的

中實際點選

n)

件包含的資並將這些現過的列表而索引將會

流程圖[1

者的資訊需 uery)，使用的資訊需求

選的文件，

資訊。在文些詞彙建置

表，其目的會搭配不同

8]

需求。資訊用者在使用求。同時資

，來修正下

文字檢索中置成索引的為增加資同的資訊檢

訊需用資資訊下一

中其

，索資訊檢索

(31)

20

三. 資訊檢索模型 (Retrieval Model)

將資訊需求與處理好的文件透過資訊檢索模型進行相關性計算，

以找出較為符合資訊需求的文件，並依文件與資訊需求的相關程度，

對檢索結果進行排序，讓使用者能決定從那一個結果開始看起。

綜合以上回顧，資訊檢索技術能幫助使用者快速而正確的得到其所需要的資訊需求，因此不論在何種專業領域內，都需要使用到資訊檢索技術。而讓使用者選擇何種資訊檢索技術的關鍵在於，該資訊檢索技術是否能檢索出使用者所需要相關資料，也就是說，資訊檢索的成效表現才是使用者最關心的議題。因此本章節將導入上一章的基本知識本體，來進行以知識本體為基礎的資訊檢索系統之建置，以改善資訊檢索系統運用於建築資訊塑模領域的成效表現。

3-2 建立特定領域之測試文件集

資訊檢索的成效由測試文件集加以評估，測試文件集是具有「標準答案」的文件集合，而標準答案的獲得方式為請專家判斷有哪些文件與某一筆資料需求是確實相關的。因此，為評估資訊檢索系統之成效，本研究建置了建築資訊塑模領域的測試文件集。

測試文件集由三個部分組成：文件集合、資訊需求、文件相關度的「標準解答」。文件集合為最原始的文件資料，而為了後續的系統建置的方便，需將實際的文件資料轉化成電子文件。資訊需求則為使用者可能提出的檢索詞彙。文件相關度的標準解答則為文件集合中的每一項文件與某一筆資訊需求的相關程度。以下小節解釋各步驟詳細內容。

(32)

2-1 選擇在準備文

、期刊或是的豐富度上路文件來源考慮到內於土木水利的文章，實的其中一篇

而為了讓讀取文件 llection 時使用的節點者]、[Abst eference-參英文兩種版如圖 8。

擇與準備文文件集合是各式新聞

上各有不源則數量內容資料利工程應實際使用篇文件。

讓後續的件的設計時所使用的

點分別為 tract-文件參考文獻]

版本，則用文件合時，文件

聞。而不同不同。如期量眾多，但料的正確與應用研討會用 117 篇文

的資訊檢索

。因此本的文件格式

：[DOCN 件摘要]、[S

]，其中 T 用 xml:lan

圖 7

21

件的資料來同的資料期刊的文件

但文件內容與完整性，

會的所有論文件作為文

索系統無須本研究採用式，將每一

O-文件編 Subject-關 Title、Au ng 標籤分

研討會文

來源有許多料來源在文

件內容較為容較為雜亂

本研究選論文共 124 文件集合

須針對不用文獻 [1 一份文件轉編號]、[Titl

關鍵字]、[C uthor、Ab 分別註明。

文件掃描檔

多途徑。如文件獲取難為完整但數

亂。

選用了 100 4 篇，扣除

。圖 7 即

同的文件 3] 中，建轉換為 XM

e-文件標題 Content-文

stract、Su 經轉換過檔

如：現有的難度與文件

數量較少

0 年電子計除掉內容為即為文件集

件檔案格式建置 NCR

ML 格式題]、[Auth 文件內容]

ubject，若過的文章其

的書件內

，而

計算為英集合

式進 REE

，而 hor- 、若有其內

(33)

式與 Col 3-2

由所行檢領域置了基本

「營合適 3-2

件求的出來採用

根據以上與 NCRE llection 的 2-2 定義

在大型的所收集的文檢索，並從域，並無合了一小型文本知識本體營運」來作適性進行評 2-3 評估

當產生資

，來做為該的相關性進來的結果是用的方法分

上所述，本 EE Collec 的內容，使義資訊需求的文件集文件中相從裡面剔除合適的大型

文件集合體，選取其作為一開始

評估。

估文件相關資訊需求該文件集合

進行評估是相同的分別為 ov

本研究建 ction 相符使得土木營求

集合中，定相關的主題除出現次型文件集合，而該文件

其中的三始設定的

關度

求後，需評估合的標準

，而為確保

，因此需對 verlap valu

圖 8

22

建置了一小符，因此營建工程領

定義資訊需題來直接定次數過少的集，因此經件集合的三個知識概的資訊需求

估在文件準答案，所保不同專對於專家 ue[19] 及 8 測試文件

小型文件集此該文件集

領域的測試

需求的方式定義資訊需的主題。但經由上一節的資訊需求

概念：「規劃求，並在下

件集合中與所以須請專專家對於同家所評估的及 Cohen’s 件集範例

集合，且因集合能增試文件集

式通常有兩需求，2.將但由於本研節收集相關求則由上一劃與設計下一節對該

與該資訊需專家針對文同一個資訊的結果進行 Kappa me 例

因所採用之增加 NCR 集更加豐富

兩種方式將文件集合研究所選定

關資料後一章所建置計」、「施工

該資訊需求

需求相關的文件與資訊訊需求所評行一致性測 easure[20

之格 REE 富。

：1.

合先定之

，建置的工」、

求的

的文訊需評估測試，

]。

(34)

23

為說明兩種方法的計算方式，假設表 3 為針對某一筆資訊需求，

兩專家評估每份文件之相關程度的結果。RR 為兩專家皆認為與該資訊需求相關的文件數量，RN 為專家 B 認為相關但專家 A 認為不相關的文件數量。NR 為專家 B 認為不相關的但專家 A 認為相關的文件數量。NN 為專家 A 與專家 B 皆認為不相關的文件數量。

表 3 專家評估結果專家 A

專家 B

相關不相關

相關 RR RN

不相關 NR NN

根據表 3 計算 overlap value 方法可表示為：

overlap value RR

RR RN NR (公式 1) 其含義為兩專家評估為相關文件的交集除以兩專家評估為相關文件的聯集，其值越高則代表兩專家所評估的結果一致性越高。

Cohen’s Kappa measure 則考慮到兩位專家所評估的一致性結果，可能是偶然為一致性，因此將扣除偶然一致性的部分，其計算方式如下：

其中 P(A)為兩專家評估結果確實為一致性的機率，其計算方式為：

Kappa P A P E

1 P E (公式 2)

P A RR NN

SUM (公式 3)

(35)

24

而 P(E)則是兩專家評估結果偶然為一致性的機率，其計算方式為：

P E RR NR SUM

RR RN SUM

NN NR SUM

NN RN

SUM (公式 4) 其中 SUM 所代表的意義為搜尋結果的總文件數量，即為 RR+RN+NR+NN。因此依照 Cohen’s Kappa measure 的計算方式，即可獲得扣除偶然一致性的一致性評估結果。

本研究對文件集合進行三個資訊需求的一致性評估。每個資訊需求皆邀請了三位專家進行評估，而為了讓每一位專家的評估標準相同，

因此要求專家在進行評估時，其評估標準為判斷該文件內容是否與該檢索詞彙所表達之生命週期階段的概念相關，如：「營運/Operation」

此資訊需求，若該文件內容與「營運/Operation」相關且與「建築資訊模型/BIM」相關，則該文件與此資訊需求為相關。

將三位專家所評估的結果進行 overlap value、Cohen’s Kappa measure 的計算，但由於這兩種計算方式是比較兩位專家之間的評估結果，因此每個檢索結果會有三筆數值，其結果如表 4 與表 5。

表 4 Cohen’s Kappa measure 計算結果資訊需求 I & II II & III I& III 規劃與設計 1.009 10 0.615 -0.222

施工 0.368 0.300 0.300 營運 0.565 0.327 0.722

表 5 overlap value 計算結果資訊需求 I & II II & III I& III

規劃與設計 0.353 0.667 0.421 施工 0.625 0.500 0.563 營運 0.556 0.417 0.727

(36)

25

參考文獻[19]統計 TREC topic 202-250 的 overlap value 的數值，

多落在 0.42 至 0.49 之間；文獻[21]則指出 Kappa 值在 0.67 以上即代表兩位專家所評估的結果較為一致。但由於本研究所建置的文件集合數量較少，因此對於此兩項數值所選定的門檻值調整為 Overlap 高於 0.5，Kappa 高於 0.6。在此門檻值之下，則有兩個資訊需求在兩位專家的評估下符合要求，分別是「規劃與設計」及「營運」，因此選取此兩筆資訊需求作為檢驗資訊檢索系統成效的指標。

(37)

26

3-3 運用知識本體於特定領域資訊檢索之成效評估

3-3-1 向量空間模型簡介

本研究的資訊檢索系統採用向量空間模型(Vector space model)進行建置，向量空間模型為在資訊檢索技術中常見的檢索模型。其為將文件與資訊需求都轉換為向量的表示方式，而在向量空間中，當兩向量的夾角越小時，代表兩向量越為相似，因此利用轉換而成的向量可以求出文件與資訊需求之間的相關程度[22]。

轉換文件向量的方式為向量的每一個維度代表在文件中每一個詞彙的權重，其中詞彙的權重計算是以 tf-idf 方法[23]來進行計算，

其計算方法如下：

tf 目標詞彙在文件中出現的次數

文件的總詞彙數量 (公式 5)

idf log 文件集合中的文件總數

有出現過目標詞彙的文件數量 (公式 6)

tf 為 term frequency 之縮寫，其中文為詞頻，其含義為當目標詞彙在某一文件出現越多次則 tf 值越高。idf 則為 inverse document frequency 的縮寫，其中文為逆向文件頻率，當目標詞彙在許多文件皆出現時 idf 值越小，兩者相乘後則為在文件向量中某一個維度的詞彙權重。計算完每一個詞彙的權重後，這些不同維度的權重就會組合成該文件的向量，可表示成D。而當使用者提出資訊需求時，也對該資訊需求用同一方式建置該資訊需求之向量，可表示成Q，接著在利用向量內積來求其相關性，其式如下：

(38)

向量空間需求與該文向量內積的可以將文件使用者所需 3-2 以知

本研究運 9，將文件 odel)進行分的檢索，以

間模型的文件的相的結果越件集合中需要的搜知識本體為

運用向量件集合(D

分析後，就以得到該

圖 cos θ

的相關性計相關性就越越大的時候中的文件依搜尋結果。

為基礎之資量空間模型

ocument C 就可對資訊該資訊需求

圖 9 向量

27

D ∙ Q D Q

計算為當兩越高，因此候，則相關依照與資訊

資訊檢索方型進行資訊

Collection 訊需求(In 求的檢索結

量空間模型

兩向量所夾此可利用向

關性越高。

訊需求的相

方法訊檢索系統

n)以向量空 nformation 結果(Retrie

型資訊檢索

夾的角度越向量內積來

因此根據相關性進行

統建置，其空間模型(

n Needing eval Resul

索系統

(公式

越小，則該來進行計算據向量空間行排序，也

其檢索流程 (Vector Sp g)進行向量

lt)。

式 7)

該資算，

間模也就

程如 pace 量模

(39)

根據圖後，向量空行分析，而訊需求的分可以針對

，其流程如

因此，在識來源，藉者輸入「B 就會認為該此知識本容進行資訊面層級的知資訊。

9 向量空空間模型的

而以知識本分析上進

使用者所如圖 10。

在運用知識藉由該知識 BIM」、「營該使用者

體資訊檢訊需求的知識概念

空間模型的的資訊檢索

本體為基進行擴充。

所輸入的資

。

識本體於識本體對營運」這兩者是想要查

檢索系統就的擴充。其擴念皆補充到

圖 10 知

28

的資訊檢索系統只基礎的資訊

因為當擁資訊需求依

於資訊檢索對使用者的兩個資訊查找在 BIM

就會開始查擴充的方到資訊需求

知識本體資

索系統，

只會對使用訊檢索方法擁有知識本依照知識

索上，本研的資訊需求訊需求時，

M 領域中查找知識方式為將在

求中，進而資訊檢索系

當使用者用者所輸入法，其主要本體後，資本體的內

研究將知識求進行擴充

知識本體中與營運相本體中與在知識本體而讓資訊需

系統

者輸入資訊入的資訊需要的內容是資訊檢索系內容去進行

識本體視為充。例如當體資訊檢索相關的文件與營運相關體中屬於營需求能包含

訊需需求是在系統行擴

為一當使索系件，

關的營運含較

(40)

而由於在相同，因此權重，其權概念開始分

為說明權使用者輸入往下找尋沒

、S、T、U 該節點的重值初始化為

為 S、T 節點 K 的予三節點的為 0。其結

在知識本此根據知識權重分配方

分配權重權重分配入的資訊沒有子節 U。因子節

重要程度為 1。接著

、U 的父節的權重為 2

的父節點結果如圖

本體中不同識本體的方式為從重。

配方式，假訊需求為節節點的節點

節點越多則度也較高，

著將此節點節點，因 2，節點 L

，因此節 12。

圖

29

同的層級的的結構，每從使用者所

假設目前的節點 E，則其點，依照此

則代表該因此將這點的權重因此其權重

L 的權重為節點 E 的權

11 概念分

的知識概每一個補充

所輸入的資

的知識本體其權重分此例，無子節該節點所蘊

這些沒有子重賦予此節

重數值為 3 為 1，並再權重為 6，

分層架構

念與營運充的知識概

資訊需求開

體架構如圖分配方式為

節點的節蘊含的知識

子節點的節節點的父節

3，依照相再將 K、L 而其他所

運的相關性概念皆有不開始，往下

圖 11，且為由節點 E 節點為 P、Q

識概念較多節點，其權節點，如節相同計算方 L、M 的權所有節點的

性不不同下層

且此 E 開 Q、

多，

權重節點方式權重的權

(41)

得到節點

：BIM，由的重要性一權重與節點識概念，所權重賦予給需求的重要所有權重加根據以上容進行補充資訊需求向需求的資訊

點 E 的權由於 BIM 一樣重要點 E 相等所以在圖給節點 A 要性都相加總起來上步驟，使充，而增補向量，並依訊檢索結

權重地圖後 M 與節點 E

。因此將節等。而因為圖 11 的例

A，也就是相等，因此來為 1，以保

使用者所補完的資依照向量結果。

圖

30

後，則需考 E 皆為使節點 E 的為 BIM 為例子中節點是節點 A 的此將權重地

保持每一所輸入的資資訊需求，

量空間模型圖 12 權重

考慮使用者使用者輸入的權重賦予為整個知識點 A 即為

的權重為 6 地圖進行正一筆資訊需資訊需求，

就可以轉型的相關性

重地圖

者所輸入的入的資訊需予給 BIM，

識本體架構 BIM，因 6。而為了正規化，讓需求的重要就可經由轉換為向量性評估方式

的另一資訊需求，所以

，也就是 B 構中最上層因此將節點了使每一筆讓權重地圖要性相等由知識本體量空間模型式，得出該

訊需以兩 BIM 層的點 E 筆資圖上

。體的型中該資

(42)

31

3-3-3 資料檢索成效評估

為評估向量空間模型檢索與以知識本體為基礎之資訊檢索方法於資訊檢索系統之成效，因此本研究針對兩種檢索系統所返回之檢索結果進行評估。所採取的評估標準分別是求全率與求準率，其計算方式如下：

1. 求全率(Recall)

Recall 檢索結果中相關文件數量

文件集合內所有相關文件的總數 (公式 8)

2. 求準率(Precision)

Precision 檢索結果中相關文件數量

檢索結果的文件總數 (公式 9)

在評估資訊檢索系統的成效上，這兩項是最主要的指標，求全率可以得知資訊檢索系統是否能將所有相關的文章檢出，而求準率可以知道資訊檢索系統的精確程度。因此為了不偏重於其中一項指標，本研究採用了平均求準率(AP/Average Precision)來做為評估資訊檢索系統的成效表現的指標，其計算方法如下：

AP ∑ P i rel i

R (公式 10)

其中 R 為與該資訊需求相關的文件數量；P(i)為計算檢索結果中到第 i 名文件的求準率；rel(i)為第 i 名文件是否與資訊需求相關，若相關則為 1，不相關為 0；N 為搜尋結果之總數。

(43)

32

而根據資訊檢索領域的重要國際會議 TREC(Text Retrieval Conference)所提供的資訊檢索成效測試工具[24]，平均求準率的計算方式可簡化為當求全率的值為 0、0.1、0.2 至 1.0 時的求準率的平均，其方法為在求全率與求準率的曲線圖上以內差的方式，求取這十一個點的求準率數值。此種計算方式同時考慮了求全率與求準率的表現，因此本研究根據此指標來評估資訊檢索系統成效。

根據以上評估方式，對兩種檢索方法使用上一節通過一致性分析的資訊需求，並根據由專家所評估出來的標準答案，可得到使用向量檢索模型與以知識本體為基礎的檢索技術的資訊檢索系統成效，其平均求準率的數值如表 6。

表 6 兩種不同資訊檢索模型的平均求準率檢索模型

資訊需求 Vector space model Ontology-based model

規劃與設計 0.528 0.554

營運 0.475 0.570

以表 6 的第一行為例，其所代表的意義為使用「規劃與設計」

做為資訊需求在兩個不同的資訊檢索模型中所得的平均求準率，如第一行第一列的 0.528 即是使用向量空間模型進行資訊檢索後所得到的平均求準率。若其值越高，則代表使用該資訊檢索模型的資訊檢索成效表現越好。

因此根據表 6 的第一行的數值表現來看，使用知識本體進行資訊檢索的平均求準率高於使用向量空間模型的平均求準率，而在第二行的數值表現，使用知識本體進行資訊檢索的平均求準率也同樣高於使用向量空間模型的平均求準率。所以在此兩項資訊需求的檢索結果中，以知識本體進行資訊檢索確有改善資訊檢索系統之成效。

(44)

33

4 第四章以資訊檢索技術增補知識本體

4-1 增補知識本體之流程

在第二章中，本研究建置了建築資訊塑模領域的基本知識本體，

並在第三章中利用該基本知識本體建置了以知識本體為基礎的資訊檢索系統，同時對於該資訊檢索系統的成效與向量空間模型的資訊檢索系統的成效進行比較，其結論為以平均求準率(average precision)作為指標進行評估後，得出以知識本體為基礎的資訊檢索的成效較佳。

本章將延續上兩章的成果，對以知識本體為基礎的資訊檢索系統的檢索結果進行分析，來對基本知識本體的內容進行增補。

本研究第三章所建置的資訊檢索系統可以得到每筆資訊需求的檢索結果。在資訊檢索中檢索結果是與資訊需求相關的文件的排名順序，若文件在檢索結果中的排名越高就代表該文件與該筆資訊需求越相關。而因為該資訊檢索系統是使用知識本體來對資訊需求的內容進行補充，因此在檢索結果中排名較高的文章，就是與知識本體中的知識概念相關性較高的文件。

為了對知識本體的內容進行增補，本研究針對在檢索結果中排名較高的文件進行分析。因為在同一篇文件中會包含許多知識概念，除了與資訊需求相關的知識概念外，該文件仍會含有其他的知識概念，

而這些知識概念與資訊需求中的知識概念同時出現在同一篇文件中，

則代表這兩個知識概念之間相關性程度較高，因此應將這些知識概念增補進知識本體中，所以藉由分析檢索結果中排名較高的文件中的知識概念，就可以對知識本體的內容進行增補。

(45)

整理流程在於知識

根據以上理成圖 13 程(圖 10) 於知識本體識本體」五

上概念將 3，其主體 )，其增加

體中？」、五個部分

圖 13 運

將利用資訊體流程延續加的部分為

、「增補知分，以下各

運用資訊

34

訊檢索技術續第三章為：「擷取知識本體」

各小節分別

訊檢索技術

術對知識以知識本取知識概念

、「領域專別說明各部

術增補知識

本體進行本體為基礎念」、「知識專家協助修部分之內容

識本體之流

行增補的流礎的資訊檢識概念是否修訂」、「領

容。

流程

流程檢索否存領域

(46)

35

4-1-1 擷取知識概念

得到某一筆資訊需求的檢索結果後，對該檢索結果中排名較高的文件進行知識概念的擷取。而在中文的文件中，代表該篇文件所包含的知識概念則為該文件中的所出現的詞彙，因此為了擷取出每篇文件的知識概念，就須對文件中的語句進行分析。所謂的語句的分析就是如何將語句拆分成詞彙，在資訊檢索中此項技術稱之為「斷詞」。

斷詞技術為讓文件內容裡的語句依照正確的語意，以詞彙為單位來進行儲存。但是如何將語句以正確的方式進行斷詞，在不同語言中就有著不同的方式，因為每種語言在詞彙組合成語句的規則上並不相同，例如，英文的詞彙是使用空白做為間隔，而中文的詞彙則是以連續無間隔的方式來組成語句。

斷詞技術在中文上尤其困難，因為中文的詞彙在語句中並沒有明顯的間隔，所以中文斷詞方法多是參考中文辭典，先行在語句中擷取出在辭典中出現的詞彙，再分析語句中所剩下的內容，來得到斷詞結果。此種方式的優點為在文件內容與該辭典所包含的領域相同時，斷詞結果會較為準確，但若文件內容是屬於新發展或較為專業的領域時，

則會因為辭典中沒有與該領域的相關資料，而容易發生斷詞錯誤。

由於本研究所選定的特定領域為建築資訊塑模領域，其為新發展的知識領域，因此本研究採用 n-gram 斷詞方法[25]對文章進行分析，

其優點為無需先建置辭典，而是直接針對文章的內容進行分析，來擷取出文件中所出現的詞彙。因此 n-gram 方法在擷取新發展的知識領域的詞彙時，就不會因新發展的知識領域的詞彙尚未被編進辭典中，

而無法對文件的內容進行正確的斷詞。

(47)

36

n-gram 方法為假設每個語句都存在有一個最小的表示單位，在中文裡最小的表示單位為「字」，每個最小表示單位可以跟另一個最小的表示單位合成為一個概念，也就是中文的「詞」。n-gram 方法並不限定多少個最小表示單位來進行組合成一個概念。若只用一個最小表示單位稱之為 unigram，以兩個單位的長度進行連接稱 bigram，以三個單位的長度進行連結稱為 trigram。

在實際進行斷詞時需要多少個最小表示單位組合成一個概念，則是由語言特性與文件內容來決定的。以下以「工程變更設計」此語句為例，表示 bigram 與 trigram 的切分結果。

工程變更設計工程

程變

變更

更設

設計

圖 14 bigram 切分結果

工程變更設計工程變

程變更

變更設

更設計

圖 15 trigram 切分結果

(48)

37

對語句進行以 n-gram 方法的不同長度切分後，為得到這些詞彙的重要程度，因此對這些詞彙進行詞頻計算，詞頻為計算每一個詞彙在文件中所出現的頻率，其計算方式為該詞彙在文件中所出現的次數除以整篇文件中的總詞彙數量：

詞頻目標詞彙在文件中出現的次數

文件的總詞彙數量 (公式 11)

其中文件的總詞彙數量的計算方法，則是根據 n-gram 方法的不同切分長度進行計算。每個詞彙在計算詞頻時的分母為該詞彙的切分長度的總字彙數量。例如依照「工程變更設計」此語句，「工程」此詞彙在計算詞頻的時候的分母為 5，因為該語句在兩個單位的長度下被切分為 5 個詞彙；「工程變」此詞彙的分母則為 4，因為在三個單位的長度下，該語句被切分為 4 個詞彙。因此切分長度較長的詞彙，

其分母就會較小，詞頻的數值就會較高，來凸顯長詞彙的重要性。

而由於在中文文件中，仍然會有許多專業詞彙以英文方式表示，

因此在進行實作時會將這些英文詞彙獨立抽出，再對剩下的中文詞會進行 n-gram 方法分析，而英文詞彙的權重也是依照詞頻計算公式進行計算，所以在本研究中同時也會分析在中文文件的英文詞彙的重要程度。

利用 n-gram 方法與詞頻計算方法，就可以對文件集合中所有文件的內容進行分析，來得到在每篇文件中詞頻表現較高的詞彙。其結果如

(49)

38

表 7，該表為在文件集合中某五篇文件進行分析後，在該篇文件中詞頻前十名的詞彙。

(50)

39

表 7 文件關鍵字排名表

排名文件一文件二文件三文件四文件五

1 研究室檢查 BIM BIM RFID

2 節能檢查維護 Revit 專案經理人讀取 3 誘導消防安全設備產出執行流程構件

4 用電消防施工圖專案 BIM

5 誘導模式檢查維護人員圖面建國工程標籤

6 生態系消防設備日照團隊協作鋼構

7 虛擬生態系 BIM 日照輻射量團隊 Tag

8 虛擬設備疑義員工驗收

9 虛擬對象維護日照輻射量分析流程鋼結構

10 回饋管理權人建築營造公司讀取器

從

(51)

40

表 7 中可以看出，每篇文章的前十名關鍵字就代表了這篇文件中所蘊含的重要的知識概念，所以計算出每篇文件中關鍵字的排名順序後，就可以對每個資訊需求的檢索結果進行關鍵字排序，再依據關 鍵字排名表中的關鍵字來對知識本體的內容進行增補。

(52)

41

4-1-2 自動化增補知識本體

此小節包含知識本體增補流程的兩個部分：「知識概念是否存在於知識本體」與「增補知識本體」。此兩部分為針對每一筆資訊需求的檢索結果，選取在檢索結果中排名較高的文件的關鍵字後，對這些關鍵字進行排序，接著判斷排名較高的關鍵字是否已在原本的知識本體中，若關鍵字不存在於目前的知識本體中，則增加該關鍵字於知識本體中。

由於增補知識本體的流程為等待終止條件的循環，因此為了能自動化進行知識本體的增補，本研究建置了自動增補知識本體的系統。

其系統的運行流程如圖 16，分為「在知識本體中同階層的知識概念」、

「找尋知識概念的候選增補知識概念」、「檢查候選增補知識概念是否有重複」、「候選增補知識概念添加進知識本體」、「檢查候選增補知識概念在父知識概念的排名順序」以下分別說明各部分之內容。

(53)

圖

圖 16 自動

42

動化增補知知識本體之之流程

(54)

 在知自動化增最下層的知補流程後整個知識本

以圖 17 計畫、施工階層開始往為第三層的層的系統

知識本體中增補知識知識概念

，會再選取本體中的 7 為例，在工排程、防

往上進行的應用程

、模型、

圖

中同階層的識本體之流念為起始，

取在知識的知識概念

在知識本體防災計畫行增補流程程式、元件流程，再

圖 17 中文

43

的知識概流程的初始

進行增補識本體中上念都已經進

體架構中畫……等，

程，在第四件、規劃與再到最上層

文版 BIM 概念

始步驟。在補知識本體上一層的知進行增補為中，最下層

因此增補四層的知識與設計、施層的建築資

M 基本知識

在本研究中體之流程，

知識概念進為止。

層的概念為補知識本體識概念增補施工、營運

資訊模型

識本體

中由知識本

，結束該層進行增補

為第四層的體的流程將

補結束後運……等

。

本體層的

，直

的敷將從

，依

，第