• 沒有找到結果。

中 華 大 學

N/A
N/A
Protected

Academic year: 2022

Share "中 華 大 學"

Copied!
99
0
0

加載中.... (立即查看全文)

全文

(1)

中 華 大 學 碩 士 論 文

應用文件摘要知識萃取技術 改進工程 CAD 圖檔搜尋之研究

Improving the Search Efficiency of Engineering CAD Drawings with a Document Abstract

系 所 別:營建管理學系碩士班

學號姓名:M09916015 許 家 洋

指導教授: 余 文 德 博士

(2)

摘 要

電腦輔助繪圖(CAD)之檔案對於營建工程係一重要知識來源,其為營建工程專案 執行過程中所產生,然而現行的做法使得 CAD 圖檔管理的寶貴資訊之檢索與再利用 效率低且應用困難。如此,不但降低 CAD 文件之價值,更造成組織之管理成本負擔。

為解決此一問題,本研究提出一以圖說內容資訊為基礎之特徵文件探勘方法。此方法 分為兩個階段:1.檔案處理階段; 2.檔案使用階段。在檔案處理階段,首先於檔案處理 階段分析重要之圖檔資料;其次,提取 CAD 圖檔之摘要資訊;再其次,轉換並記錄 為特徵文件後,存入資料庫;最後,將資料庫內之資料內容轉化為向量空間模型(VSM) 在檔案使用階段,先由使用者輸入問句並轉為 VSM;其次,將問句之 VSM 與圖檔之 VSM 進行比對,計算出相似度;最後,依據相似度之得分順序,將最相關之 CAD 圖 檔提供使用者參考及下載。為測試本研究所提方法之正確性,本研究共設計五種搜尋 策略進行測試實驗:(1) 兩項內容關鍵詞;(2) 三項內容關鍵詞;(3) 一項內容關鍵詞 +圖形類型描述;(4) 二項內容關鍵詞+圖形類型描述;(5) 三項內容關鍵詞+圖形類型 描述。經過測試後發現,搜尋策略(4) “以兩項內容關鍵詞+圖形類型描述”之搜尋策略 已可以達到幾乎百分之百的搜尋正確性,因此,建議使用者以此一策略進行 CAD 圖 檔之搜尋與再取。本研究之成果可以大幅改進工程 CAD 文件之檢索效率,亦提供相 關圖說知識加值利用之關鍵技術,值得國內營建產業之參考。

關鍵字:CAD 圖檔、文件探勘、特徵文件、向量空間模型。

(3)

ABSTRACT

Computer aided drawings (CAD) are important sources of construction engineering, they are generated during the lifecyle of a construction project. However, current management practice has made the construction CAD documents difficult to retrieve and reuse. It does not only lower the value of CAD documents, but also increase the management cost of the firm. In order to tackle this problem, the current research proposes a content-based text mining method that consists of two stages: (1) CAD processing stage;

and (2) CAD retrieval stage. In CAD processing stage, the content of the CAD document is analyzed first; then the content information is extracted as characteristic document (CD);

following that, the CD is transformed into a vector space model (VSM) and stored into a database. In the CAD retrieval stage, the query description of the user is transformed as a VSM; then, the query VSM is matched with the CAD VSMs in the databse to calculate the similarity scores; finally, the CAD documents with highest similarity scores are retrieved and provided to the user. In order to test the proposed method, five searching strategies are tested: (1) two content keywords; (2) three content keywords; (3) one content keyword + drawing type; (4) two content keyword + drawing type; (5) three content keyword + drawing type. It is found that the Strategy (4) “two content keyword + drawing type”

achieves almost perfect search accuracy. As a result, Strategy (4) is suggested to future users of the proposed method. It is concluded that the proposed content-based text mining method can improve the retrieval efficiency of CAD document significantly. It also provides key technology required to utlize the knowledge of CAD documents. It is recommended to the construction industry.

Keywords: CAD document, text mining, characteristic document, vector space model.

(4)

誌謝

不知不覺,我已經從中華大學的營建管理學系畢業,也終於輪到我撰寫誌謝了。

首先,在求學過程當中,要感謝指導教授余文德老師的細心指導,在這求學的兩年間 余文德老師不論是課業上、論文上、研究案上甚至是做人處事上的態度均使我受益良 多。另外,也得感謝論文口試委員鄭紹材博士及楊智斌博士細心的建議與指導,使得 論文內容更加完整與詳細。

在研究所求學期間,得感謝系上的邱垂德老師、許玉明老師、楊錫麒、蕭炎泉老 師及石晉芳老師對於學生在課業上的細心指導與建議,也感謝新上任之院助理葉珮娟 小姐及系上新上任之助理張雅嵐小姐在行政事務上之大力幫助。

另外,感謝誌銘學長、智瑋學長、浩榕學長、小白學長、阿妹學姊、阿騰學長、

阿力學長、雅芳學姐細心且耐心的給予我許多建議、指導及協助。感謝班上同學嘟嘟、

蔣肥、NoNo、多芬、泱達、輝龍、棕熊、阿鋒、瞎哥、米腸及叮噹的互相扶持與鼓 勵。也感謝李鎧帆每次都耐心的陪我留在學校等我做完實驗或功課,更感謝鎧帆在我 因求學過程中的各種壓力壓得喘不過氣的時候,在旁耐心的給予支持與鼓勵。

最重要的是感謝我的家人,許淇鋐先生與王庭榆女士一直對我的耐心與關懷,大 哥許克銘、二哥許維呈以及妹妹許湘昀的關心與鼓勵,最後,感謝所有從小到大與我 一起長大的朋友們,在此獻上十二萬分的感謝之意。

僅以本文獻給對我最重要的父母、家人、師長與朋友。

許家洋 謹誌 中華大學營建管理學系碩士班 2012/08/09

(5)

目 錄

摘 要 ... i

ABSTRACT ... ii

誌謝 ... iii

目 錄 ... iv

圖 目 錄 ... vii

表 目 錄 ... ix

第一章 緒論 ... 1

1.1 研究背景 ... 1

1.2 研究問題 ... 2

1.3 研究目的 ... 2

1.4 研究範圍與限制 ... 3

1.5 研究方法 ... 3

1.6 研究流程 ... 4

第二章 文獻回顧 ... 6

2.1 工程圖知識管理相關 ... 6

2.1.1 知識管理之定義 ... 6

2.1.2 知識管理系統之定義 ... 6

2.1.3 知識管理系統之功能架構 ... 7

2.1.4 國內顧問公司工程圖說管理探討 ... 8

2.2 摘要萃取相關研究分析 ... 14

(6)

2.2.3 文件分類 ... 18

2.3 小結 ... 19

第三章 CAD 圖檔再取系統演算法 ... 20

3.1 系統需求與分析 ... 20

3.2 演算法規劃 ... 21

3.2.1 CAD 圖檔摘要萃取 ... 21

3.2.2 向量空間模型 ... 29

3.2.3 基礎語料庫向量空間模型 ... 32

3.2.4 斷詞演算法 ... 35

3.2.5 文件比對 ... 36

3.3 系統演算流程 ... 38

3.4 小結 ... 39

第四章 CAD 圖檔再取系統開發 ... 40

4.1 研究工具 ... 40

4.2 系統架構 ... 40

4.3 系統展示 ... 41

第五章 系統測試 ... 44

5.1 實驗資料 ... 44

5.2 實驗設計 ... 45

5.3 實驗成果 ... 48

5.4 實驗成果分析 ... 51

5.5 相關技術之效益比較 ... 53

5.5.1 與 AutoDesk University 建議方法花費時間比較 ... 54

5.5.2 與中興顧問工程之工程圖檔保存系統花費時間比較 ... 54

(7)

5.5.3 與中興顧問工程之工程圖檔保存系統花費成本比較 ... 55

第六章 結論與建議 ... 57

6.1 結論 ... 57

6.2 建議 ... 59

參考文獻 ... 60

附錄一:臺北政府捷運工程技術文件數量 ... 64

附錄二:實驗資料 ... 65

(8)

圖 目 錄

圖 1.1 研究流程圖 ... 5

圖 2.1 知識管理系統功能架構 ... 7

圖 2.2 以微縮方式處理結案計畫保存示意圖 ... 8

圖 2.3 中興工程顧問舊有圖檔管理查詢步驟 ... 9

圖 2.4 數位影像文件頁示意圖 ... 10

圖 2.5「數位影像文字頁」製作流程圖 ... 12

圖 2.6 以數位建檔方式處理結案計畫保存示意圖 ... 13

圖 2.7 中興工程顧問現有圖檔管理查詢步驟 ... 13

圖 2.8 資料庫知識發掘(Knowledge Discovery in Database)步驟 ... 16

圖 3.1CAD 圖檔再取系統初步流程 ... 21

圖 3.2 CAD 摘要萃取開始頁 ... 22

圖 3.3 摘要萃取檔案命名 ... 23

圖 3.4 定義資料來源 ... 24

圖 3.5 選取物件 ... 25

圖 3.6 選取性質 ... 26

圖 3.7 細化資料 ... 27

圖 3.8 選擇輸出頁面 ... 28

圖 3.9 原始檔案(以 txt 檔為範例) ... 29

圖 3.10 向量檢索表示法 ... 30

圖 3.11 詞彙-文件矩陣 ... 30

圖 3.12 向量表示法 ... 31

圖 3.13 以語料庫為基礎之自動摘要技術系統概觀 ... 32

圖 3.14 壓縮比對摘要系統正確率的影響 ... 35

圖 3.15 CAD 圖檔再取系統流程圖 ... 38

圖 4.1 CAD 圖檔再取系統架構 ... 41

圖 4.2 系統搜尋頁面 ... 41

圖 4.3 系統搜尋結果 ... 42

(9)

圖 4.4 檔案下載 ... 42 圖 4.5 原始檔案 ... 43 圖 5.1 驗證分析流程圖 ... 47

(10)

表 目 錄

表 2.1 掃描影像容量比較表 ... 11

表 2.2 IBM 於文字探勘之分類 ... 18

表 3.1 正向長詞斷詞法及反向長詞斷詞法 ... 36

表 5.1 CAD 圖檔實驗資料數量表 ... 44

表 5.2 初步 CAD 圖檔測試案例數量表 ... 44

表 5.3 篩選後之 CAD 圖檔測試案例數量表 ... 45

表 5.4 CAD 圖檔之關鍵詞搜尋實驗策略(以檔案編號 1239 為例) ... 46

表 5.5 CAD 圖檔再取系統實驗成果 ... 49

表 5.6 CAD 圖檔再取系統實驗成果統計表 ... 52

表 5.7 摘要資訊萃取與儲存方式之時間差異比較表 ... 54

(11)

第一章 緒論

1.1 研究背景

Drucker 學者指出,知識型社會真正的投資在於員工的「知識」[1]。公司內之「知 識」多半來自員工多年來之經驗累積中,這些專業知識分佈於員工們製作出之「技術 文件」內。因此,挖掘、探索出這些「技術文件」,並保留、應用係當前之重要課題。

依據中興顧問公司王承順顧問發表之期刊中得知,「知識」為營建工程產業除人、

機、料外之第四大資源,且越用越豐富之資源,「知識管理」之引進將是因應營建工 程市場萎縮、國外競爭者紛紛加入及員工流動率增加之方式,其引進將對營建工程各 環節造成深遠的影響[2]。從曾惠斌教授之研究成果中也可得知,現今企業之存活關 鍵,為運用內部專業知識重要之「智慧資產」和「人才經驗」,並將系統加以整合,

繼而提升解決問題的能力和決策的品質,因此,在快速變革的數位時代,「知識管理」

便儼然成為企業之核心競爭力所在[3]。為落實經驗傳承、提高效率與安全管控之理 想,利用先進之資訊技術,完成一套管理完善之技術文件管理資訊系統[4],將可大 大提升營建企業之產業競爭力。

工程顧問業對工程提供自可行性研究開始,經調查研究、規劃、環境評估、初步 設計、細部設計,乃至施工監造與營建管理等各階段之工程技術服務,於服務期間逐 步將業主之需求以圖文形式表達成具體構想,再於現場實際建造出來。各服務階段中,

不論參考資料或工作成果,皆以文字、表格、圖形、相片、影帶等各類技術文件表現,

其中工程圖尤為重要[5]。由於近年資訊技術的進步與廣泛應用,工程圖亦採用電腦 輔助設計(computer aided design, CAD)文件,其重要性可從以下三點得知:1.它係一項 有效之溝通工具,以說明工程之施工理念;2.它亦係一項法律文件,提供工程上之各 階段品質標準依據;3.可提供工程師或建築設計師重複使用,以有效率地完成設計。

由於資訊時代之來臨,電腦軟、硬體設備隨之進步,使得資料蒐集及查詢擁有更方便 之輔助工具[5],因此發展出知識管理系統管理組織之知識。現有之知識管理系統 (Knowledge Management System, KMS)廣泛運用於建立知識管理機制以累積個人及公 司之「智慧資產」,促進員工知識成長及運用智慧資產之能力,藉此提供業主更滿意 的服務,以達到公司業績目標[6]。由上可知,藉由知識管理系統將 CAD 圖檔有效地

(12)

智慧資產化,將可提升營建企業之產業競爭力,但目前之知識管理系統對 CAD 圖檔 之檢索尚須改進。

1.2 研究問題

目前,大型企業普遍使用 CAD 系統超過三十年以上。中小型企業因個人電腦科 技進步,且設備成本快速降低,近十年來導入 CAD 系統的比例也大幅提高,幾乎完 全取代人工製圖的設計程序,可說是目前設計與製造流程中最重要之工具。從企業採 用 CAD 系統開始,圖檔之管理與檢索係一重要課題[7]。以捷運工程局為例,臺北政 府捷運工程局擁有之 CAD 圖檔至 99 年 3 月底統計有 235,095 個[8],其數量如附錄一 所示。因此,如何供使用者從如此大量之 CAD 圖檔快速查詢出所需之 CAD 圖檔,

係一值得研究之重點。

然而如此大量之 CAD 圖檔供使用者從資料庫內搜尋,單憑檔案名稱為索引,著 實難以評斷檔案是否為使用者所需之圖面,倘若將內容逐一閱讀,勢必對資料再利用 效率上造成相當大之負擔。因此,如何將 CAD 圖檔之摘要資訊萃取並納入索引目標,

也係一重要研究課題。

1.3 研究目的

依據上述之研究問題,本研究旨既有知識管理系統中應用摘要萃取技術建立

「CAD 圖檔再取系統(CAD drawing retrieval system )」,以營建業之 CAD 圖檔為研究 對象,並藉系統對 CAD 圖檔進行實證分析。期望透過實證分析後獲得以下結果:

一、過去使用者需從資料庫內之大量檔案中搜尋所需圖面檔案,並將內容逐一閱讀,

此一行為勢必對資料再利用效率上造成相當大之負擔。因此,本研究期望透過摘 要萃取技術將 CAD 圖檔內之資訊取出並納入索引,如此,使用者即可針對圖檔 內容進行搜尋,增加使用者尋得目標圖檔文件之正確性,進而提升圖檔再利用效 率。

二、營建工程上使用之 CAD 圖檔數量龐大,即使能夠以 CAD 圖檔之內含資訊進行 搜尋,但若未有適當之檢索策略,是否能夠迅速且確實尋得目標 CAD 圖檔,依 然是一項問題,因此,本研究將規劃多種實驗策略進行 CAD 圖檔之搜尋與再取

(13)

三、營建工程上使用之 CAD 圖檔數量龐大,若使用人力處理檔案,勢必耗費大量時 間及成本,故本研究期望達到自動化處理檔案以縮短人員處理 CAD 圖檔之時間,

進而減少時間及成本耗費。

1.4 研究範圍與限制

雖營建業上之技術文件類型有 PDF、Word、eLearning 影片檔、PPT、Excel 試算 表、圖片檔、CAD 圖檔等,但本研究鑑於由施工建造之開始至結束皆須透過圖文形 式具體表達[5]且考量圖面類型繁多及數量龐大。因此,本研究以記載設計圖說之 CAD 圖檔為本研究主要處理類型。

1.5 研究方法

本研究針對 CAD 圖檔再取系統之開發,採取以下之研究方法:

一、初級及次級資料分析法

本研究將利用初級資料分析研究法,分析大量收集之 CAD 圖檔,歸納各圖檔內 有意義之內容架構、變數,便於整理出檔案之特徵模式。另外,本研究亦將參考其他 學者及機構所進行之類似研究成果,規劃營建工程 CAD 圖檔再取系統架構及功能設 計。

二、系統分析

根據前項研究問題探討出目前 CAD 圖檔之圖面類型繁多及數量大,若要從中抓 取目標圖檔文件,將耗費過多時間、人力、成本。因此,本系統必須能夠自動化處理 CAD 圖檔,且為幫助使用者快速且正確取得檔案,須透過摘要萃取之文字探勘功能 抓取文件資訊,最後透過文件比對功能,將圖檔內含之資訊與使用者問句進行比對,

並將符合需求之 CAD 圖檔提供給予使用者。

三、系統設計

藉由系統分析理解需求後,使用 Visual Basic.NET 對研發之系統做功能性建置及 以 SQL 資料庫建立 CAD 圖檔之摘要資訊,並進行系統之測試,以期達到自動化處理 大量 CAD 圖檔及圖檔搜尋之功能。

(14)

並進行系統修正以提升檢索正確率。最後依據系統修正後之驗證結果,探討提升 CAD 圖檔再取系統效率之搜尋方式。

1.6 研究流程

本研究之研究流程如下所示:第一章緒論,主要為研究動機與目的之確立;第二 章文獻回顧則主要針對相關文獻進行蒐集與整理,並對於現況問題進行了解與研究構 思;第三章系統演算法,主要回顧系統使用之技術與系統演算法以提供後續之系統開 發參考;第四章系統開發,建立 CAD 圖檔再取系統;第五章結果驗證,利用 CAD 圖檔再取系統處理 CAD 圖檔,並進行案例驗證以檢測系統正確率,且針對驗證之結 果進行回饋修正系統,最後提出可提升搜尋效率之方式;第六章結論與建議,依據本 研究之系統測試結果對 CAD 圖檔之查詢時間是否縮短及效率是否提升做出結論,並 提出本研究不足之處,以提供未來相關領域研究人員實質上有幫助之建議。

(15)

第一章 緒論

第二章 文獻回顧

第三章 系統演算法

第四章 CAD圖檔再取系統

開發

第五章 結果驗證

第六章 結論與建議 CAD圖檔再取系統開發

系統測試

結論與建議 回

饋 修 正

研究動機與目的之確立

CAD圖檔再取系統 模式建構

CAD圖檔再取系統演算法 工程圖知

識管理相 關研究

摘要萃取 相關研究

圖 1.1 研究流程圖

(16)

第二章 文獻回顧

2.1 工程圖知識管理相關

2.1.1 知識管理之定義

「知識管理」的存在無所不在,不論百科全書、設計手冊、標準作業流程等,皆 為透過知識之收集、整理、學習、應用、創造與回饋等管理循環下產生之結晶[2]。

知識管理也是一種取得、創造、擁有、統合、學習的系統化過程,並以資訊、理解、

經驗強化表現出來[9]。知識管理更是結合組織內的管理制度,管理文化輔以資訊科 技,以創造、擷取、擴散、建構儲存知識的過程,並提升與顧客、工作夥伴、供應商 的關係,其主要目的在改進應變、創新能力,提升企業競爭力[10]。

公司進行知識管理之目的,在於將個人層面的內隱知識,轉換為組織層面之外顯 知識,創造企業核心價值[11]。知識管理更可提升企業組織內創新知識的品質與數量,

並強化知識之可行性與價值[9]。在知識管理中,涉及知識的擷取、儲存及運用與分 享,因被分享後的知識能創造出更高之價值[12]。依上述可知,知識管理即是「管理 知識」的工具與管道,透過將知識儲存及蒐集後,再利用將會獲得無限創意與構想,

提升公司之智慧資產。

2.1.2 知識管理系統之定義

知識管理系統即是用來管理組織的資訊系統,也就是基於資訊科技來支援組織創 新、儲存檢索、轉移與應用之系統,其主要目標包括[13]:

一、編撰並分享最佳知識 二、建立企業知識目錄 三、建立知識網路

知識管理系統在台灣被定義為電腦資訊系統,目的在為企業組織擷取、保存、分 享、創造和實踐知識時,將更為方便和有效[14]。但林東清教授認為:一個所謂整合 型的知識管理系統,指的是專為支援組織知識管理所開發的資訊系統,具備支援知識 管理各個流程的主要功能,包括知識的定義、搜尋、分類、儲存、分享等,如企業入

(17)

口網站,也是大部分企業所利用的知識管理系統型式[15]。知識管理系統即是一項對 於知識進行創造、捕獲、整理、傳遞、共享,繼而創造新知識的完整管理系統[16]。

2.1.3 知識管理系統之功能架構

於 2002 年的”Intelligent Content Management System Project Presentation”作者以 2001 年歐洲知識管理研討會(The European KM Form)裡關於知識管理技術的討論為 基 礎, 彙整 出知識 管 理系統參考 架構 (Knowledge Management System Reference Architecture),認為知識管理系統應包含六組不同面向之功能項目:領域本體論 (domain ontology)、內容儲存(content repository)、知識管理系統執行合作者(KMS actor collaboration)、知識安全(knowledge security)、內容整合(content integration)、知識散 佈(knowledge dissemination)。其詳細架構圖如圖 2.1 所示,在每個功能項目下皆有多 個子功能,建構成一個多面向之知識管理系統架構[17]。

圖 2.1 知識管理系統功能架構 資料來源:引用自[17]

(18)

2.1.4 國內顧問公司工程圖說管理探討

中興工程顧問自成立以來,即體會到工程技術之重要性,並著手進行工程技術資 料之保存與管理,且早在二十幾年前即以微縮配合圖書館管理工程圖說。結案報告保 存流程為專案計畫結束後,填妥「計畫完成資料目錄表」以申請資料保存。申請後資 料分成工程圖與書面報告部分,以進行保存流程。書面報告經過圖書編碼、建立索引 資料後存至圖書室供借閱。工程圖經過製作微縮膠片及建立索引資料後,原圖送至倉 庫保存,微縮膠片則存至圖書室供借閱,如圖 2.2 所示[5]:

專案計畫結束

填妥

「計畫完成資料目錄表」

申請資料保存

製作微縮膠片 圖書編碼

建立索引資料 建立索引資料

存圖書室 供借閱

存倉庫 保存

存圖書室 供借閱 工程圖

書面報告

微縮膠片 原圖

圖 2.2 以微縮方式處理結案計畫保存示意圖 資料來源:引用自[5]

但隨著大量累積經驗及檔案後,其技術文件內涵知識隨之大量增加,導致雖有知 識累積卻查詢費時,當中興顧問內部工程師因工作上之需求,需查閱已保存之工程圖 時,得先至圖書館翻閱「完成計畫總目錄」以得到欲查詢之計畫編號,再由計劃編號

(19)

查詢「工程圖目錄」得到欲查詢圖面之縮影序號,接著取得縮影卡片,最後至特殊之 膠片檢視設備上瀏覽列印。其查詢步驟如下圖 2.3 所示[5]:

前往 圖書室

查詢 完成計畫總目錄

查詢 工程圖目錄

取得 微縮資料卡

瀏覽或列印 微縮資料

歸還 微縮資料卡

圖 2.3 中興工程顧問舊有圖檔管理查詢步驟 資料來源:引用自[5]

根據上述之工程圖保存及查閱方式,得到有待改進之缺點如下[5]:

一、微縮相關設備之價格昂貴,維護成本高。

二、微縮膠片製作之人力、耗材成本偏高。

三、資料保存之媒體不佳、膠片易受潮,儲存時間稍久之資料流失。

四、管理辦法採用計畫編號之編碼方式,無工程分類,較不易資料查詢。

五、硬體設備較特殊,工程師需親自到圖書室查詢,極不方便,且無遠程服務。

(20)

七、無版次管理。

八、無閱覽權限之管制。

九、無原始向量圖檔之管理資訊。

由上述可知舊有之技術文件管理技術相當耗費時間與成本且保存不易,勢必對於 顧問公司之產業競爭力甚大影響。因此,中興工程顧問有鑑於微縮管理耗費時間、人 力及成本,所以提出採用「數位影像文字頁」管理工程圖檔。先以掃描方式產生數位 影像為基礎,利用網路上直接瀏覽及資料易於永久保存之優點,透過影像辨識(Optical Character Recognize, OCR)技術萃取出可用文字以建立影像與文字鏈結之關聯即為數 位影像文字頁,如圖 2.4 所示:

圖 2.4 數位影像文件頁示意圖 資料來源:引用自[2]

數位影像文字頁可應用於影像檢索、再利用、影像目錄、關鍵字群等知識加值化 處理,萃取之文字亦可做為進行知識探勘(Data mining)之用,其詳細介紹如下[2]:

一、數位影像

採用掃描方式將紙本文件數位化成影像格式,如此保留文件最佳原始面貌,且利 於網路環境上閱覽、傳遞及分享;在此提出掃描方式採二次半處理,分別為純黑白、

半色調(Half-Tone)及部份之彩色頁掃描,說明如下:

(1)、純黑白掃描:適用於純文字及線條圖表頁面,解析度 300 dpi (dot/inch)。

(2)、半色調掃描:適用於灰階圖表、黑白照片之頁面,解析度 300 dpi。

(3)、彩色頁掃描:僅用於紙本文件內之彩色頁面,解析度 200 dpi。

(21)

掃描二次以確保文件掃描時不漏頁、不同頁面選擇適當的掃描方式,以擬真化處 理呈現紙本文件之真實面貌;彩色頁掃描僅掃描紙本文件內之彩色頁,未全面掃瞄故 以半次稱之;掃描完成後,選取各頁最適合之掃描成品,合併成一個 TIF 6.0 之複合 檔案格式儲存。由於黑白與彩色之檔案容量差距甚大,適當選用掃描色彩,以求得真 實表現原始文件及減少掃描後之影像容量與提高使用者上網瀏覽速度。

表 2.1 掃描影像容量比較表

原稿尺寸 A4 A1

黑白(300 dpi)TIF 35 Kb 200 Kb

彩色(200 dpi)JPG 600 Kb 2000 Kb 資料來源:引用自[2]

二、將文字識別結果與文字影像鏈接

為加值數位影像,利用影像辨識(Optical Character Recognize,OCR)技術,擷取影 像中之文字,提供搜尋、全文檢索與知識探勘之用,並建立文字與影像的位置鏈結關 係,輔助文件搜尋與全文檢索。但由於掃描產生影像之清析度、歪斜、黑邊、雜點及 活頁夾產生之黑洞,不但影響閱讀之質感,也影響影像 OCR 之辨識率。對於一般工 程報告,經過前述處理之高品質影像,其辨識率可遠超過 95%以上,其後再建立每一 識別文字與影像的位置鏈結關係及文字間之段落關係,並存放資料庫內以完成「數位 影像文字頁」之製作。上述作業流程如圖 2.5,可採用電腦自動化處理以提高效率。

(22)

圖 2.5「數位影像文字頁」製作流程圖 資料來源:引用自[2]

三、運用頁內知識作為知識探勘來源

將影像辨識出來的文字,去除亂碼及不必要的符號,利用關鍵詞自動擷取技術[19],

產生頁內之關鍵字群及重點摘要,做為知識探勘時之重要來源。

經由上述技術文件處理步驟後,結案計畫保存方式變更為專案計畫結束後,填妥

「計畫完成資料目錄表」及「計畫資料清單」以申請資料保存,申請後資料一樣分成 工程圖與書面報告部分進行保存流程。書面報告除經過圖書編碼、建立索引資料後存 至圖書室供借閱外,額外增加資料建檔及存光碟片供借閱。工程圖更動為製作影像圖 檔及建立索引資料後,原圖送至倉庫保存、影像檔存伺服器供借閱、微縮膠片存至光 碟片供借閱,如圖 2.6 所示:

(23)

專案計畫結束

填妥

「計畫完成資料目錄表」及「計畫資料清單」

申請資料保存

製作影像圖檔 圖書編碼

建立索引資料 建立索引資料

存圖書室 供借閱

存倉庫 保存

存光碟片 供借閱 工程圖

書面報告

原圖 微縮膠片

存伺服器 供借閱 影像檔 建立資料建檔

存光碟片 供借閱

圖 2.6 以數位建檔方式處理結案計畫保存示意圖 資料來源:引用自[5]

以數位建檔方式管理圖檔後,只需透過座位附近之個人電腦並運用網路直接查詢 電腦資料庫即可檢索技術文件影像資料,檢索得到之資料可透過顯示或採用列印工程 圖影像資料取得,如圖 2.7 所示:

利用座位附近之 個人電腦

透過電腦網路 直接查詢資料庫

顯示或列印 工程圖影像資料

圖 2.7 中興工程顧問現有圖檔管理查詢步驟

(24)

從圖 2.7 可得知經過數位建檔後,檔案查詢方式更為簡略,對於知識再利用上也 將提升更大之效率。中興工程顧問如此著重於工程技術資料之保存與管理,是因營建 產業係一「經驗導向」之產業,雖每項工程都具唯一性,但工程之施工程序與管理技 巧卻具有相同的模式和方法,所以過去案例所得到之經驗及知識,皆可應用於未來的 個案,對於新的專案工程有很大的助益[20]。因此,如何將員工累積之工作經驗和知 識作有系統的管理與傳承,實為增加公司競爭力的不二法門。

2.2 摘要萃取相關研究分析

2.2.1 摘要類型

現有文件資料等主要可分為結構化(structural)資料、非結構化(non-structural)資料 以及半結構化(semi-structural)資料。結構化資料以資料庫觀點來看,即為依據「資料 綱要」分門別類建置於資料庫,使用者可依類別搜尋資料。非結構化資料為一般普遍 所見之文件等皆為此類,同樣文件內容會依撰寫者習慣不同而產生截然不同之文章,

此類型資料較無既定規律,半結構化資料則介於兩者之間[21]。摘要為文字探勘的其 中一種方法,目的是作為文件之重點提示,透過一定之自數將原本內容所要描述之訊 息整理出來,根據文件摘要所要達成目的其類型可分為指示性摘要、訊息性摘要、評 論性摘要、摘錄[22, 23]:

一、指示性摘要(Indicative Abstract):

提示使用者該文件的存在,並提供使用者足夠資訊,使其能決定是否需要閱讀其 原始文件。具有宣示、篩檢、回溯功能。

二、資訊性摘要(Informative Abstract):

提供豐富的內容資訊,有時甚至可以取代具有取代、回溯功能。

三、評論性摘要(Critical Abstract):

以摘要的型式對原始文件作一個評論。具有回溯功能。

四、摘錄(Extract):

直接由原始文件之字句中,選取提供事實資料的文句、段落等,其可能是指示性 或資料性的性質。具有宣示、篩檢、取代、回溯功能。

(25)

上述各摘要類型具有之功能說明如下:宣示功能:是宣示原始文件的存在性;篩 檢功能:判斷原始文件的相關性;取代功能:取代原始文件;回溯功能:查詢原始文 件[22]。

2.2.2 文字探勘

文字探勘亦可稱為文字知識發掘(Knowledge Discovery fromText, KDT)或文件資 訊探勘(Document Information Mining),其過程目的在從大型資料集合(Data Sets)中找 出隱含的、未知的與具有潛在價值的資訊[23]。Fayyad 認為資料庫知識發掘是由資料 中發現並確認有效、未知、並且具有使用潛力趨勢的一個過程,而資料探勘是資料庫 知識發掘最特殊的一個步驟,它可以運用某些特殊的演算法取出資料中的特徵與模型 [24]。Brachman et al.認為知識發掘所有活動及過程,是為了從資料中找到有用的樣式,

其中包括運用資料探勘的演算法,以及對於知識的再次處理,並找到解決問題的關鍵 原因[25]。

Han et al.認為資料探勘為資料庫知識發掘中的一個步驟。並指出資料庫知識發掘 過程包 括資料 清理 (Data Cleaning) 、 資料整 合 (Data Integration) 、 資料選 擇 (Data Selection)、資料轉換(Data Transformation) 、資料探勘(Data Mining) 、樣式評估(Pattern Evaluation)、知識呈現(Knowledge Presentation)等七個步驟如圖 2.8 所示,各步驟之意 義說明如下[26]:

一、資料清理:將錯誤、不完整或矛盾的資料去除。

二、資料整合:整合多種資料來源。

三、資料選擇:從資料庫中選取欲分析的資料。

四、資料轉換:透過加總或是程式的方法將資料轉換成適當的格式,以便進行資料探 勘。

五、資料探勘:應用統計或是演算方法萃取出資料的樣式。

六、樣式評估:根據各種標準進行樣式評估,並確認使用者真正感興趣的樣式。

七、知識呈現:將資料探勘的結果以視覺化、統計圖表或是規則的知識呈現技術提供 使用者參考。

(26)

圖 2.8 資料庫知識發掘(Knowledge Discovery in Database)步驟 引用自:[26]

Dörre 即指出文字探勘具有兩個主要困難點:(1)人工進行多樣且大量的文件特徵 選擇,缺乏效率且不符成本;(2)文件資料的內容維度過多,特徵的屬性不易清楚定 義或界定。因此,相較於資料庫探勘,文字探勘需要加上額外的資料選擇處理程序,

以及複雜的特徵擷取步驟[27]。

(27)

曾元顯也指出文字探勘所考量之因素、面臨的挑戰:(1)要能處理大量資料;(2) 要能快速回應,提供互動性;(3)多面向、多維度的分析;(4)高階、視覺化的使用介 面[28]。

在現今時代,許多非結構化(non-structural)或半結構化(semi- structural)的文件資料 中,常常隱藏著許多重要的資訊。因此,這些資料的重要性也將是不容忽視的 21。

然而,不管是半結構化或非結構化的資料,雖然隱含有有用的資訊,但卻無法利用一 般的方法直接分析取得,而必須借助一些特殊的技術來輔助,文字探勘(Text Mining) 技術即是這種類型的技術,文字探勘主要是用來處理非結構化或半結構化的資料,因 此,能夠幫助使用者從大量的文件資料中取得合適的資訊[29]。

Dan Sullivan(2001)[30]定義文字探勘為”一種編輯、組織及分析大量文件的過程,

為了要提供特定使用者特定的資訊,及發現這些特徵其間的關連。由於文件資料大都 不具結構性,所以無法直接進行分析。須先對資料預先做處理,擷取出適當的資訊後 才能進行,因此,文字探勘整合了一些傳統資訊檢索技術,如:關鍵資訊擷取、文件 自動分類、全文檢索等,使其能對文字資料提供更多的處理,讓使用者能更方便地從 文件資料中取得其所需的資訊。

IBM(1998)將文字探勘中文件分類技術,區分成下列兩種,兩種文件分類技術各 具不同的用途與特點[31],如表 2.2 所示:

(28)

表 2.2 IBM 於文字探勘之分類

叢集化 分類

將龐大的文件集合自動切分成數 個小叢集,並找出每個叢集的主題。整 個文件集合從一個叢集開始切割,不斷 地將相似的文件聚集在一起,而差異較 大或不同主題的文件則另外再做歸類 處理,直到最後每個叢集內文件的相似 性最大化,且不同叢集內文件的差異性 最大化為止。

將龐大文件集合中的文件分類到事先 定義好的類別中。與叢集化相同,會利用從 文件資料中擷取出來的特徵與統計資訊做 分類依據,然而,與叢集化不同的地方在 於,叢集化分類的類別是自動產生而非事先 定義,因此,無法預知分類的類別,而種類 化的分類類別,是事先產生的,且因為其建 基於這樣的架構上,所以,這種分類方法,

可以借助訓練的處理,提升最後分類結果的 準確性。

資料來源:整理自[31]

2.2.3 文件分類

文件分類目的在於加快資訊檢索速度及更精確的檢索出符合使用者需求之資訊。

一般文件自動分類程序大致可分為文件分類模型建立、文件分類兩階段[32]:

一、文件分類模型建立

以向量空間模型為基礎,用已知類別之文章當作訓練文件,於擷取出關鍵詞後利 用專業詞庫去除停用詞(Stop words)[33],接著計算關鍵詞在某一文件類別中之權重值。

權重值可應用詞頻乘逆向文件頻率 TFxIDF[34]、共同資訊(Mutual Information)[35]和 關聯詞(Correlation Coefficient)…等方法進行計算,以選擇權重較高之字詞作為文件分 類之的關鍵詞。接著利用關鍵詞與該關鍵詞在某一文件類別中之權重值配對所成之集 合來表示該文件類別之特徵。所有文件類別之特徵所成的集合即為此階段所建立出之 分類模型。

(29)

二、文件分類

此階段首先擷取待分類文件中之關鍵詞並計算關鍵詞之權重值,以得到待分類文 件之分類特徵。接著將待分類文件的特徵向量與分類模型中各類別之特徵向量作相似 度運算,找出與此文件最接近的類別。相似度的比對方法常用餘弦及內積公式計算。

文件分類相關的研究有甘可立等人在 2006 年提出之分類演算法[32],其論文針對 改善關鍵詞擷取方法,進行產業研究方面的文件分類實驗。協助企業在知識管理與資 訊服務上,提供更好的解決方案。

2.3 小結

由上述可知,知識管理技術對於營建產業影響甚大,其影響力甚至於攸關公司成 功與否。因此,知識管理系統之重要性是可想而知的。雖中興工程顧問對於工程圖說 管理已有顯著,然而掃描辨識技術對象為圖紙文件,而非再利用價值更高之電子檔案,

因此,目前尚須開發應對電子檔案之 CAD 圖檔管理系統。一般營建業普遍經手之 CAD 圖檔,常見資料結構為非結構化或半結構化之資料,此類型文件適合之資訊處理技術 為文字探勘。

綜合文獻分析的結果,本研究將嘗試應用文字探勘對 CAD 圖檔進行摘要萃取,

並將摘要資訊與 CAD 圖檔做關聯性連結,並透過知識管理系統進行整合,以提高 CAD 圖檔之再利用性。

(30)

第三章 CAD 圖檔再取系統演算法

本章節針對 CAD 圖檔再取系統所需之演算法進行回顧及分析,並導入第四章之 系統開發且於第五章進行 CAD 圖檔再取系統測試。

3.1 系統需求與分析

為達成本研究之目的,CAD 圖檔再取系統所需之功能為 CAD 圖檔摘要萃取、

CKIP 中文自動斷詞及系統自動化資訊萃取,各功能需求與分析之介紹如下:

一、CAD 圖檔摘要萃取

CAD 圖檔之圖面資訊為內容主軸,但透過圖面逐一瀏覽之搜尋方式效率低下,

因此,進行 CAD 圖檔之文字搜尋將可大幅提升系統搜尋效率。為達此目的,CAD 圖 檔再取系統需先將 CAD 圖檔之文字內容萃取而出,以提供 CAD 圖檔再取系統進行 文件比對之用。經研究發現,CAD 圖檔之文字摘要大致包含:圖名、圖面上之標註 資訊及一般說明等。因此,本研究進行摘要萃取時,將以抓取 CAD 圖檔之中文資訊 為主要目的。

二、CKIP 中文自動斷詞

現有之所有語言處理的系統都必須先分辨文件中之詞語才可進一步之系統功能,

例如翻譯、分析、了解、資訊萃取。因此,中文自動斷詞的工作成了語言處理必備之 技術,CKIP 中文自動斷詞即是由中央研究院所提出之斷詞技術。基本上自動斷詞大 多利用詞庫中收錄之詞和文件做比對,找出可能包含的詞。由於本研究針對營建業之 CAD 圖檔進行處理,因此,本研究將針對營建業之 CAD 圖檔包含的詞語進行詞庫新 增。

三、文件比對

由於 CAD 圖檔之數量龐大,若要逐一找尋實屬一大負擔。因此,本研究將透過 將使用者提出之關鍵詞與 CAD 圖檔之摘要資訊進行相似度比對,將符合之案例之文 件資訊及 CAD 圖檔載點呈現給予使用者,方便使用者快速瀏覽、使用。

(31)

3.2 演算法規劃

建立 CAD 圖檔再取系統之目的為讓使用者藉由 CAD 圖檔再取系統,以最短時 間尋得所需之 CAD 圖檔。因此,本研究採用摘要萃取技術,將 CAD 圖檔之文字內 容萃取而出,並為配合營建業之專有名詞,採用語料庫為基礎之摘要方法、長詞斷詞 法與向量空間模型之演算法,透過搜尋關鍵詞庫進行文件比對,提供適合使用者參考 之舊有 CAD 圖檔。CAD 圖檔再取系統初步規劃之系統流程如圖 3.1 所示。

摘要萃取

資料比對

提供舊有CAD圖檔 CAD圖檔

圖 3.1 CAD 圖檔再取系統初步流程

3.2.1 CAD 圖檔摘要萃取

依據 Autodesk university(AU)於 2007 年公布之文件得知,使用者可藉由 Auto CAD 2008 搭配 Microsoft Excel 或是 txt 記事本進行摘要萃取,方法如下[36]:

一、使用 Auto CAD 開啟 CAD 圖檔,並選取資料萃取(DATAEXTRACTION)指令。

二、選取資料萃取後,Auto CAD 即會進入資料萃取開始頁,開始頁面上有建立新資 料萃取及編輯既有資料萃取兩項選項,首先選取建立新資料萃取後點選下一步,

如圖 3.2 所示;接著 Auto CAD 系統即會提示使用者命名摘要萃取之檔案名稱,

使用者即可依據需求,進行摘要萃取之檔案名稱命名,如圖 3.3 所示。

(32)

圖 3.2 CAD 摘要萃取開始頁

資料來源:參考[36]步驟本研究自行產生圖面

(33)

圖 3.3 摘要萃取檔案命名

資料來源:參考[36]步驟本研究自行產生圖面

(34)

三、於資料萃取開始頁面點選下一步後,Auto CAD 系統即會前往定義資料來源頁面,

使用者可於定義資料來源頁面選取欲摘要萃取之圖面範圍,如圖 3.4 所示。

圖 3.4 定義資料來源

資料來源:參考[36]步驟本研究自行產生圖面

(35)

四、於定義資料來源頁面點選下一步後,Auto CAD 系統即會前往選取物件頁面,此 時使用者可選取需要萃取之圖面物件,並將不需要之資訊於此處先行過濾,如圖 3.5 所示。

圖 3.5 選取物件

資料來源:參考[36]步驟本研究自行產生圖面

(36)

五、於選取物件頁面點選下一步後,Auto CAD 系統即會前往選取性質頁面,此處可 先行於品類篩選處,選取所需之品類,品類包含:3D 視覺化、一般、文字、幾 何圖形、圖面、樣式、雜項及屬性,選取後可於性質欄位進行細部篩選,如圖 3.6 所示。

圖 3.6 選取性質

資料來源:參考[36]步驟本研究自行產生圖面

(37)

六、於選取性質頁面點選下一步後,Auto CAD 系統即會前往細化資料頁面,此處可 對欄位進行重新排序、篩選結果、加入公式欄及建立外部資料連結等動作,如圖 3.7 所示。

圖 3.7 細化資料

資料來源:參考[36]步驟本研究自行產生圖面

(38)

七、於細化資料頁面點選下一步後,Auto CAD 系統即會前往選擇輸出頁面,利用此 功能,使用者可將萃取之內容輸出至外部檔案,並選擇輸出為 Excel 試算表抑或 是 txt 記事本之檔案類型,如圖 3.8 所示。

圖 3.8 選擇輸出頁面

資料來源:參考[36]步驟本研究自行產生圖面

(39)

八、點選完成後,即可開啟擁有原始 CAD 圖檔摘要資訊之文件檔案,如圖 3.9 所示。

圖 3.9 原始檔案(以 txt 檔為範例)

依據上述之步驟,即可將 CAD 圖檔之摘要資訊萃取而出,並可提供後續智慧資 產化步驟之用。

3.2.2 向量空間模型

向量空間模型(Vector Space Mode, VSM)係一應用於資訊過濾、資訊擷取、索引 及評估相關性之代數模型,主要係將文件進行轉換、對應到空間中之向量。模型之建 置描述如下:

向量空間模型概念主要係將文件或者段落、句子以向量來表示,而當中所包含的 詞彙即為向量中之元素。有鑑於布林檢索的諸多限制,Salton 等人於 1971 年提出向 量模式之檢索系統[38],其與布林檢索不同之處為不再只是二元化的比對,且擁有部 分比對及相似度之觀念,藉由每項索引項目不同之權重值,來計算文件與查詢句 (Query)之間的相似程度。

在向量模型的實現上,首先必須將使用者之詢問句及資料庫中的文件轉換成維度 (Dimension)相同的向量表示法,假設查詢句的向量表示式為 ,

(40)

任一筆文件 也必須以同樣維度向量來表示 此向量即可視為 文件的特徵向量,表示方法如圖 3.10 所示,括號內之即為向量各元素 之向量值。

圖 3.10 向量檢索表示法 資料來源:參考自[39]

語料庫中每篇文件皆可透過 VSM 轉換成向量表示法,如圖 3.11 所示。利用建 構的模型,向量間關係如圖 3.12 所示,便可輕易的計算出查詢語句與文件向量間的 相似度,並進一步回饋給使用者。

圖 3.11 詞彙-文件矩陣

資料來源:參考自[40]

(41)

圖 3.12 向量表示法 資料來源:參考自[39]

利用公式 3-1[41]計算每項提問資訊的特徵值,藉以產生特徵向量,並將這些特 徵向量存到資料庫中供該案例作為比對之用途[41]。

(3-1)

:語意權重值

:關鍵詞 j 的長度

:案例 i 中最長關鍵詞的長度

:關鍵詞 j 在案例 i 中出現的頻率(次數)

:案例 i 中出現頻率最高的關鍵詞之頻率

:包含關鍵詞 j 的案例數 N:案例庫中的總案例數

(42)

3.2.3 基礎語料庫向量空間模型

使用詞幹代表文件通常會造成多字詞概念中不適當的分散[42]。因此,使用預先 儲存的詞語,而不是單一字詞或詞幹所產生的 VSM,將呈現更有效的檢索成果。

Kupiec 提出以語料庫為基礎,以加強 VSM 之文件檢索方式的自動摘要技術,其技術 流程分為兩個階段,如圖 3.13 所示[43]:

一、訓練階段:使用者必須輸入事先由人工標示好摘要的訓練語料庫,具有學習能力 的摘要系統會自動從每篇訓練語料庫其對應的摘要中擷取出具有代表性的特徵,

接著參考相關的領域知識,並選擇適當的學習演算法來產生相對應的摘要規則。

二、測試階段:輸入同類型的文件(與訓練階段不同的文件),系統根據學習得之摘要 規則擷取出相關的特徵,並套用摘要規則產生屬於該測試文件的摘要。

圖 3.13 以語料庫為基礎之自動摘要技術系統概觀 資料來源:參考自[43]

(43)

Kupiec43 並於 1995 年提出利用貝氏定理(Bayesian classifiers)應用於以語料庫為 基礎的文件摘要法中,用以計算出每個語句的權重值。假設每一個語句 s 是測試文件 S 中的任一個語句,而 到 是系統用以衡量語句重要性的 k 個不同的特徵,那麼語 句 s 屬於摘要的機率如公式 3-2[43]:

(3-2)

若每個特徵都是獨立事件的話,則公式 3-2 可簡化為公式 3-3[41]:

(3-3)

其中:

、 、 :在訓練階段時由訓練語料庫計算得知; :代 表訓練語料庫中每個語句屬於摘要的機率,為一常數值; :代表當語句 s 屬於摘要的情形時, 出現在摘要中的條件機率; :代表訓練語料庫中,特徵 的 分佈機率。

其他相關詳細公式如公式 3-4、公式 3-5 和公式 3-6[43]:

(3-4)

Eq.3-4:當 s 屬於摘要的情形下, 出現在摘要中的條件機率

(3-5)

Eq.3-5:訓練語料庫中,特徵 的分佈機率

(44)

(3-6)

Eq.3-6:訓練語料庫中,摘要語句的分佈機率

Kupiec 於其實作之系統中,用來判斷語句重要性的特徵主要為下列幾項:

一、語句長度

語句長短常會涉及到涵蓋資訊量之多寡,較長的語句所包含之資訊通常比較短肢 語句所含之資訊量來得豐富。Kupiec 等人認為語句的長度至少必須要 5 個字才能屬 於摘要。

二、提示片語(Fixed-Phrase)

文件中常用的提示片語,如「摘要」及「總結」等等,這些片語往往會出現在介 紹或總結主題敘述的語句中。他們認為文件中的語句如果包含這些常用的提示性片語,

那麼該語句便有極高的可能性屬於摘要。

三、段落位置(Paragraph)

他們將文件分為「段落起始」、「中間段落」以及「段落結尾」等三個部分;並認 為出現在 paragraph- initial 及 paragraph- final 這兩個部份的語句,通常會將主題或總 結主題的語句帶出,因此,落於這兩個部份的語句具有較高之重要性。

四、主題字詞

文件中,若某關鍵詞重複出現多次,則此篇文件的主題極可能與此關鍵詞有關。

他們認為擁有愈多出現頻率越高之關鍵詞語句,愈可能屬於文件之摘要。

五、大寫字詞(Uppercase Words)

文件中大寫(Uppercase)的字詞或是特殊之專有名詞 (Proper Nouns)具有較高之重 要性,因此擁有愈多大寫字詞或專有名詞之語句便愈可能屬於文件摘要。

Kupiec 等人於此研究中有兩個最重要的結論:

一、雖然使用上述五個特徵當作語句重要性的計算依據,但實驗的結果顯示,若只考 慮 Paragraph、Fix-Phrase 及 Sentence Length 之組合所得到之結果最佳。

二、文件摘要的壓縮比會影響到自動摘要系統結果之正確率。從圖 3.14 中可知,當 摘要系統所摘要出來的語句數目越多的話 (代表壓縮比越高),所得到之正確率

(45)

圖 3.14 壓縮比對摘要系統正確率的影響 資料來源:參考自[43]

3.2.4 斷詞演算法

本研究主要以長詞斷詞法(Maximum Matching Algorithm, MM)為使用之斷詞方法,

方式主要由一般的中文語句之一端開始,首先與詞庫已存入之詞進行比對,找出句子 中最長的詞,作為第一次斷詞之結果,去除第一次斷詞之結果後,對於句子剩下的部 分以同一方法繼續斷詞,直到句子的一端結束,完成一段語句的斷詞。一般來說可分 正向長詞斷詞法(Forward Maximum Matching, FMM)、反向長詞斷詞法(Backward Maximum Matching, BMM)[44]。正向長詞斷詞法為從句子之開頭由左至右進行比對 出詞庫中最長的詞;反向長詞斷詞法則為從句子的末端由右而左進行比對詞庫中最長 的詞[45]。正向長詞斷詞法及反向長詞斷詞法如表 3.1 所示。

(46)

表 3.1 正向長詞斷詞法及反向長詞斷詞法

語句 正向長詞斷詞法 反向長詞斷詞法

營建管理學系 營建管理/學系 營建/管理/學系

專案管理課程 專案管理/課程 專案/管理/課程

行政院公共工程委員會 行政院/公共工程/委員會 行政院/公共工程/委員會

本系統採用長詞斷詞法切割提問句及摘要萃取內容,以斷出關鍵字來提供文件比 對之用。由於長詞斷詞法屬於詞庫比對式之斷詞方法,需要詞庫內存有之詞才可正確 斷詞,雖無法解決未知詞語,但可藉由新增營建業專有詞庫,以提升系統對於營建業 常用詞語之敏銳度,對於營建業同仁之使用上有著實之幫助。

3.2.5 文件比對

文件比對中,相似度計算為目前廣泛運用之技術,不管是文件的群聚、分類、檢 索等,都需利用相似度計算進行處理。當文件與詢問詞用同樣的向量空間來表示時,

就可以將它們的相似度用量化的方法來呈現,而此相似度的計算,最直覺的方式即是 以 Cosine 來計算二向量的夾角,其值為 0 或大於 0 的值[40]:

(3-7)

與 分別為 VSM 所產生之兩個向量,提供在文件空間的等化(Normalize) 作用;藉由式 3.7 的運算,一個 Query 可分別對一案例之所有回應內容計算其與 Query 向量的 Cosine 值以得出相似程度的值,當兩向量夾角為 0 時,其 Cosine 值為 1 最 大值,而當兩向量夾角為 90 度垂直時,其 Cosine 值為 0 亦即相關度為 0。

對 於 向 量 中 索 引 項 目 可 透 過 TF-IDF(Term Frequency and Inverse Document Frequency)38 公式計算權重,其中的 TF 是屬於單一文件內部的分佈特性,它可以用 來描述一篇文件對某一索引項目的包含程度,亦即在本文中的出現頻率[40]。

(47)

(3-8)

上 式 即 在 第 i 篇 文 件 的 TF 值 ; 而 IDF 則 屬 於 全 域 資 料 的 分 佈 特 性 (Inter-document characterization),它是用以量測在所有文件中,不同索引項目的重要 程度,亦可將此值視為鑑別性的參考依據[40]。

(3-9)

其中 N 為資料庫中的文件筆數, 則是包含索引項目 的文件筆數,由式子 中可得知當 IDF 趨近 0 時,代表該索引項在絕大部分的文件中都有出現,因此本索 引項的鑑別性就會很低;相反的,若 IDF 值很大時,則此索引項只出現少數幾篇文 件中,則此項的鑑別性就顯得十分重要。將 TF 與 IDF 作乘法運算即為向量模式中最 常使用的權重計算法則[40]。

(3-10)

權重與相似度計算完成後,系統將建議之案例依序條列於系統介面,供使用者閱 讀、參考。

(48)

3.3 系統演算流程

經由需求分析及演算法規劃後,將結果整合並規劃出 CAD 圖檔再取系統流程圖,

主要目的為將 CAD 圖檔進行摘要萃取,並藉由摘要萃取及文件比對之方式,提供使 用者資料庫舊有之 CAD 圖檔給予使用者參考、使用,以求縮短製作圖面之時間。系 統流程圖如圖 3.15 所示。

摘要萃取

斷詞產生關鍵詞

轉換VSM

相似度比對

選取出較高相似度之語句

步驟一

步驟二

步驟三

步驟四

步驟五

展示結果及載點給予使用 者供參考及下載

CAD圖檔

圖 3.15 CAD 圖檔再取系統流程圖

(49)

針對圖 3.15 之流程說明如下:

一、步驟一:文件資料。將欲處理之 CAD 圖檔置於 CAD 圖檔再取系統處理之目標 資料夾。

二、步驟二:摘要萃取。針對 CAD 圖檔進行摘要萃取,將 CAD 圖檔內含之文字資 料萃取而出,以提供後續步驟使用。

三、步驟三:斷詞。運用長詞斷詞法針對步驟二之摘要資訊萃取步驟的摘要資訊進行 斷詞,以斷出摘要資訊內容之關鍵詞。

四、步驟四:向量空間模型(Vector Space Mode, VSM)。將斷詞後之關鍵詞進行特徵 向量轉換,並將特徵向量存到資料庫中,以供後續步驟比對之用途。

五、步驟五:相似度比對。將摘要資訊與查詢問句用相同之向量空間表示,以 Cosine 方式計算兩向量之夾角,其相似度即採用量化之方式呈現,以計算出相似度,當 兩向量夾角為 0 時,其 Cosine 值為 1 最大值,而當兩向量夾角為 90 度垂直時,

其 Cosine 值為 0 亦即相關度為 0。。

六、步驟六:將步驟五之相似度比對,藉由 TF-IDF 之公式計算權重,將計算出之所 有資訊進行權重排序。

七、步驟七:展示結果及載點。藉由相似度比對計算及權重計算,將計算出之符合案 例的摘要資訊部分列出,以提供使用者參考依據,並供檔案載點供使用者直接下 載利用。

3.4 小結

本研究提出之方式與中興顧問公司之方法最大之不同在於,中興顧問公司主要係 應用掃描辨識技術將工程圖紙轉換為圖片檔以供公司員工進行查詢、閱覽,而非再利 用價值更高之 CAD 圖檔;本研究提出之方式主要係針對再利用價值更高之 CAD 圖 檔進行摘要資訊擷取以作為文件比對之用,最後直接提供使用者進行參考、使用。

另外雖 CAD 圖檔摘要萃取採用 Autodesk university 給予之方法即可正確萃取出 CAD 圖檔之摘要資訊,但過程繁複,若採用人工處理勢必造成過多之人力及成本浪 費,因此,後續將於第五章中藉由 Visual Basic.NET 將上述步驟自動化,以達到縮減

(50)

第四章 CAD 圖檔再取系統開發

本研究依據實驗資料進行 CAD 圖檔再取系統之模式規劃,並依照模式規劃進行 系統建置,且將於第五章進行實驗,以提供使用者使用 CAD 圖檔再取系統時,提升 搜尋效率之方式。

4.1 研究工具

本研究以 Visual Basic.NET 為程式撰寫之平台,並以 Microsoft SQL Server 作為 資料庫連結來源,資料庫主要儲存的內容有 CAD 圖檔之文件資訊及文件內容。

本研究期望透過 CAD 圖檔再取系統,使用者得以在短時間內尋得資料庫之歷史 CAD 圖檔,為日後工程結案後之工程爭議處理提供快速之蒐尋管道。或透過參考歷 史 CAD 圖檔得以短時間內製作出新承包之案子所需的 CAD 圖檔,增加額外之時間 以處理其他事務,預計將可大幅提升公司之作業效率。

4.2 系統架構

依據第三章之 CAD 圖檔再取系統演算法之結果,規劃出 CAD 圖檔再取系統之 系統架構,如圖 4.1 所示,本研究提出之 CAD 圖檔再取系統包含以下部分:

一、摘要資訊:藉由 CAD 圖檔再取系統,針對存放現有 CAD 圖檔之文件庫內的 CAD 圖檔進行摘要萃取,萃取出文字內容以提供後續元件處理、使用。

二、特徵擷取:藉由中央研究院所提出之 CKIP 中文斷詞系統技術 37 及問題領域辭 庫(problem domain keyword base, PDKB),輔助 CAD 圖檔再取系統針對摘要資訊 之文字內容進行特徵擷取時之斷詞辨識,並提供 CAD 圖檔再取系統後續之文件 比對功能。

三、文件比對:使用者輸入關鍵詞後,CAD 圖檔再取系統藉由向量空間模型(Vector Space Model, VSM)將摘要資訊及使用者輸入之關鍵詞進行文件比對計算後,陳 列符合之建議案例資料給予使用者,並提供 CAD 圖檔之文件資訊及檔案載點。

(51)

關鍵詞庫 文件庫

·

CAD

摘要資訊

特徵擷取

文件比對 CAD圖檔 再取系統

·

CKIP

·

PDKB

條列 CAD 圖檔 文件查詢

VSM

圖 4.1 CAD 圖檔再取系統架構

4.3 系統展示

本研究係針對一項自然語言進行搜尋步驟作為示範案例。首先,使用者進入 CAD 圖檔再取系統之搜尋頁面後,輸入欲搜尋之檔案的搜尋問句,如圖 4.2 所示。

圖 4.2 系統搜尋頁面

輸入欲搜尋之檔案的搜尋問句後,使用者點下開始搜尋按鈕,CAD 圖檔再取系 統即開始進行搜尋。CAD 圖檔再取系統透過文件比對搜尋完畢後,即會列出與使用

(52)

圖 4.3 系統搜尋結果

搜尋完畢後,使用者即可透過點選右側之檔案下載。點選檔案下載後,CAD 圖 檔再取系統隨即彈跳出儲存檔案頁面以供使用者下載建議案例之 CAD 圖檔,其下載 畫面如圖 4.4 所示。

圖 4.4 檔案下載

(53)

使用者下載原始 CAD 圖檔後,使用者即可開啟原始 CAD 圖檔進行參閱及使用,

其原始 CAD 圖檔畫面如圖 4.5 所示。

圖 4.5 原始檔案

(54)

第五章 系統測試

5.1 實驗資料

為達確認 CAD 圖檔再取系統之廣泛運用性目的,本研究收集大量 CAD 圖檔進行 實驗,其選用之實驗資料為:中華民國國防部委託新竹市政府進行之眷村改建計畫的

「三廠國宅」眷村改建工程專案、新竹貿易二村、貿易八村新建統包工程及行政院公 共工程委員會提供之公共工程基本圖作為 CAD 圖檔測試案例。其中,三廠國宅之 CAD 圖檔有 629 個、貿易二村、貿易八村之 CAD 圖檔有 1331 個及基本圖之 CAD 圖檔有 134 個,共計 2094 個 CAD 圖檔。其 CAD 圖檔實驗資料數量,如表 5.1 所示。

表 5.1 CAD 圖檔實驗資料數量表

工程名稱 三廠國宅 貿易二村、貿易八村 公共工程基本圖

數量 629 1331 134

總計 2094

鑒於 CAD 圖檔數量繁多,因此,本研究將各 CAD 圖檔之圖面類型依每二十個檔 案取一個之模式,進行亂數抽樣選取案例 CAD 圖檔,若為無法整除之數量,則採用 無條件進位法決定初步 CAD 圖檔測試案例數量。經初步亂數抽樣後,三廠國宅之 CAD 圖檔 32 個、基本圖之 CAD 圖檔 7 個及貿易二村、貿易八村之 CAD 圖檔 67 個,共 計數量 106 個。選取出之 CAD 圖檔初步測試案例數量,如表 5.2 所示:

表 5.2 初步 CAD 圖檔測試案例數量表

工程名稱 三廠國宅 貿易二村、貿易八村 公共工程基本圖

數量 32 67 7

總計 106

另外,由於 CAD 圖檔係以圖面為主要內容,導致有些圖檔之文字內容趨近於零,

(55)

選,將文字內容較少之 CAD 圖檔測試案例進行篩選,篩選後之三廠國宅 CAD 圖檔 有 16 個、基本圖之 CAD 圖檔 4 個及貿易二村、貿易八村之 CAD 圖檔 34 個,共計 案例數量 54 個。篩選後之 CAD 圖檔測試案例數量如表 5.3 所示。

表 5.3 篩選後之 CAD 圖檔測試案例數量表

工程名稱 三廠國宅 貿易二村、貿易八村 公共工程基本圖

數量 16 34 4

總計 54

5.2 實驗設計

本研究為評估提升 CAD 圖檔再取系統之搜尋效率之方式,以藉此縮短使用者進 行搜尋花費之時間,因此,本研究將針對案例 CAD 圖檔之摘要進行關鍵字搜尋。首 先,將 CAD 圖檔之關鍵詞分為圖面類型及圖面內容兩項,圖面類型即為平面圖、立 面圖及剖面圖等,而圖面內容則為圖面內所能見到之摘要資訊,如扶手、欄杆及陽台 等。其次,規劃五種搜尋策略進行測試實驗:(1) 兩項內容關鍵詞;(2) 三項內容關 鍵詞;(3) 一項內容關鍵詞+圖形類型描述;(4) 二項內容關鍵詞+圖形類型描述;(5) 三項內容關鍵詞+圖形類型描述。最後統計出案例 CAD 圖檔之搜尋結果序位,藉此 提出欲提升搜尋效率時,應以何種形式進行搜尋為佳。其 CAD 圖檔之關鍵詞搜尋比 較方式範例如表 5.4 所示。

(56)

表 5.4 CAD 圖檔之關鍵詞搜尋實驗策略(以檔案編號 1239 為例)

檔案編號 1239

實驗次序 實驗一 實驗二 實驗三 實驗四 實驗五

檢索策略 二項內容關 鍵詞

三項內容關 鍵詞

一項內容關 鍵詞+一項 圖面類型關 鍵詞

二項內容關 鍵詞+一項 圖面類型關 鍵詞

三項內容關 鍵詞+一項 圖面類型關 鍵詞 關鍵詞 扶手+基座 扶手+基座+

剖面

扶手+平面 圖

扶手+基座+

平面圖

扶手+基座+

剖面+平面 圖

尋得序位 2 1 33 1 1

首先,以「扶手」及「基座」二項內容關鍵詞藉 CAD 圖檔再取系統進行搜尋,

搜尋結果序位在第 2 個 CAD 圖檔建議案例位置尋得編號 1239 之 CAD 圖檔;其次,

以「扶手」、「基座」及「剖面」三項內容關鍵詞藉 CAD 圖檔再取系統進行搜尋,其 搜尋結果序位在第 1 個 CAD 圖檔建議案例位置尋得編號 1239 之 CAD 圖檔;接著,

以「扶手」及「平面圖」一項內容關鍵詞+一項圖面類型關鍵詞藉 CAD 圖檔再取系 統進行搜尋,其搜尋結果序位在第 33 個 CAD 圖檔建議案例位置尋得編號 1239 之 CAD 圖檔;接著,以「扶手」、「基座」及「平面圖」二項內容關鍵詞+一項圖面類型關鍵 詞藉 CAD 圖檔再取系統進行搜尋,其搜尋結果序位在第 1 個 CAD 圖檔建議案例位 置尋得編號 1239 之 CAD 圖檔;接著,以「扶手」、「基座」、「剖面」及「平面圖」三 項內容關鍵詞+一項圖面類型關鍵詞藉 CAD 圖檔再取系統進行搜尋,其搜尋結果序 位在第 1 個 CAD 圖檔建議案例位置尋得檔案編號 1239 之 CAD 圖檔。依上述之方式 對 CAD 圖檔案例進行測試,將結果統整出數據並提出建議使用者進行系統搜尋之方 式。歸納以上之方式,CAD 圖檔再取系統之研究流程圖如圖 5.1 所示。

(57)

選擇關鍵詞

進行搜尋、

紀錄推薦案例 位置 隨機抽樣案例

案例分析、

回 檔案篩選 饋

修 正

圖 5.1 驗證分析流程圖

CAD 圖檔再取系統之實驗詳細流程如下:

一、隨機抽樣案例

對三廠國宅、貿易二村、貿易八村及基本圖之案例 CAD 圖檔進行隨機抽樣,經 隨機抽樣後的三廠國宅之 CAD 圖檔有 32 個;貿易二村、貿易八村之 CAD 圖檔有 7 個;基本圖之 CAD 圖檔則有 67 個,共計 106 個。

二、案例分析、篩選

針對隨機抽樣之案例 CAD 圖檔進行摘要資訊分析,接著將摘要資訊較少之案例 檔案進行篩選、剔除,經篩選後的三廠國宅之 CAD 圖檔有 16 個;貿易二村、貿易八 村之 CAD 圖檔有 4 個;基本圖之 CAD 圖檔則有 34 個,共計 54 個。

三、選擇關鍵詞

針對篩選後之 54 個案例 CAD 圖檔之摘要資訊進行分析,並挑選 CAD 圖檔內含

(58)

與平面圖、立面圖及剖面圖等圖面類型,以提供後續以 CAD 圖檔再取系統進行搜尋 及資料統計之用。

四、進行搜尋、紀錄建議案例位置

以第四項選擇出之三項關鍵詞,藉由 CAD 圖檔再取系統對各案例 CAD 圖檔進行 搜尋,將搜尋結果之 CAD 圖檔建議案例位置進行紀錄,以提供後續進行統計分析。

5.3 實驗成果

依據實驗設計之研究流程,本研究為評估提升 CAD 圖檔再取系統之搜尋效率,

首先,針對 54 個挑選出之案例 CAD 圖檔進行實驗,其次分析案例 CAD 圖檔內含之 摘要資訊,並擇三項內容關鍵詞及一項圖面類型關鍵詞作為搜尋的關鍵詞之用,並提 出五種實驗策略進行測試實驗:1. 兩項內容關鍵詞;2. 三項內容關鍵詞;3. 一項內 容關鍵詞+圖面類型描述;4. 二項內容關鍵詞+圖面類型描述;5. 三項內容關鍵詞+

圖面類型描述。最後將搜尋結果統整比較,並提出提升 CAD 圖檔再取系統之搜尋效 率的方式,其實驗成果如表 5.5 所示。

參考文獻

相關文件

The original curriculum design for the Department of Construction Engineering of CYUT was to expose students to a broad knowledge in engineering and applied science rather than

H., Liu, S.J., and Chang, P.L., “Knowledge Value Adding Model for Quantitative Performance Evaluation of the Community of Practice in a Consulting Firm,” Proceedings of

Jinhua Chen, “A Chemical ‘Explosion’ Triggered by an Encounter between Indian and Chinese Medical Sciences: Another Look at the Significances of the Sinhalese Monk

We showed that the BCDM is a unifying model in that conceptual instances could be mapped into instances of five existing bitemporal representational data models: a first normal

Salmon, Automatic Creation of Object Hierarchies for Ray Tracing IEEE CG&A 1987 Object Hierarchies for Ray Tracing, IEEE CG&A, 1987. • Brian Smits, Efficiency Issues

• Learn the mapping between input data and the corresponding points the low dimensional manifold using mixture of factor analyzers. • Learn a dynamical model based on the points on

Based on the defects of the safety control in the semiconductor electric circuit industry and the application of swarm Intelligence and knowledge management SECI model, the

“ Customer” ,employs the fuzzy analytic hierarchy process (FAHP) to develop a systematic model for the evaluations of knowledge management effectiveness , to reach the goal