• 沒有找到結果。

建築圖檔於知識資料庫建檔自動化之研究—圖檔中文字資訊萃取、比對、建檔自動化之研究

N/A
N/A
Protected

Academic year: 2021

Share "建築圖檔於知識資料庫建檔自動化之研究—圖檔中文字資訊萃取、比對、建檔自動化之研究"

Copied!
70
0
0

加載中.... (立即查看全文)

全文

(1)目次. 目次 表次‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧Ⅲ 表次 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧Ⅲ 圖次‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧Ⅴ 圖次 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧Ⅴ 摘要‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧Ⅶ 摘要 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧Ⅶ 第一章 緒論‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 緒論 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧1 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 第一節 研究緣起與背景‧‧‧‧‧‧‧‧‧ 研究緣起與背景 ‧‧‧‧‧‧‧‧‧1 ‧‧‧‧‧‧‧‧‧ 第二節 研究計畫目的‧‧‧‧‧‧‧‧‧‧‧ 研究計畫目的‧‧‧‧‧‧‧‧‧‧‧3 ‧‧‧‧‧‧‧‧‧‧‧ 第三節 相關研究情況‧‧‧‧‧‧‧‧‧‧‧ 相關研究情況‧‧‧‧‧‧‧‧‧‧‧4 ‧‧‧‧‧‧‧‧‧‧‧ 第二章. 研究方法與過程‧‧‧‧‧‧‧‧‧‧‧‧‧ 研究方法與過程‧‧‧‧‧‧‧‧‧‧‧‧‧7 ‧‧‧‧‧‧‧‧‧‧‧‧‧ 第一節 研究方法及進行步驟‧‧‧‧‧‧‧‧ 研究方法及進行步驟‧‧‧‧‧‧‧‧7 ‧‧‧‧‧‧‧‧ 第二節 建築圖檔知識庫自動化系統架構規劃‧ 建築圖檔知識庫自動化系統架構規劃‧12 第三節 圖檔文字資料萃取技術‧‧‧‧‧‧‧ 圖檔文字資料萃取技術‧‧‧‧‧‧‧16 ‧‧‧‧‧‧‧ 第四節 CAD 系統與資訊檢索系統整合技術‧ 系統與資訊檢索系統整合技術‧25 第五節 圖檔調閱查詢系統之建立與開發‧‧‧ 圖檔調閱查詢系統之建立與開發‧‧‧31 ‧‧‧ 第六節 系統設計‧‧‧‧ 系統設計‧‧‧‧‧ ‧‧‧‧‧‧‧‧‧‧‧‧‧34 ‧‧‧‧‧‧‧ 第七節 向量式圖檔轉換為影像格式之機制及成 效之探討‧‧‧‧‧‧‧‧‧‧‧‧‧ 效之探討‧‧‧‧‧‧‧‧‧‧‧‧‧42 ‧‧‧‧‧‧‧‧‧‧‧‧‧. 第三章 結論與建議‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 結論與建議‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧45 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 第一節 結論‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 結論 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧45 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 第二節 建議‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 建議 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧46 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 附錄一 專家訪談紀錄(一 ‧‧‧‧‧‧‧‧‧‧‧‧‧49 訪談紀錄 一)‧‧‧‧‧‧‧‧‧‧‧‧‧ ‧‧‧‧‧‧‧‧‧‧‧‧‧. I.

(2) 建築圖檔於知識資料庫建檔自動化之研究—圖 檔中文字資訊萃取、比對、建檔自動化之研究. 附錄二 專家訪談紀錄(二 ‧‧‧‧‧‧‧‧‧‧‧‧‧51 訪談紀錄 二)‧‧‧‧‧‧‧‧‧‧‧‧‧ ‧‧‧‧‧‧‧‧‧‧‧‧‧ 附錄三 期中報告審查會議紀錄‧‧‧‧‧‧‧‧‧ 期中報告審查會議紀錄 ‧‧‧‧‧‧‧‧‧53 ‧‧‧‧‧‧‧‧‧ 附錄四 期末報告審查會議紀錄‧‧‧‧‧‧‧‧‧ 期末報告審查會議紀錄 ‧‧‧‧‧‧‧‧‧57 ‧‧‧‧‧‧‧‧‧ 參考書目‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 參考書目‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧61 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧. II.

(3) 表次. 表次 表 2-1 文字資訊綱要‧‧‧‧‧‧ 文字資訊綱要‧‧‧‧‧‧‧ ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧20 ‧‧‧‧‧‧‧ 表 2-2 IRMS Search 搜尋模組產品規格‧‧ 搜尋模組產品規格‧‧‧ ‧‧‧‧‧‧ ‧‧‧‧27 表 2-3 伺服器軟體架構‧‧‧‧‧‧‧‧ 伺服器軟體架構‧‧‧‧‧‧‧‧‧ ‧‧‧‧‧‧‧‧‧‧‧‧‧‧34 ‧‧‧ 表 2-4 開發系統所需之軟體‧‧‧ 開發系統所需之軟體‧‧‧‧ ‧‧‧‧‧‧‧‧‧‧‧‧35 ‧‧‧‧‧ 表 2-5 客戶端所需之軟體‧‧‧‧‧‧‧ 客戶端所需之軟體‧‧‧‧‧‧‧‧ ‧‧‧‧‧‧‧‧‧‧‧‧‧35 ‧‧‧. III.

(4) 建築圖檔於知識資料庫建檔自動化之研究—圖 檔中文字資訊萃取、比對、建檔自動化之研究. IV.

(5) 圖次. 圖次 圖 2-1 研究步驟流程圖‧‧‧‧‧‧‧‧‧‧‧‧‧ 研究步驟流程圖‧‧‧‧‧‧‧‧‧‧‧‧‧10 ‧‧‧‧‧‧‧‧‧‧‧‧‧ 圖 2-2 系統作業流程圖‧‧‧‧‧‧‧‧‧‧‧‧‧ 系統作業流程圖‧‧‧‧‧‧‧‧‧‧‧‧‧11 ‧‧‧‧‧‧‧‧‧‧‧‧‧ 圖 2-3 系統架構規劃‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 系統架構規劃‧‧‧‧‧‧‧‧‧‧‧‧‧‧15 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 圖 2-4 系統元件呼叫流程‧‧‧‧‧ 系統元件呼叫流程‧‧‧‧‧‧ ‧‧‧‧‧‧‧‧‧‧‧‧15 ‧‧‧‧‧‧ 圖 2-5 文字資訊之 XML 結構描述(XSD)‧‧‧ ‧‧‧‧ 結構描述 ‧‧‧‧‧‧21 ‧‧ 圖 2-6 文字資訊範例文件‧‧‧‧‧‧‧‧‧‧‧‧ 文字資訊範例文件‧‧‧‧‧‧‧‧‧‧‧‧24 ‧‧‧‧‧‧‧‧‧‧‧‧ 圖 2-7 MicroStation 啟動檔範例文件‧‧ 啟動檔範例文件‧‧‧ ‧‧‧‧ ‧‧‧‧‧‧‧33 圖 2-8 系統功能設計架構‧‧‧‧‧‧‧‧‧‧‧‧ 系統功能設計架構‧‧‧‧‧‧‧‧‧‧‧‧36 ‧‧‧‧‧‧‧‧‧‧‧‧ 圖 2-9 圖檔上傳系統界面‧‧‧‧‧‧‧‧‧‧‧‧ 圖檔上傳系統界面‧‧‧‧‧‧‧‧‧‧‧‧37 ‧‧‧‧‧‧‧‧‧‧‧‧ 圖 2-10 選取上傳檔案系統界面‧‧‧‧‧‧‧‧‧ 選取上傳檔案系統界面 ‧‧‧‧‧‧‧‧‧37 ‧‧‧‧‧‧‧‧‧ 圖 2-11 圖檔調閱查詢系統界面‧‧‧‧‧‧‧‧‧ 圖檔調閱查詢系統界面 ‧‧‧‧‧‧‧‧‧38 ‧‧‧‧‧‧‧‧‧ 圖 2-12 圖檔調閱查詢系統界面 圖檔 調閱查詢系統界面‧‧‧‧‧‧‧‧‧ 調閱查詢系統界面 ‧‧‧‧‧‧‧‧‧39 ‧‧‧‧‧‧‧‧‧ 圖 2-13 圖檔定位系統功能‧‧‧‧‧‧‧‧‧‧‧ 圖檔定位系統功能 ‧‧‧‧‧‧‧‧‧‧‧39 ‧‧‧‧‧‧‧‧‧‧‧ 圖 2-14 計畫名稱管理系統界面‧‧‧‧‧‧‧‧‧ 計畫名稱管理系統界面 ‧‧‧‧‧‧‧‧‧40 ‧‧‧‧‧‧‧‧‧ 圖 2-15 新增計畫名稱系統界面‧‧‧‧‧‧‧‧‧ 新增計畫名稱系統界面 ‧‧‧‧‧‧‧‧‧41 ‧‧‧‧‧‧‧‧‧ 圖 2-16 向量式資料網格化‧‧‧‧‧‧‧‧‧‧‧ 向量式資料網格化 ‧‧‧‧‧‧‧‧‧‧‧43 ‧‧‧‧‧‧‧‧‧‧‧ 圖 2-17 向量式資料網格化再向量化‧‧‧‧‧‧‧ 向量式資料網格化再向量化 ‧‧‧‧‧‧‧43 ‧‧‧‧‧‧‧. V.

(6) 建築圖檔於知識資料庫建檔自動化之研究—圖 檔中文字資訊萃取、比對、建檔自動化之研究. VI.

(7) 摘要. 摘. 要. 關 鍵 詞 : 建 築 圖 檔 、 知 識 管 理 、 文 字 萃 取 、 XML、 自 動 化. 一、研究緣起 目 前 國 內 建 築 設 計 圖 大 多 採 用 電 腦 輔 助 設 計 軟 體 (CAD)繪 製 , 單 一 建 案 之 設 計 圖 檔 多 如 沙 數,管 理 調 閱 已 頗 為 困 難,更 莫 說 設 計 單 位 及 各 級 政 府 建 管 處 要 如 何 處 理 成 千 上 萬 之 建 築 圖 檔。因 此,如 何 為 數 量龐大之圖檔自動化納入知識資料庫中,便成為刻不容緩之研究課 題。. 二、研究方法及過程 本 研 究 總 期 程 為 兩 年,主 要 目 的 為 探 討 數 量 龐 大 之 建 築 圖 檔 自 動 化 納 入 知 識 資 料 庫 中 之 技 術,其 中 研 究 工 作 分 為 每 年 一 期,共 兩 期 工 作。本 年 度 為 第 一 期 工 作,主 要 著 重 在 圖 檔 文 字 資 訊 自 動 化 處 理 的 機 制,從 建 築 圖 檔 中 萃 取 文 字 資 訊,為 圖 檔 中 每 一 個 文 字 建 立 索 引,作 為 豐 富 的 查 詢 資 料 。 文 字 資 訊 儲 存 成 XML 格 式 的 文 件 , 使 其 可 在 異 質 系 統 間 流 通。本 研 究 採 用 Microsoft .NET 開 發 Web 應 用 程 式,整 合 CAD 系 統 與 龍 捲 風 資 訊 檢 索 元 件 平 台,設 計 建 構 自 動 化 建 置 資 料 功 能 之 知 識 庫 系 統,緊 密 整 合 知 識 檢 索 系 統 的 應 用 介 面,以 利 使 用 者 可 對 圖檔資料進行知識管理、共享與重複使用。. 三、重要發現 本 研 究 主 要 研 擬 建 築 圖 檔 知 識 庫 自 動 化 建 置 流 程,及 建 構 一 建 築. VII.

(8) 建築圖檔於知識資料庫建檔自動化之研究—圖 檔中文字資訊萃取、比對、建檔自動化之研究. 圖 檔 知 識 檢 索 系 統,以 資 訊 化 之 方 式 改 善 傳 統 人 工 處 理 流 程 之 效 率 問 題,使 圖 檔 資 料 可 充 分 共 享 與 重 複 使 用。本 研 究 對 於 建 築 圖 檔 知 識 庫 建檔自動化有以下幾點重要發現: 1.. 經過與中興工程顧問公司建築專家之經驗知識訪談後,定義 圖 檔 搜 尋 文 字 資 訊 之 綱 要 (schema), 包 括 檔 案 名 稱 、 檔 案 日 期、計畫名稱、計畫編號、文字內容、圖元型態、原點X座 標、原點Y座標、圖層、顏色共十個欄位。其中檔案名稱、 檔案日期、計畫名稱、計畫編號為建築圖檔知識檢索系統的 分 類 條 件 ;文 字 內 容 為 搜 尋 關 鍵 字 詞 ;圖 元 型 態 、 原 點 X 座 標、原點Y座標、圖層、顏色提供圖檔定位功能。. 2.. 本 研 究 所 開 發 之 知 識 檢 索 系 統 為 萃 取 CAD 圖 檔 中 所 有 圖 說 文 字 , 分 析 產 生 搜 尋 文 字 資 訊 XML 文 件 , 並 將 其 建 檔 為 資 料 庫。因 此 可 依 材 料、工 法、設 施 名 稱 等 為 關 鍵 字 詞 做 搜 尋 , 應用範圍廣泛。. 3.. 建築圖檔可儲存成向量格式或影像格式來建置知識庫。向量 格 式 圖 檔 轉 換 為 影 像 格 式 後 , 資 料 量 大 增 , 以 200dpi TIFF 檔 案 格 式 為 例,成 長 約 15 倍,且 圖 檔 已 無 法 以 向 量 之 方 式 再 利用。本研究使用向量格式為知識資料庫中圖檔儲存格式, 圖檔可以檔內文字做搜尋,充分共享與重複使用。但缺點為 使用者需要特定軟體才能夠讀取其內容。. 四、主要建議事項 根 據 研 究 發 現,本 研 究 針 對 建 築 圖 檔 知 識 庫 建 檔 自 動 化,提 出 下 列具體建議。以下分別從立即可行的建議、及長期性建議加以列舉。 立 即 可 行 之 建 議 -增 加 AutoCAD 格 式 輸 入 知 識 資 料 庫 自 動 化 及 智 慧搜尋文字功能。 主辦機關:內政部建築研究所. VIII.

(9) 摘要. 協辦機關:公立大專院校、已立案之顧問公司、建築師事務所 1. 當 圖 檔 使 用 向 量 格 式 儲 存 於 知 識 庫 中 時,不 同 CAD 系 統 的 圖 檔則必須有不同的轉接器將圖檔文字轉換成文字資訊。本研 究 第 一 期 完 成 MicroStation 圖 檔 轉 接 器 , 然 業 界 亦 廣 泛 使 用 A u t o C A D 繪 圖 軟 體 , 本 研 究 將 於 第 二 期 提 供 AutoCAD 格 式圖檔知識庫自動化建檔,並可搜尋調閱。 2. 就 知 識 管 理 而 言 , 本 研 究 至 今 的 貢 獻 是 突 破 「 資 源 探 索 」 的 廣 度,將 CAD 圖 檔 納 入 至 知 識 庫 內 容 作 管 理;本 研 究 第 二 期 將以強化「知識探索」的深度為主題,增加智慧搜尋文字功 能 , 以 求 更 進 一 步 提 高 搜 尋 結 果 的 正 確 性 。 例 如, 透 過 CAD 圖 檔 在 工 程 各 生 命 週 期 (規 劃、設 計、施 工 )階 段 時 之 標 準 化 資 訊,如圖檔命名規則標準化,圖框樣板標準化等,以自動分 析建立圖檔之描述資料、分類架構及圖檔關聯性等描述性資 訊 ;另 外,在 關 鍵 字 搜 尋 中 增 加 對 圖 檔 內 文 字 距 離 的 判 斷 與 篩 選,避免關鍵字搜尋出過多資訊,提高檢索結果的命中率。 長 期 性 建 議 -制 定 圖 形 交 換 標 準 及 建 立 各 單 位 間 圖 檔 知 識 庫 之 互 通原則。 主辦機關:內政部營建署 協辦機關:公立大專院校、已立案之顧問公司、建築師事務所 1. 政 府 已 積 極 推 動 制 定 圖 形 交 換 標 準,並 以 XML 結 構 資 料 作 為 資 料 交 換 平 台,例 如,制 訂 公 共 工 程 資 料 字 典 計 畫。XML 資 料檔案交換的優點是所有的內容可以包括在圖檔之中,圖檔 的 資 料 經 過 轉 換 , 仍 保 有 "智 慧 "。 例 如 , 圖 中 元 件 與 數 量 的 關 聯,以 及 相 關 CAD 圖 檔 的 參 考 關 係,各 個 圖 檔 平 面、立 面、 剖面的關聯互動等。本研究在實作知識管理系統時,即是以 XML 結 構 資 料 為 CAD 系 統 與 資 訊 檢 索 系 統 之 間 的 資 料 傳 遞 標準,未來若能完成制定圖形交換標準,圖檔知識檢索系統 以此標準資料為基礎,則能夠進行幾何圖元及關聯圖檔的檢. IX.

(10) 建築圖檔於知識資料庫建檔自動化之研究—圖 檔中文字資訊萃取、比對、建檔自動化之研究. 索與搜尋。 2. 建 築 物 在 規 劃 、 設 計 、 施 工 、 使 用 等 各 階 段 生 命 週 期 中 , 會 產生建築物的「圖」及「文」等建管資訊,一直到建築物完 工啟用後的維護階段,如建築物的改建、增建、修建…等, 仍必須使用到建築管理單位的資料庫中之「圖」及「文」資 訊。而此建築資訊共享與流通涉及業主、建築師、營造廠、 地 政 單 位、稅 捐 單 位、事 業 管 理 單 位、建 管 單 位、戶 政 單 位 、 銀行…等。因此,本研究建議應由中央建管機關(營建署) 主導,先建立各單位間圖檔知識庫之互通原則,保護智慧財 產權及資料私秘性,建構一個標準化及整合性之建築圖檔知 識管理系統;再以試辦模式開始,分階段推廣至業界各單位 階層,整合中央及地方建管機關之建築圖檔知識管理系統, 利用分散式處理原則,進行建築資料建檔作業,才能真正達 到資料共享。. X.

(11) 摘要. ABSTRACT Keywords:Architectural Drawing Files, Knowledge Management, Text Extraction, XML, Automation The purpose of this research is how to extract information from architectural drawing files, and file them into a knowledge database automatically. This research project is divided into two parts. Only part one will be conducted with focus on text extracting, Information retrieval integration, and filing automatically for architectural drawing files this year. In part one, a technology will be developed to extract text information from the drawing files. Meaningful texts and the location of the text could be found out through text matching or natural language processing. Moreover, all the extractive information will be converted into index data and be stored in the knowledge database automatically. We use XML document for data exchanging between text-based information module and information retrieval platform. A Web-based query system will be developed. With the help of this system, users could input some keywords, then the relating drawing files, which match the keywords, will be listed.. When users select the hyperlink in the list,. they could get the drawing file.. The system could even locate the. special object in the drawing file.. The effects of vector drawing files. converted into raster format will be evaluated and discussed, before taken as an important reference in the knowledge database in the future. This research project includes the following items: 1. A study on the text data extraction in DGN drawing files. 2. Integration. information. retrieval. platform. and. text-based. XI.

(12) 建築圖檔於知識資料庫建檔自動化之研究—圖 檔中文字資訊萃取、比對、建檔自動化之研究. information module. 3. Develop and set up the query system for drawing files. 4. Evaluate the effect of vector drawing files converting into raster format. This project comes to the immediate and long-term strategies. For immediate strategies: Providing the AutoCAD text data extraction adapter for DWG format drawing files. For long-term strategies: The government's plan gave fresh impetus to data exchange standard for drawing. A general system architecture for supporting. XML-based. electronic. data. exchanges. in. software. applications for file-based exchanges is describe and the implementation of query system for CAD drawing files is presented. Furthermore, the study is investigating the use of evolving geometry specifications of relation information.. XII.

(13) 第一章 緒論. 第一章 第一節. 緒. 論. 研究緣起與背景. 行 政 院 自 78 年 度 起 推 動 產 業 自 動 化 十 年 計 畫 , 根 據 產 業 規 模 及 對 整 體 經 濟 影 響 兩 項 因 素,擇 定 製 造 業、商 業、農 業 及 營 建 業 為 推 動 重 點,分 別 由 各 主 管 部 會 負 責;內 政 部 建 築 研 究 所 為 先 期 擔 任 營 建 自 動 化 之 召 集 單 位,負 責 執 行 建 築 工 程 自 動 化 之 推 動 業 務。88 年 6 月 行 政 院 核 定「 產 業 自 動 化 及 電 子 化 推 動 方 案 」,營 建 業 仍 由 內 政 部 營 建 署 統 籌 負 責,基 於 以 往 推 動 營 建 自 動 化 之 分 工 模 式,建 築 研 究 所 則 繼 續負責建築業自動化與電子化之推動計畫。 行 政 院 研 究 發 展 考 核 委 員 會 於 93 年 4 月 8 日 頒 行 之 「 加 強 行 政 院 所 屬 各 機 關 研 發 創 新 實 施 要 點 」 1指 出 為 落 實 「 行 政 院 所 屬 各 機 關 研 究 發 展 實 施 辦 法 」規 定 之 研 究 發 展 事 項,行 政 院 所 屬 各 機 關 應 依 其 需求及特性,建構知識平台。 營 建 署 於 2003 年 開 始 率 先 啟 動 營 建 知 識 管 理 計 畫 2 , 此 計 畫 執 行 期 程 為 五 年,已 逐 步 進 行 建 構 營 建 產 業 知 識 地 圖、分 類 架 構 及 知 識 交 流 標 準,建 立 營 建 產 業 知 識 庫 平 台 及 開 發 知 識 管 理 應 用 平 台,建 置 營 建產業知識網脈、知識社群及知識入口網站,並推動成立輔導團隊, 推廣知識應用等工作。 為 配 合 政 府 推 動 知 識 經 濟 政 策 之 落 實,知 識 管 理 在 建 築 業 的 應 用. 1. 行 政 院 院 授 研 展 字 第 0930008583 號 函 , 加 強 行 政 院 所 屬 各 機 關 研 發 創 新 實 施 要. 點 (民 國 93 年 4 月 8 日 )。 2. 院 合 內 字 第 0920080612 號 函 核 定,「 挑 戰 二 0 0 八: 國 家 發 展 重 點 計 畫 」之「 E-Taiwan. 計畫」之「營建知識管理系統」計畫。. 1.

(14) 建築圖檔於知識資料庫建檔自動化之研究— 圖檔中文字資訊萃取、比對、建檔自動化之研究. 與 發 展 更 形 重 要,建 築 研 究 所 開 始 進 行 一 列 系 知 識 管 理 於 建 築 領 域 應 用之相關研究課題。 知 識 管 理 是 目 前 最 熱 門 的 研 究 課 題 之 一,各 個 專 業 領 域 紛 紛 投 入 人力物力,志在其專業範疇中引進知識管理,並開發其知識管理系 統。然 而,大 部 份 的 知 識 管 理 系 統 所 管 理 的 知 識 內 容,皆 為 文 件、數 字、資 料 庫 等 文 數 字 資 料,圖 形 方 面 的 知 識 管 理 卻 還 停 留 在 圖 檔 管 理 的階段,無法進一步對圖檔的內容進行知識的收集、整理及管理。 建築業的知識內容大多是以圖形方式呈現,儲存於圖形檔案之 中,故 如 何 將 圖 檔 的 內 含 知 識 萃 取 出 來,納 入 知 識 管 理 庫,正 是 知 識 管 理 中 較 為 人 忽 略 的 一 環。本 研 究 探 討 如 何 將 大 量 的 建 築 圖 檔 以 自 動 化的方式建入知識資料庫中。. 2.

(15) 第一章 緒論. 第二節. 研究計畫目的. 目 前 國 內 建 築 設 計 圖 大 多 採 用 電 腦 輔 助 設 計 軟 體 (CAD)繪 製 , 單 一 建 案 之 設 計 圖 檔 多 如 沙 數,管 理 調 閱 已 頗 為 困 難,更 莫 說 設 計 單 位 及 各 級 政 府 建 築 管 理 單 位 要 如 何 處 理 成 千 上 萬 之 建 築 圖 檔。因 此,如 何 為 數 量 龐 大 之 建 築 圖 檔 自 動 化 納 入 知 識 資 料 庫 中,便 成 為 刻 不 容 緩 之研究課題。 本 研 究 總 期 程 為 兩 年,由 94 年 初 至 95 年 底,分 為 每 年 一 期 共 兩 期 工 作。本 期 研 究 主 要 研 擬 建 築 圖 檔 知 識 庫 自 動 化 建 置 流 程,以 資 訊 化 之 方 式 改 善 傳 統 利 用 人 工 處 理 流 程 之 效 率 問 題,使 資 料 可 充 分 共 享 與 重 複 應 用 。 本 研 究 所 建 構 之 系 統 , 係 透 過 網 際 網 路 及 XML 資 料 交 換 等 技 術 為 基 礎 進 行 系 統 開 發,將 CAD 圖 檔 中 的 文 字 資 訊 萃 取 出 來, 整 合 CAD 系 統 與 資 訊 檢 索 系 統 , 以 建 立 圖 檔 索 引 資 料 , 並 開 發 圖 檔 調 閱 查 詢 系 統,讓 使 用 者 輸 入 關 鍵 字 即 可 調 閱 相 關 圖 檔,甚 至 能 搜 尋 特 定 元 件 存 於 某 圖 檔 之 某 位 置。本 研 究 之 主 要 成 果 希 望 能 提 供 建 築 圖 檔 知 識 管 理 應 用 範 例 上 之 參 考。另 本 研 究 更 進 一 步 的 探 討 向 量 式 圖 檔 轉 換 為 影 像 格 式 之 機 制 及 成 效,作 為 日 後 決 定 知 識 資 料 庫 中 圖 檔 儲 存 格式之重要參考。. 3.

(16) 建築圖檔於知識資料庫建檔自動化之研究— 圖檔中文字資訊萃取、比對、建檔自動化之研究. 第三節. 相關研究情況. 經 濟 合 作 暨 發 展 組 織 (Organization of Economic Cooperation and Development,OECD)於 1996 年 首 創 「 知 識 經 濟 」 3 一 詞 後 , 知 識 管 理 開 始 興 起,許 多 歐、美、日 等 著 名 的 管 理 顧 問 公 司 開 始 導 入 知 識 管 理, 相關的專家學者也前仆後繼的投入知識管理的研究領域中。 知 識 的 定 義 以 Woolf 及 Turban 最 具 代 表 性 , Woolf 4 認 為 知 識 是 被 組 織 好 的 資 訊,可 以 應 用 在 問 題 解 決 上。Turban 5 認 為 知 識 是 被 組 織 及分析過的資訊,使其可被理解及應用在問題解決或決策制定上。 知 識 管 理 是 將 經 驗、知 識 及 專 業 技 能 形 式 化 (formalization)以 及 存 取 之,以 創 造 新 的 能 力 去 達 到 更 高 的 績 效、鼓 勵 創 新 及 提 升 顧 客 價 值 6. 。而知識在收集、整理、管理、分享、學習、應用、創造與回饋等. 管 理 循 環 中 , 由 資 料 、 資 訊 再 轉 化 為 知 識 , 最 後 形 成 智 慧 7。 目前國內知識管理之發展十分多元,舉凡各級政府機關、醫學、 法 律、高 科 技 及 傳 統 產 業,乃 至 各 行 各 業 皆 競 相 引 入 知 識 管 理。而 建 築 及 工 程 相 關 的 領 域 亦 有 蓬 勃 的 發 展,在 政 府 方 面,內 政 部 營 建 署 於 民 國 93 年 1 月 完 成 之 「 建 構 營 建 產 業 知 識 地 圖 分 類 架 構 及 知 識 交 流 標 準 」 為 營 建 業 在 知 識 管 理 領 域 中 , 建 構 分 類 及 交 流 的 標 準 雛 型 (內. 3. OE CD, T he Kno wledge-Based E cono my, (Paris, 1996).. 4. Woo lf, H., ed., We bst er 's New Wo r ld D ict io nar y o f t he Amer ican Language ( G. &C. Merr ia m, 1990).. 5. Turban E. , E xpert Syst ems and App lied Art ific ia l Int elligenc. (Macmillan, 1992).. 6. B e ck ma n T , A M et ho do lo g y fo r Kno w le d g e M a na ge me nt ( P r o c e ed in g o f t he I AST E D I nt er nat io na l Co nfe r e nc e. o n AI a nd So ft Co mp ut ing. 1 99 7). 7. 王 承 順 、 洪 建 龍 、 黃 志 民 , 知 識 管 理 與 應 用 (一 )技 術 文 件 知 識 管 理 , (中 興 工 程 第. 78 期 , 民 國 92 年 1 月 )。. 4.

(17) 第一章 緒論. 政 部 營 建 署 ,民 國 93 年 )。 在 業 界 方 面 , 中 興 工 程 顧 問 8 、 中 華 顧 問 工 程 司 9先 後 建 構 其 企 業 內 之 知 識 管 理 系 統 。 學 界 方 面 , 台 灣 科 技 大 學 建 築 系 建 立 知 識 管 理 學 習 社 群,用 以 增 加 研 究 討 論 之 效 率 及 快 速 累 積 研 究 成 果 10 。 在 軟 體 廠 商 方 面,目 前 較 知 名 的 有 5 家,分 別 是 碩 網 資 訊、意 藍 科 技、凌 網 科 技、威 知 資 訊、龍 捲 風 科 技,皆 有 開 發 成 熟 的 知 識 管 理 系 統 套 裝 軟 體。其 中 亦 有 建 築、工 程 相 關 單 位、企 業 引 入 上 述 軟 體 廠 商 之 知 識 管 理 系 統 作 為 其 知 識 管 理 之 開 發 平 台 11 。. 8. 王 承 順、洪 建 龍,營 建 業 者 導 入 知 識 管 理 實 例 經 驗 分 享 一 (營 建 知 識 管 理 研 討 會 ,. 民 國 93 年 9 月 1 日 )。 9. 李 萬 利 , 營 建 業 者 導 入 知 識 管 理 實 例 經 驗 分 享 二 (營 建 知 識 管 理 研 討 會 , 民 國 93. 年 9 月 1 日 )。 10. 施 宣 光 , 營 建 業 知 識 社 群 推 動 經 驗 分 享 (營 建 知 識 管 理 研 討 會 , 民 國 93 年 9 月 1. 日 )。 11. 內 政 部 營 建 署 , 知 識 管 理 系 統 現 況 調 查 , (建 構 營 建 產 業 知 識 地 圖 分 類 架 構 及 知. 識 交 流 標 準 成 果 報 告 書 , 民 國 93 年 1 月 ), 頁 36-58。. 5.

(18) 建築圖檔於知識資料庫建檔自動化之研究— 圖檔中文字資訊萃取、比對、建檔自動化之研究. 6.

(19) 第二章 研究方法與過程. 第二章 第一節. 研究方法與過程 研究方法及進行步驟. 本 研 究 使 用 目 前 資 訊 系 統 開 發 最 常 用 的 兩 種 方 法:事 業 系 統 規 劃 方 法( Business Systems Planning, BSP)及 結 構 化 分 析 方 法( Structured Analysis) 。 結 合 事 業 系 統 規 劃 方 法 對 非 資 料 處 理 之 問 題 分 析 方 法 , 以 及 尤 登 法 之 資 訊 系 統 結 構 化 分 析 方 法 , 透 過 由 上 (層 )而 下 (層 )的 規 劃 來 完 成 自 下 (階 )而 上 (階 )的 系 統 建 置 , 以 確 保 本 工 作 能 更 加 嚴 謹 。 圖 2-1 顯 示 本 研 究 從 蒐 集 建 築 圖 檔 資 料 、 定 義 文 字 資 訊 、 萃 取 文 字 資 訊 到 整 合 CAD 系 統 與 資 訊 檢 索 系 統 、 開 發 圖 檔 調 閱 查 詢 系 統 等 研究步驟的主要流程。 以中興工程顧問股份有限公司建築及社區工程部之專家為請益 對 象,由 資 料 蒐 集 開 始 即 與 具 豐 富 經 驗 之 建 築 專 家 溝 通 與 討 論,瞭 解 其 處 理 問 題 及 執 行 工 作 所 依 據 的 思 考 路 徑,並 從 實 際 的 建 築 個 案 中 蒐 集 建 築 圖 檔,作 為 本 研 究 之 測 試 資 料。首 先 定 義 圖 檔 文 字 資 訊 之 綱 要 (schema), 此 步 驟 為 本 研 究 的 最 重 要 部 份 , 因 為 文 字 資 訊 的 內 容 是 否 恰當足以影響本研究之成敗。 目 前 搜 尋 引 擎 的 發 展 已 非 常 成 熟,具 有 詞 索 引、中 文 同 音 及 近 似 概 念 詞 庫 查 詢 等 搜 尋 功 能。本 研 究 引 進 龍 捲 風 搜 尋 引 擎,以 其 元 件 作 為 開 發 基 礎,避 免 對 既 有 技 術 的 重 複 開 發,大 幅 縮 減 研 究 的 時 程 及 成 本。 XML 資 料 是 一 種 結 構 化 的 資 料 , 內 含 具 有 意 義 的 資 料 標 籤 , 使 電 腦 程 式 得 以 讀 取 及 應 用 其 中 的 資 訊 。 本 研 究 即 以 XML 格 式 來 儲 存. 7.

(20) 建築圖檔於知識資料庫建檔自動化之研究— 圖檔中文字資訊萃取、比對、建檔自動化之研究. 建 築 圖 檔 的 文 字 資 訊 資 料 及 建 立 索 引 。 首 先 透 過 XML 技 術 規 劃 圖 檔 文 字 的 文 字 資 訊,以 記 錄 圖 檔 文 字 資 料 的 座 標、圖 層 及 其 所 屬 圖 檔 名 稱、日 期 時 間 等 屬 性 資 料。再 透 過 自 動 化 程 序,將 文 字 資 訊 建 入 資 訊 檢 索 系 統 的 索 引 資 料 庫 中,「 資 料 提 供 者 」不 必 再 手 動 輸 入 圖 檔 索 引 資料。 本 研 究 以 Microsoft .NET 開 發 此 系 統 , 使 CAD 系 統 與 資 訊 檢 索 系 統 能 夠 整 合,此 步 驟 包 括 開 發「 文 字 資 訊 索 引 程 式 」及 開 發「 取 用 文 字 資 訊 索 引 程 式 」。前 者 將 CAD 圖 檔 之 XML 文 字 資 訊 建 立 為 索 引 資 料 , 後 者 剖 析 索 引 資 料 , 將 文 字 資 訊 回 傳 至 CAD 系 統 。 兩 個 系 統 間 即 透 過 XML 格 式 以 交 換 資 料 。 當 建 築 圖 檔 上 傳 至 系 統 時,「 文 字 資 訊 萃 取 程 式 」會 自 動 分 析 圖 檔 文 字 資 料 的 內 容、座 標、圖 層 及 其 所 屬 圖 檔 名 稱、日 期 時 間 等 屬 性 資 料 , 符 合 文 字 資 訊 綱 要 (schema)之 定 義 , 產 生 一 份 XML 格 式 的 文 字 資 訊 文 件 。 同 時 觸 發 「 文 字 資 訊 索 引 程 式 」 , 將 XML 格 式 的 文 字 資訊文件建立為索引資料。 當 搜 尋 引 擎 尋 找 到 與 關 鍵 字 相 符 合 的 索 引 時,須 同 時 擷 取 該 關 鍵 字 之 相 關 文 字 資 訊,例 如,檔 案 名 稱、文 字 座 標 等。「 取 用 文 字 資 訊 索 引 程 式 」 將 剖 析 XML 格 式 的 索 引 資 料 , 應 用 於 圖 檔 定 位 、 多 欄 位 條 件 過 濾 查 詢 及 欄 位 排 序 顯 示 等 功 能,讓 使 用 者 能 夠 更 容 易 的 獲 得 準 確的資料。 本 研 究 所 開 發 之 程 式 均 以 Microsoft ASP .Net 網 頁 程 式 (Web Programming)的 方 式 來 開 發 , 將 核 心 模 組 整 合 成 圖 檔 調 閱 查 詢 網 站 , 所 有 的 功 能 均 可 以 透 過 網 際 網 路,協 助 更 多 的 使 用 者 取 得 所 需 的 營 建 知識,發揮系統更大的效益。 圖 檔 調 閱 查 詢 系 統 在 規 劃 設 計,及 開 發 完 成 後 進 行 測 試 時,皆 請. 8.

(21) 第二章 研究方法與過程. 建 築 專 家 參 與 討 論 及 提 供 意 見,以 求 系 統 之 使 用 介 面、搜 尋 功 能、分 類 架 構 與 顯 示 方 式 符 合 資 訊 使 用 者 的 思 考 邏 輯,真 正 符 合 建 築 業 者 的 需求。 知 識 的 產 生 過 程 從 收 集、整 理 資 料、儲 存 資 料,到 傳 播 知 識 皆 是 一道道辛苦的歷程。建築圖檔的資料數量龐大,資料內容也隨建材、 工法或法規不斷的推陳出新而更新變化,具有複雜及多變性。因此, 本研究的目的乃企圖建置一套自動化的流程,將圖檔文字資料結構 化,並 整 合 CAD 系 統 與 資 訊 檢 索 系 統,將 文 字 資 訊 自 動 納 入 知 識 庫 。 圖 2-2 說 明 整 個 圖 檔 調 閱 查 詢 系 統 的 作 業 流 程 規 劃 。 系 統 以 網 際 網 路 技 術 將 使 用 者 介 面 整 合,無 論 是「 資 料 提 供 者 」或 是「 資 訊 使 用 者 」, 均 透 過 瀏 覽 器 網 頁 的 方 式 完 成 其 相 關 作 業。「 圖 檔 資 料 提 供 者 」將 建 築 圖 檔 從 本 機 上 傳 至 系 統 伺 服 器,系 統 的「 文 字 資 訊 萃 取 程 式 」會 依 據 文 字 資 訊 綱 要 (schema)所 指 定 的 欄 位 , 萃 取 圖 檔 的 文 字 資 訊 , 產 生 XML 格 式 的 文 字 資 訊 文 件,並 將 此 文 件 自 動 建 立 為 索 引 資 料 庫。「 圖 檔 資 訊 使 用 者 」 輸 入 關 鍵 字 查 詢 , 搭 配 布 林 值 And 或 Or 運 算 功 能 , 搜 尋 引 擎 即 對 文 字 資 訊 做 關 鍵 字 比 對 查 詢。最 後,系 統 回 傳 關 鍵 字 的 文 字 資 訊,如 計 畫 名 稱、圖 檔 名 稱、文 字 位 置、圖 檔 下 載 等 展 示 查 詢 結果。. 9.

(22) 建築圖檔於知識資料庫建檔自動化之研究— 圖檔中文字資訊萃取、比對、建檔自動化之研究. 圖 2-1 研究步驟流程圖 研究開始. 資料蒐集. 定義文字資訊綱要(schema). 開發文字萃取核心程式. 建築專家 提供意見. 了解搜尋引擎. 整合CAD系統與資訊檢索系統. 開發圖檔調閱查詢系統. 系統測試、修正. 探討圖檔轉換為影像格式之機 制及成效. 提送報告、 研究結束. (資料來源:本研究製作). 10.

(23) 第二章 研究方法與過程. 圖 2-2 系統作業流程圖 文字資訊綱要 文字資訊綱要. 文字資訊. 文字萃取技術 文字萃取技術 圖檔上傳 文字萃取. 建築圖檔 索引資料庫 搜尋引擎 搜尋引擎 輸入關鍵字. 圖檔調閱查詢系統 查詢結果. 圖檔資訊使用者. (資料來源:本研究製作). 11.

(24) 建築圖檔於知識資料庫建檔自動化之研究— 圖檔中文字資訊萃取、比對、建檔自動化之研究. 第二節. 建築圖檔知識庫自動化系統架構規劃. 圖 2-3 為 建 築 圖 檔 知 識 庫 自 動 化 的 系 統 架 構 規 劃, 除 了 前 端 的 展 示 呈 現 之 外 , 也 需 要 整 合 CAD 系 統 及 資 訊 檢 索 元 件 平 台 , 以 自 動 化 抓取圖檔文字圖元、建立索引、及取用索引,讓「圖檔資料提供者」 和「 資 訊 使 用 者 」都 能 在 系 統 中 自 動 的 處 理 資 料,作 資 料 維 護,也 更 容 易 深 入 檢 索 建 築 知 識 。 本 研 究 以 Microsoft .NET 開 發 此 系 統 。 Microsoft .NET 是 微 軟 繼 其 DNA(Distributed interNet Applications)架 構 之 後,所 提 出 下 一 代 的 分 散 式 軟 體 應 用 架 構,它 的 發 展 方 向 是 要 建 構 一 個 以 網 際 網 路 開 放 標 準 為 基 礎 (如 : HTTP、 XML、 SOAP… 等 )的 程 式 開 發 與 執 行 環 境,使 任 何 人 從 任 何 地 方,在 任 何 時 間 使 用 任 何 裝 置都能存取網際網路上的資源與服務。 .NET 應 用 程 式 有 二 大 類 Win Form 及 Web Form。Win Form 指 的 是 一 般 在 使 用 者 電 腦 中 執 行 的 應 用 程 式 。 Web Form, 即 Web 應 用 程 式 , 指 的 便 是 ASP.NET(以 類 別 物 件 的 形 式 )。 本 研 究 以 ASP.NET 開 發圖檔知識檢索系統。各元件的功能說明如下: 一、查詢與展示: 這些元件主是提供使用者操作的人機介面。本研究用的是瀏覽 器介面,包括建築圖檔上傳至知識庫及圖檔調閱查詢介面。圖 檔上傳須可同時上傳多個圖檔,以快速自動建檔。查詢畫面須 讓使用者容易鍵入資訊檢索的條件,如下拉式選單的輸入設 計,而查詢結果需要考慮資料在畫面上的階層式分類架構與排 序及具圖檔下載功能。 二、文字資訊萃取程式: 當檔案上傳至伺服器時,「文字資訊萃取程式」會透過. 12.

(25) 第二章 研究方法與過程. MicroStation API 呼 叫 開 啟 圖 檔 程 序,對 圖 檔 進 行 分 析 掃 描,抓 取 圖 檔 中 的 文 字 圖 形 元 件 , 依 據 文 字 資 訊 綱 要 (schema)所 定 義 的欄位,萃取每個文字圖元的文字內容、圖層、座標、顏色等 屬 性 資 料 , 產 生 XML 格 式 的 文 字 資 訊 文 件 。 三 、 MicroStation API: 本 研 究 以 MicroStation 為 CAD 的 研 究 對 象 。 MicroStation 繪 圖 軟體提供給其他應用程式呼叫的工具,使客戶端的應用程式可 在 Microstation 中 操 作 CAD 物 件 上 的 相 關 屬 性 資 料 。 四、字資訊索引程式: 系統呼叫龍捲風資訊檢索元件平台的產生索引元件,自動將 XML 格 式 的 文 字 資 訊 文 件 匯 入 索 引 資 料 庫,將 一 個 圖 檔 的 文 字 資訊建置為一筆索引資料。 五、訊檢索元件平台: 本 元 件 為 龍 捲 風 科 技 的 產 品 , 資 訊 檢 索 元 件 平 台 (Information Retrieval Management System, 簡 稱 IRMS) , 提 供 龍 捲 風 搜 尋 引擎的多種元件,例如,搜尋元件、建立索引、及取用索引元 件等。本研究使用此產品將資訊檢索技術與本研究建構之建築 圖檔知識管理系統整合,負責與前端的使用者介面程式進行互 動,解譯搜尋的條件進行文字資訊索引與搜尋,並且回應搜尋 結果,以提昇知識檢索的搜尋精確度與查詢效率。 六、用文字資訊索引程式: 提 供 取 用 文 字 資 訊 索 引 的 功 能 。 建 築 圖 檔 的 文 字 資 訊 以 XML 結 構 的 資 料 格 式 建 立 索 引 , 這 些 結 構 描 述 可 使 用 .NET Framework 的 XPath 功 能 查 詢 位 於 資 料 存 放 區 中 的 某 個 節 點 或 一 組 節 點 , 及 XPathNavigator 功 能 從 任 何 資 料 存 放 區 讀 取 資. 13.

(26) 建築圖檔於知識資料庫建檔自動化之研究— 圖檔中文字資訊萃取、比對、建檔自動化之研究. 料。當搜尋引擎尋找到與關鍵字相符合的索引時,「取用文字 資 訊 索 引 程 式 」將 執 行 XPath 查 詢 剖 析 XML 格 式 的 索 引 資 料 , 擷取索引中該關鍵字之相關文字資訊節點,例如,檔案名稱、 文字座標、圖層等,應用於使用者端多欄位條件過濾查詢、欄 位排序、樹狀階層架構顯示及圖檔定位等功能。 七、檔啟動檔產生程式: 此程式接收檔案名稱、文字座標等搜尋結果,產生該圖檔的啟 動檔,提供圖檔開啟後即定位至文字範圍之功能。使用者端下 載 圖 檔 完 成 時,網 頁 透 過 Shell 呼 叫 本 機 的 MicroStation 開 起 圖 檔,並執行啟動檔,圖檔開啟後定位至文字範圍。 各 元 件 間 呼 叫 的 流 程 如 圖 2-4。. 14.

(27) 第二章 研究方法與過程. 圖 2-3 系統架構規劃 圖檔資訊使用者. 圖檔資料提供者 查詢與展示 文字資訊萃取程式. 圖檔啟動檔產生程式 MicroStation API. 文字資訊索引程式. 取用文字資訊索引程式 資訊檢索元件平台 Microsoft .NET. (資料來源:本研究製作) 圖 2-4 系統元件呼叫流程. MicroStation API. 解析文字資料. XML File. DGN File. 圖檔上傳. 文字資訊萃取程式. 文字資訊綱要. IRMS 搜尋引擎. 建立索引. 輸入關鍵字. 取用索引 XmlDataXmlDataDocument. 檢索結果. 圖檔啟動檔產生程式. 取用文字資訊索引程式. (資料來源:本研究製作). 15.

(28) 建築圖檔於知識資料庫建檔自動化之研究— 圖檔中文字資訊萃取、比對、建檔自動化之研究. 第三節. 圖檔文字資料萃取技術. 在 圖 檔 中 的 文 字 資 料,因 未 經 過 處 理,稱 為「 文 字 資 料 」,在 經 過萃取處理後,稱為「文字資訊」。 本節主要說明自建築圖檔中將文字萃取出來的技術之研究成 果 。 本 研 究 使 用 Microsoft .NET 開 發 「 文 字 資 訊 萃 取 程 式 」 , 呼 叫 MicroStation API,讀 取 建 築 圖 檔,分 析 擷 取 圖 檔 中 所 有 文 字 資 料,記 錄 其 圖 檔 名 稱 、 日 期 時 間 、 座 標 及 圖 層 等 屬 性 資 料 , 輸 出 成 XML 格 式 的 文 字 資 訊 文 件。然 後 再 將「 文 字 資 訊 萃 取 程 式 」、「 文 字 資 訊 索 引 程 式 」、「 取 用 文 字 資 訊 索 引 程 式 」等 核 心 程 式 網 路 化,自 動 建 置 知 識 庫 及 配 合 圖 檔 調 閱 查 詢 系 統 使 用。「 資 料 提 供 者 」可 以 在 網 路 上 將 建 築 圖 檔 上 傳,系 統 可 自 動 作 文 字 萃 取 及 納 入 知 識 庫,再 作 圖 檔 歸 檔,建 構 一 建 築 資 料 共 享 的 平 台。「 資 訊 使 用 者 」即 可 以 從 網 路 上 以 設 備 名 稱、建 材、工 法 等 關 鍵 字 查 詢 圖 檔,瀏 覽 或 下 載 圖 檔,使 資 料 重複使用至新的設計圖中。. 一、專家訪談 建 立 知 識 庫 首 先 要 考 慮 的 基 本 要 素 為 資 料 欄 位、資 料 型 態,資 料 欄 位 與 建 築 設 計 者 所 想 獲 得 的 資 訊 相 關。本 研 究 進 行 之 初 系 統 開 發 完 成 之 時,乃 邀 請 中 興 工 程 顧 問 股 份 有 限 公 司 建 築 及 社 區 工 程 部 之 建 築 設 計 專 家 進 行 訪 談,探 討 建 築 圖 檔 之 問 題 與 分 析 資 訊 需 求 之 類 型 與 範 圍,歸納出建築圖檔知識庫資料欄位定義。茲將專家建議描述如下: 1.. 中興公司尚無合適的建築設計圖檔的知識管理系統可供使 用,現以圖檔列印成冊,需要以人工翻頁檢視之方式尋找資. 16.

(29) 第二章 研究方法與過程. 料,不但過程緩慢,而且容易出錯,所以需要可以進行包含 知識庫自動建檔、知識檢索的整體系統設計方法與工具,快 速指引所蒐集的圖檔之所在位置,以達資訊共享、圖檔調閱 及重複使用的目的。 2.. 建築設計圖檔的文件資料數量龐大,且建築技術及裝修材料 之 法 規 規 範 不 斷 更 新,故 建 築 圖 檔 知 識 資 料 庫 需 自 動 化 建 置。. 3.. 在建築設計過程中,設計詳圖的重複使用性最高,詳圖圖檔 中在指定的圖層中含有各建築元素之材料、外型、技術工法 等文字標示,故系統需能以各式建材種類、規格性質與施工 方法等關鍵字組合進行圖檔查詢。. 4.. 將專案的計畫名稱做為搜尋的查詢條件,以搜尋出過去相似 特性的案例,使設計人員面臨工作上的困難時,可透過知識 庫快速的找尋解答。或有專案性質相似的設計圖,亦可以重 複使用,加快其專案執行的作業時間。. 本 研 究 團 隊 于 系 統 開 發 完 成 之 時,再 次 邀 請 建 築 設 計 專 家 做 系 統 功能測試,並提供意見。茲將專家建議描述如下: 1.. 本系統功能符合建築設計圖檔知識管理需求,對於圖檔查詢 與圖檔再利用有很大的助益。. 2.. 同一設備圖元有各種建築設計圖及施工圖,如平面圖、立體 圖、剖面圖及大樣詳圖等,查詢結果清單僅以文字內容表達 仍不夠明確辨識所需圖檔,建議有較大視景範圍的預覽圖 片,包含部分設備圖元,以協助辨識圖檔結果。. 3.. DGN 圖 檔 版 本 與 使 用 這 端 安 裝 的 Microstation 軟 體 版 本 不 同 時,則 無 法 自 動 開 啟 圖 檔,例 如,Microstation 8 的 圖 檔 無 法 以 Microstation J 開 啟。建 議 查 詢 結 果 清 單 包 含 圖 檔 的 版 本 資. 17.

(30) 建築圖檔於知識資料庫建檔自動化之研究— 圖檔中文字資訊萃取、比對、建檔自動化之研究. 訊,藉以判定是否使用該圖檔。 4.. 當大量圖檔同時透過網路線上上傳圖檔、萃取圖檔文字及建 置索引時,受頻寬影響,頗為耗費時間,因此建議增加批次 建立索引功能,將檔案上傳或使用網路芳鄰複製至伺服器 後,以設定排程的方式定期建立索引。. 二 、 文 字 資 訊 綱 要 (Schema) 根 據 問 題 的 分 析 結 果,及 建 築 專 家 對 圖 檔 查 詢 方 式 的 要 求,本 研 究 擬 定 的 建 築 圖 檔 知 識 庫 的 文 字 資 訊 欄 位 包 括 序 號、圖 元 ID、檔 案 名 稱 、檔 案 時 間 日 期 、計 畫 名 稱 、計 畫 編 號 、文 字 內 容 、圖 元 型 態 、原 點 X 座 標 、 原 點 Y 座 標 、 圖 層 、 顏 色 , 共 12 個 項 目 。 1.. 序號: 系統自動產生之序號。. 2.. 圖 元 ID: 是 MicroStation 圖 檔 中 的 圖 元 主 鍵 值,在 一 個 圖 檔 中,圖 元 ID 不 會重複。. 3.. 檔案名稱: 資料所在的位置,為建立知識庫的最重要關鍵。. 4.. 檔案時間日期: 即資料建置日期時間,當搜尋結果依時間排序,可快速找到最新 的建築技術及符合新的法規規範的設計圖。. 5.. 計畫名稱. 6.. 計畫編號: 為圖檔的設計主題,有了此資訊之助,可按計畫名稱或計畫編號. 18.

(31) 第二章 研究方法與過程. 尋找資料,亦可依計畫名稱做分類,以群組的階層式架構展示搜 尋結果。 7.. 文字內容: 圖說的文字資料,包含有各建築元素之材料、外型、工法等所有 建築設計的說明描述,讓圖檔中每一個文字均建立索引,使索引 單位更為細緻,以供作豐富的查詢資料。. 8.. 圖元型態: 本 研 究 萃 取 圖 檔 中 包 含 的 文 字 圖 元 , MicroStation 繪 圖 軟 體 的 文 字. 圖. 元. 型. 態. 有. 兩. 種. ,. msdElementTypeText. 及. msdElementTypeTextNode。 9.. 原點X座標. 10. 原 點 Y 座 標 : 表示文字圖元在圖檔中的位置,使用者將搜尋結果的圖檔下載 後,可自動開啟顯示在文字位置的範圍。 11. 圖 層 : 是文字圖元在圖檔中的圖層名稱,設計詳圖的說明文字依標準規 範建置在特定的圖層中,因此可按圖層為查詢條件篩選圖檔,提 升搜尋的效率。 12. 顏 色 : 文字圖元在圖檔中的顏色設定值。. 茲 將 文 字 資 訊 欄 位 及 其 欄 位 型 態 彙 整 , 並 列 表 說 明 如 表 2-1。 圖 2-5 為 文 字 資 訊 的 XML 結 構 描 述 (XSD)。. 19.

(32) 建築圖檔於知識資料庫建檔自動化之研究— 圖檔中文字資訊萃取、比對、建檔自動化之研究. 表 2-1 文字資訊綱要 資訊欄位. 欄位型態. 說明. 序號. 自動編號 唯一值,不能重複。. 圖 元 ID. 整數. 文 字 資 料 在 MicroStation 圖 檔 中 自 動 產 生 的 ID。. 檔案名稱. 文字. 文 字 資 料 所 在 的 MicroStation 圖 檔 名 稱 及存放位置。. 檔案時間日期 文字. 文 字 資 料 所 在 的 MicroStation 圖 檔 儲 存 日期時間。. 計畫名稱. 文字. 文 字 資 料 所 在 的 MicroStation 圖 檔 的 所 屬計畫名稱。. 計畫編號. 文字. 文 字 資 料 所 在 的 MicroStation 圖 檔 的 所 屬計畫編號。. 文字內容. 文字. 文字資料的內容。. 圖元型態. 文字. 文 字 資 料 在 MicroStation 圖 檔 中 的 型 態 , 本 研 究 解 析 MicroStation 圖 檔 中 的 msdElementTypeText. 及. msdElementTypeTextNode 此 兩 種 圖 元 型態。 原點X座標. Decimal. 文 字 資 料 在 MicroStation 圖 檔 中 的 X 座 標位置。. 原點Y座標. Decimal. 文 字 資 料 在 MicroStation 圖 檔 中 的 X 座 標位置。. 圖層. 文字. 文 字 資 料 在 MicroStation 圖 檔 中 的 圖 層 名稱。. 顏色. 整數. 文 字 資 料 在 MicroStation 圖 檔 中 設 定 的 顏色編號。. (資料來源:本研究製作). 20.

(33) 第二章 研究方法與過程. 圖 2-5 文字資訊之 XML 結構描述(XSD) 結構描述 <xs:schema id="DGNText" xmlns="" xmlns:xs="http://www.w3.org/2001/XMLSchema" xmlns:msdata="urn:schemas-microsoft-com:xml-msdata"> <xs:simpleType name="DetailFileType"> <xs:restriction base="xs:string"> <xs:pattern value="master" /> <xs:pattern value="attach" /> </xs:restriction> </xs:simpleType> <xs:element name="DGNText" msdata:IsDataSet="true" msdata:EnforceConstraints="False"> <xs:complexType> <xs:choice maxOccurs="unbounded"> <xs:element name="MasterDgnFile" minOccurs="1" maxOccurs="1"> <xs:complexType> <xs:sequence> <xs:element name="id" msdata:AutoIncrement="true" type="xs:int" /> <xs:element name="dgnfilename" type="xs:string" /> <xs:element name="dgnfiledate" type="xs:dateTime" /> </xs:sequence> </xs:complexType> </xs:element> <xs:element name="DetailDgnFile" minOccurs="1" maxOccurs="unbounded"> <xs:complexType> <xs:sequence> <xs:element name="id" type="xs:int" minOccurs="1" maxOccurs="1" msdata:AutoIncrement="true" /> <xs:element name="masterid" type="xs:int" minOccurs="1" maxOccurs="1" /> <xs:element name="name" type="xs:string" minOccurs="1" maxOccurs="1" msdata:Ordinal="1" /> <xs:element name="filetype" type="DetailFileType" maxOccurs="1" msdata:Ordinal="1" /> </xs:sequence> </xs:complexType> </xs:element> <xs:element name="Text" minOccurs="0" maxOccurs="unbounded"> <xs:complexType> <xs:sequence> <xs:element name="id" type="xs:string" minOccurs="1" maxOccurs="1" /> <xs:element name="detailid" type="xs:int" minOccurs="1" maxOccurs="1" /> <xs:element name="text" type="xs:string" minOccurs="1" maxOccurs="1" /> <xs:element name="text-type" type="xs:string" minOccurs="1" maxOccurs="1" /> <xs:element name="coord-x" type="xs:decimal" minOccurs="1" maxOccurs="1" /> <xs:element name="coord-y" type="xs:decimal" minOccurs="1" maxOccurs="1" /> <xs:element name="level" type="xs:string" minOccurs="0" /> <xs:element name="color" type="xs:string" minOccurs="0" /> </xs:sequence> </xs:complexType> </xs:element> </xs:choice> </xs:complexType> </xs:element> </xs:schema>. (資料來源:本研究製作). 21.

(34) 建築圖檔於知識資料庫建檔自動化之研究— 圖檔中文字資訊萃取、比對、建檔自動化之研究. 三 、 XML XML 是 全 球 資 訊 網 聯 盟 ( World Wide Web Consortium; 簡 稱 W3C ) 在 1996 年 底 所 提 出 的 標 準 , 2004 年 2 月 公 佈 XML 1.1 Recommendation,相 關 標 準 目 前 仍 在 發 展 之 中。它 是 從 SGML 衍 生 出 來 的 簡 化 格 式 ,也 是 一 種 元 語 言( meta-language),可 以 用 來 定 義 任 何一種新的標示語言。 XML 的 發 展 背 景 主 要 是 因 為 HTML 的 諸 多 限 制 已 經 影 響 了 WWW 的 發 展 , 例 如 , 超 文 字 標 記 語 言 (Hypertext Markup Language, HTML) 的 標 籤 集 是 固 定 的 , 且 大 都 屬 於 呈 現 導 向 ( presentation-oriented) 的 標 籤 , 主 要 用 來 指 定 網 頁 的 顯 示 格 式 , 這 個 特 性 使 得 HTML 只 能 支 援 固 定 且 簡 單 的 文 件 結 構,而 且 在 資 訊 再 利 用 、 資 料 交 換 與 文 件 自 動 處 理 方 面 都 造 成 很 大 的 限 制 。 XML 的 發 展 讓 新 一 代 的 Web 架 構 應 用 程 式 得 以 檢 視 和 處 理 資 料 。 XML 是 一 種 中 繼 標 記 語 言 , 它 提 供 了 一 種 描 述 結 構 化 資 料 的 格 式,讓 開 發 人 員 能 以 標 準 而 一 致 的 方 式 從 任 何 應 用 程 式 很 方 便 地 描 述 和 提 供 各 種 結 構 化 資 料 。 XML 可 協 助 更 精 確 的 內 容 宣 告 , 並 且 提 供 更有意義的跨多平台搜尋結果。 XML 的 能 力 與 特 色 是 來 自 於 它 能 讓 使 用 者 介 面 與 結 構 化 資 料 保 持 分 離 。 雖 然 HTML 標 記 (Tag)可 以 讓 文 字 顯 示 為 粗 體 或 斜 體 , 不 過 XML 卻 提 供 了 標 記 結 構 化 資 料 的 架 構。XML 標 記 可 以 用 來 指 示 與 標 記 關 聯 的 資 料 是 零 售 價 格、營 業 稅、書 名、降 雨 量,或 任 何 想 要 的 資 料 。 由 於 許 多 組 織 已 在 其 Intranet 上 採 用 XML 標 記 , 另 一 些 組 織 則 是 在 Internet 上 採 用 它 , 因 此 , 它 在 搜 尋 及 處 理 資 料 方 面 的 能 力 (不 論資料是位於何種應用程式中) 勢必還會增加。應用程式一旦找到了. 22.

(35) 第二章 研究方法與過程. XML 資 料 , 它 就 可 以 透 過 網 路 傳 遞 這 些 資 料 , 並 且 將 資 料 以 各 種 方 式 呈 現 在 Web 瀏 覽 器 中 , 或 者 可 以 將 資 料 轉 給 其 他 應 用 程 式 作 進 一 步處理和檢視。 .NET Framework 中 的 XML 與 W3C 標 準 相 容 , 類 別 完 全 依 照 目 前 W3C 所 建 議 的 XML、 命 名 空 間 、 XSLT、 XPath、 結 構 描 述 和 文 件 物 件 模 型 (DOM)標 準。相 容 性 可 確 保 互 通 性 (Interoperability),並 讓 系 統開發人員輕鬆地在平台上開發應用程式。. 四、文字資訊文件 龍 捲 風 搜 尋 引 擎 並 不 支 援 MicroStation 繪 圖 軟 體 的 資 料 格 式 建 立 索 引 , 且 MicroStation 圖 檔 的 文 字 資 料 為 非 結 構 化 的 資 訊 內 容 。 XML 文 字 資 訊 定 義 明 確 的 欄 位 結 構 , 可 以 讓 龍 捲 風 資 訊 檢 索 元 件 讀 取,並 建 立 索 引。前 端 應 用 程 式 即 可 進 行 欄 位 的 條 件 查 詢 建 築 圖 檔,且 可 以 分 類 或 排 序 的 方 式 改 善 查 詢 結 果 展 示 等 方 法 來 增 加 知 識 使 用的效益。 故 本 研 究 以 XML 格 式 的 開 放 性 及 結 構 化 的 優 勢 特 性 來 儲 存 建 築 圖 檔 的 文 字 資 訊 資 料 及 建 置 索 引,以 整 合 CAD 系 統 與 資 訊 檢 索 系 統。 本 研 究 開 發 「 文 字 資 訊 萃 取 程 式 」 , 掃 描 MicroStation 圖 檔 中 的 文 字 圖 元,依 據 文 字 資 訊 綱 要 之 定 義,逐 一 分 析 每 一 個 文 字 圖 元 之 座 標 、 圖 層 及 其 所 屬 圖 檔 名 稱 、 日 期 時 間 等 屬 性 欄 位 , 產 生 一 份 XML 格 式 的 文 字 資 訊 文 件 。 文 字 資 訊 文 件 如 圖 2-6 所 示 。. 23.

(36) 建築圖檔於知識資料庫建檔自動化之研究— 圖檔中文字資訊萃取、比對、建檔自動化之研究. 圖 2-6 文字資訊範例文件 -<DGNText> -<MasterDgnFile> <id>0</id> <dgnfilename>E:\建 建 築 \C283AST1.DGN</dgnfilename> <dgnfiledate>2005-06-01T14:58:49.2114947+08:00</dgnfiledate> <projectname>士 士 林 水 電 發 電 工 程 </projectname> <projectid>A2005001</projectid> -<DetailDgnFile> <id>0</id> <filetype>master</filetype> <name>E:\建 建 築 \C283AST1.DGN</name> <masterid>0</masterid> -<Text> <id>2512</id> <detailid>0</detailid> <text>不 不 鏽 鋼 欄 杆 (TYP.)</text> <text-type>msdElementTypeText</text-type> <coord-x>27.4067</coord-x> <coord-y>49.8165</coord-y> <level>46</level> <color>2</color> </Text> -<Text> <id>2513</id> <detailid>0</detailid> <text>明 明 鏡 磨 斜 邊 (TYP.)</text> <text-type>msdElementTypeText</text-type> <coord-x>22.935</coord-x> <coord-y>45.0018</coord-y> <level>51</level> <color>2</color> </Text> </DetailDgnFile> </MasterDgnFile> </DGNText>. (資料來源:本研究製作). 24.

(37) 第二章 研究方法與過程. 第四節. CAD 系 統 與 資 訊 檢 索 系 統 整 合 技 術. 自 圖 檔 萃 取 出 文 字 資 訊 後,將 與 資 訊 檢 索 系 統 整 合。由 於 目 前 搜 尋 引 擎 的 發 展 已 非 常 成 熟,我 們 以 搜 尋 引 擎 的 元 件 作 為 開 發 基 礎,詳 細 了 解 搜 尋 引 擎 之 功 能 及 其 內 建 物 件 (Object) ,連 接 前 端 文 字 萃 取 模 組 。 前 端 文 字 萃 取 模 組 先 將 文 字 資 訊 儲 存 成 XML 格 式 的 文 件 , 傳 遞 至搜尋引擎,自動將其建立為索引資料庫。. 一、資訊檢索系統 搜 尋 引 擎 能 匯 入 標 準 化 詞 彙 及 不 同 詞 彙 之 相 關 性 之 資 料 庫,而 具 有 詞 索 引、中 文 同 音 及 近 似 概 念 詞 庫 比 對 查 詢 等 搜 尋 功 能。本 研 究 引 進 龍 捲 風 的 元 件 開 發 平 台 產 品 IRMS, 以 其 元 件 作 為 開 發 基 礎 , 避 免 對既有技術的重複開發,大幅縮減研究的時程及成本。 IRMS 的 設 計 理 念 是 以 一 種 元 件 化 、 鬆 散 偶 合 的 架 構 平 台 所 設 計 的,系 統 開 發 者 在 面 對 不 同 的 應 用 平 台 時,能 將 資 訊 檢 索 技 術 更 深 入 的嵌入客戶端的應用基礎平台上。 IRMS 以 提 供 COM 元 件 的 方 式 來 提 供 下 面 的 功 能 : 1.. 索 引 引 擎 (Indexer) 負責內容的分析、斷字斷詞,依據全文索引演算法建立內容 的索引。. 2.. 索 引 資 料 庫 (Index DB) 是 一 種 用 來 儲 存 索 引 結 構 資 料 , 以 及 Meta Data 儲 存 機 制 。 在 IRMS 中 , 不 需 額 外 安 裝 資 料 庫 系 統 就 可 以 儲 存 與 管 理 索 引 資 料 庫 。 IRMS 內 建 Meta Store 的 資 料 庫 機 制 , 方 便 非 結 構與半結構的資料很有效率的進行儲存與管理應用。. 25.

(38) 建築圖檔於知識資料庫建檔自動化之研究— 圖檔中文字資訊萃取、比對、建檔自動化之研究. 3.. 搜 尋 引 擎 (Search Engine) 負 責 與 使 用 者 介 面 程 式 (Application)進 行 互 動,解 譯 搜 尋 的 條 件,並且回應搜尋結果。. 表 2-2 說 明 IRMS Search 搜 尋 模 組 之 產 品 規 格 。. 26.

(39) 第二章 研究方法與過程. 表 2-2 IRMS Search 搜尋模組產品規格. 功. 能. 功. 能. 說. 明. 中 英 文 查 搜 尋 條 件 具 有 完 整 的 布 林 邏 輯 運 算 AND、 OR、 NOT 能 詢功能. 力,支援複合式布林邏輯運算查詢,並且可以配合多組 左 括 號 "("與 右 括 號 ")"作 關 鍵 字 查 詢 優 先 順 序 的 設 定,方 便查詢者輸入布林組合之查詢條件。 支 援 「 英 文 萬 用 字 元 ( *、 ?) 查 詢 」 。 英 文 單 字 是 由 多 個 英 文 字 母 組 成 的 , 使 用 者 可 查 詢 部 分 英 文 字 及 *(代 表 多 於 一 個 英 文 字 母 )或 ?(代 表 一 個 英 文 字 母 )的 組 合 。 例 如:輸 入 關 鍵 字【 Chin*】,會 找 到【 China】、【 Chine】、 【 Chinese】等 等。輸 入 關 鍵 字【 Chin?】,會 找 到【 China】。 內 建「 智 慧 型 快 速 回 應 模 式 」(Smart cache)機 制,可 以 提 供同一種查詢條件之重複使用率,提高系統資源的效 益。Cache 儲 存 目 錄 記 錄 了 Cache 檔 案 所 要 放 置 的 位 址 , 經查詢過的資料或畫面,第二次再進入時,可重複使用 第一次查詢結果。 英數字全形半形互換功能,可將abc123 轉換成 abc123。. 27.

(40) 建築圖檔於知識資料庫建檔自動化之研究— 圖檔中文字資訊萃取、比對、建檔自動化之研究. 功. 能. 功. 能. 說. 明. 中 英 文 同 「 中 英 文 同 義 詞 組 查 詢 功 能 」。 可 針 對 不 同 的 索 引 庫 設 義詞查詢. 定 同 義 詞 組。如 設 定「 網 際 網 路 $ Internet $ 互 聯 網 」, 使 用 者 可 自 行 設 定 「 網 際 網 路 」 查 到 含 有 「 Internet」 或 「互聯網」的資訊。 內 建 18 萬 多 組 中 英 文 同 義 詞 組,具 有 中 英 文 近 似 概 念 與 同義詞檢索,並可提供詞庫管理工具,使用戶可自行修 改詞庫內容。. 中 英 文 容 內 建 「 中 英 文 容 錯 ( Fuzzy) 」 查 詢 功 能 。 錯查詢. 中 英 文 容 錯 功 能 Fuzzy Search,基 於 文 字 特 性,很 多 專 有 名詞及辭彙依情況不同,也許衍生出通用的簡稱,也有 可能因為模糊不明確的意象,使用者希望只需要輸入一 個 關 鍵 詞,就 能 一 併 查 詢 性 質 類 似 或 相 關 之 資 訊。比 如 : 輸 入 「 Mobile Network 」 可 查 到 「 Mobile Appliance Network」等 特 定 距 離 的 詞 句、輸 入「 產 業 研 究 」可 查 到 「 產 業 結 構 研 究 」 、 「 產 業 ….研 究 」 等 , 擴 展 搜 尋 的 完 整性。. 提 供 中 文 提供中文字詞索引查詢功能,透過智慧型自動斷詞技術 字、詞 查 詢 以 達 到 詞 索 引 的 效 果 , 解 決 輸 入 “ 合 資 ” 會 找 到 “ 整 合 及 英 文 片 資訊”等搜尋不精確的問題。 語檢索. 可 查 進 行 英 文 片 語 查 詢 , 如 可 查 take care 、 in order to…….. 28.

(41) 第二章 研究方法與過程. 功. 能. 功. 能. 說. 明. 階 層 式 分 可自行定義索引庫的樹狀結構,提供查詢結果顯示該分 類目錄. 類所屬的子目錄,讓使用者進一步選取下一層目錄,逐 步縮小查詢範圍,迅速找出所需的資訊。. 多 條 件 式 支 援 /多 欄 位 /多 條 件 檢 索,來 取 得 資 料 庫 資 料,並 可 跨 資 查 詢 及 排 料表、跨資訊欄位進行索引建置與搜尋。 序. 可 依 據 不 同 欄 位, 濾 除 搜 尋 結 果 雜 訊。 例 如 :. 指定查詢. 「新聞類別」欄位,過濾內容為「財經」的結果。 查詢結果可依不同欄位來資料來源進行排序,查詢者可 以 依 自 己 的 需 求 選 用 不 同 的 排 序 方 式,讓 查 詢 更 有 效 率。 簡 繁 對 譯 可將資料來源內容做簡繁轉換,達到資料一致性。 功能. 於搜尋結果,可達到即時的簡繁對譯。 解 決 簡 體 及 繁 體 互 通 問 題 , 例 如 :光 碟 -> 光 盘 。. English. 解 決 英 文 常 見 詞 性 的 問 題 , 例 如 : 輸 入 “ find ” 可 找 到. Stemming. “ finding” , and“ finds” 。. 中 文 同 音 搜 尋 提 供 同 音 相 關 功 能 查 詢 , 例 如 :意 大 利 -> 義 大 利 ; 查詢. 台 灣 - > 臺 灣 ;龍 卷 風 -> 龍 捲 風 。 支援字同音及詞同音功能。. 英 文 錯 誤 查 詢 時 提 供 錯 誤 提 示 , 例 如 : 輸 入 computre 提 示 字提示. computer、 compute。. (資料來源:龍捲風科技股份有限公司). 29.

(42) 建築圖檔於知識資料庫建檔自動化之研究— 圖檔中文字資訊萃取、比對、建檔自動化之研究. 二 、 CAD 系 統 與 資 訊 檢 索 系 統 整 合 技 術 在 網 站 平 台 中 為 了 可 同 時 進 行 知 識 收 集 存 放 與 知 識 檢 索 功 能,並 能 滿 足 建 築 圖 檔 自 動 化 建 檔 之 需 求 , 必 須 要 整 合 CAD 系 統 與 資 訊 檢 索 系 統,使 兩 個 系 統 能 溝 通。本 研 究 以 XML 技 術 將 CAD 圖 檔 的 文 字 資訊傳遞給龍捲風資訊檢索元件平台建立索引。 XML 以 標 籤 來 界 定 圖 檔 文 字 資 訊 欄 位,本 研 究 以 Microsoft .NET 開 發 XML 讀 取 程 式 , 透 過. Microsoft .NET Framework 的. XPathNavigator 功 能 及 XPath 功 能 , 前 者 將 資 料 解 譯 , 後 者 查 詢 位 於 資料存放區中的某個節點或一組節點。 當 搜 尋 引 擎 尋 得 與 關 鍵 字 相 符 合 的 索 引 時,同 時 呼 叫 龍 捲 風 的 元 件 回 傳 索 引 資 料 (Meta Data),「 取 用 文 字 資 訊 索 引 程 式 」將 執 行 XPath 查 詢 剖 析 XML 格 式 的 索 引 資 料 (Meta Data), 以 擷 取 索 引 中 該 關 鍵 字 之 節 點 及 其 文 字 資 訊 節 點,將 圖 檔 文 字 資 料 的 座 標、圖 層 及 其 所 屬 圖 檔 名 稱、日 期 時 間 等 屬 性 資 料 回 傳 至 使 用 者 介 面。回 傳 資 料 將 可 作 多 欄 位 條 件 過 濾 查 詢、圖 檔 定 位 及 欄 位 排 序 顯 示 等 功 能,讓 使 用 者 能 夠 更容易獲得正確的資料。. 30.

(43) 第二章 研究方法與過程. 第五節. 圖檔調閱查詢系統之建立與開發. 由 於 近 年 來 工 程 規 模 日 趨 龐 大,建 築 內 容 日 趨 複 雜,傳 統 之 建 築 管 理 方 式 已 不 敷 當 前 所 需,而 須 藉 助 電 腦 精 確 快 速 的 特 性 來 處 理 大 量 的資料,因此建築圖檔管理電腦化已成為必然之趨勢。 針 對 圖 檔 管 理 自 動 化 之 需 求,本 研 究 藉 著 研 擬 圖 檔 文 字 資 訊 索 引 架 構,探 討 搜 尋 引 擎 功 能,作 為 圖 檔 管 理 電 腦 化 之 基 礎,並 由 圖 檔 文 字 資 訊 與 搜 尋 引 擎 之 整 合 設 計,發 展 出 一 套 圖 檔 管 理 系 統,讓 使 用 者 能 正 確 而 快 速 地 獲 得 所 需 要 之 建 築 圖 資 料,並 將 圖 檔 管 理 之 工 作 予 以 系統化,自動化,避免人力、時間及物力上之浪費。 本 研 究 所 開 發 之 圖 檔 管 理 系 統 稱 之 為「 圖 檔 調 閱 系 統 」。系 統 以 ASP.NET 程 式 開 發 建 置,並 結 合 搜 尋 引 擎 強 大 的 檢 索 功 能。使 用 者 可 透 過 IE 瀏 覽 器 管 理 查 詢 圖 檔 , 不 需 要 額 外 安 裝 軟 體 。 當 「 圖 檔 資 料 提 供 者 」將 圖 檔 上 傳 至 伺 服 器 時,系 統 自 動 將 圖 檔 中 所 有 文 字 產 生 文 字資訊,並建立索引。「圖檔資訊使用者」可輸入設備名稱、建材、 工法等關鍵字,經過搜尋引擎的比對技術查詢圖檔。. 一、基本搜尋 查 詢 圖 檔 時,只 需 要 將 查 詢 字 詞 輸 入「 圖 檔 調 閱 系 統 」,然 後 按 一下「搜尋」按鈕,便可取得包含輸入字詞的相關圖檔。 使用者可以在查詢字詞之間使用邏輯運算符號及英文萬用字 元,例 如,以 "and" 查 詢,系 統 只 會 找 回 包 含 全 部 搜 尋 字 詞 的 圖 檔 。 若 要 進 一 步 限 制 搜 尋,只 要 包 含 更 多 的 字 詞 即 可。當「 圖 檔 資 訊 使 用 者 」輸 入 的 關 鍵 字 詞 邏 輯 愈 明 確 時,搜 尋 引 擎 愈 能 取 得 所 需 要 的 圖 檔。. 31.

(44) 建築圖檔於知識資料庫建檔自動化之研究— 圖檔中文字資訊萃取、比對、建檔自動化之研究. 二、查看圖檔搜尋結果 每個「圖檔調閱系統」搜尋的結果都包含字詞所在的檔案名稱、 完整的文字內容、圖元位置。 搜 尋 的 結 果 清 單 以 樹 狀 結 構 階 層 式 排 列,並 依 專 案 名 稱、圖 檔 名 稱加以分類,當選取專案名稱時,其所包含的圖檔名稱就會展開排 列。當選取圖檔名稱時,所包含的文字內容就會展開排列。 使用者亦可下載圖檔至本機。若使用者的本機中有安裝 MicroStation 軟 體 , 當 圖 檔 下 載 完 成 時 , 網 頁 透 過 Shell 呼 叫 本 機 的 MicroStation 開 起 圖 檔 , 並 執 行 對 應 的 啟 動 檔 , 圖 檔 開 啟 後 自 動 定 位 至文字的所在位置。. 三 、 M i c r o St a t i o n 啟 動 檔 「 圖 檔 啟 動 檔 產 生 程 式 」擷 取 圖 檔 文 字 的 圖 檔 名 稱、圖 元 座 標 等 搜 尋 結 果 產 生 MicroStation 啟 動 檔 , 提 供 使 用 者 端 圖 檔 定 位 功 能 。 每 一 個 搜 尋 結 果 產 生 一 個 對 應 的 文 字 啟 動 檔。當 使 用 者 在 下 載 圖 檔 時 系 統 同 時 自 動 下 載 啟 動 檔 , 啟 動 檔 格 式 如 圖 2-7。. 32.

(45) 第二章 研究方法與過程. 圖 2-7 MicroStation 啟動檔範例文件 window area;xy=54.957284375,11.3872;dx=5,5;selview 1. (資料來源:本研究製作). 33.

(46) 建築圖檔於知識資料庫建檔自動化之研究— 圖檔中文字資訊萃取、比對、建檔自動化之研究. 第六節. 系統設計. 一、系統軟體架構 本 研 究 之 軟 體 架 構 可 分 為 伺 服 器 端 及 客 戶 端。伺 服 器 電 腦 之 作 業 系 統 採 用 Microsoft Windows 2000 Server。 Intranet/Internet 網 路 伺 服 管 理 系 統 採 用 Microsoft Internet Information Server(IIS) 5.1。搜 尋 引 擎 目 前 使 用 龍 捲 風 資 訊 檢 索 元 件 平 台 (Information Retrieval Management System, 簡 稱 IRMS)。. 表 2-3 伺服器軟體架構. 軟體種類. 軟體名稱及版本. 作業系統. Microsoft Windows 2000 Server. 網路伺服管理系統. Microsoft Internet Information Server 5.1. 搜尋引擎. IRMS. .net 執 行 環 境. Microsoft .net Framework 1.1. (資料來源:本研究製作). 在 開 發 工 具 方 面,目 前 的 網 路 開 發 工 具 都 可 讓 開 發 者 在 伺 服 器 或 客戶端的電腦上開發,而只需在伺服器或客戶端安裝下表之軟體:. 34.

(47) 第二章 研究方法與過程. 表 2-4 開發系統所需之軟體 軟. 體. 名. 稱. 功. 能. 備. 註. Bentley MicroStation DGN 8.0 萃 取 圖 檔 文 字 內 容 必 須 Object Library 撰 寫 ASP.Net 網 頁 必 須. Microsoft Visual Studio.net. 應用程式 Tornado. Technologies. IRMS 檢 索 圖 檔 文 字 資 訊 必 須. Searcher 2.1 Type Library. (資料來源:本研究製作). 客 戶 端 之 作 業 系 統 可 以 為 Microsoft Windows 98, 2000, ME, XP, NT WorkStation 4.0, NT Server 4.0 之 任 何 一 種,甚 至 可 以 是 Microsoft Windows 以 外 之 作 業 系 統 。 惟 非 Windows 之 作 業 系 統 本 研 究 仍 未 作 測 試,故 不 建 議 使 用。網 路 瀏 覽 器 為 Microsoft Internet Explorer(IE) 6 以 上 版 本 , 目 前 本 研 究 之 網 站 並 不 支 援 Netscape 之 瀏 覽 器 。. 表 2-5 客戶端所需之軟體 軟. 體. 名. 稱. 功. 能. 備. 註. Microsoft Windows 95,98,2000, 作 業 系 統. 必須,可為非. ME, XP, NT WorkStation, NT. Microsoft 之 作. Server. 業系統. Microsoft Internet Explorer 6.0 網 路 瀏 覽 器. 必 須,本 研 究 不. 以上. 支 援 Netscape. (資料來源:本研究製作). 35.

(48) 建築圖檔於知識資料庫建檔自動化之研究— 圖檔中文字資訊萃取、比對、建檔自動化之研究. 二、系統功能設計 本 研 究 依 據 前 述 章 節 所 探 討 歸 納 之 原 則,實 作「 圖 檔 調 閱 查 詢 系 統 」,其 功 能 設 計 架 構 分 為 前 端「 圖 檔 上 傳 」與「 圖 檔 調 閱 查 詢 」兩 個 子 系 統,及 一 後 端「 計 畫 名 稱 管 理 系 統 」三 個 子 系 統,其 架 構 如 圖 2-8。. 圖 2-8 系統功能設計架構 圖檔上傳系統. 圖檔調閱系統. 圖檔調閱查詢系統. 計畫名稱管理系統. (資料來源:本研究製作) 各子系統之功能模組與說明如下: 「 圖 檔 上 傳 系 統 」之 主 要 功 能 為 提 供「 圖 檔 資 料 提 供 者 」將 本 機 的 圖 檔 上 傳 至 伺 服 器,系 統 程 式 萃 取 圖 檔 中 所 有 文 字,建 立 為 文 字 資 訊,並 將 文 字 資 訊 自 動 匯 入 搜 尋 引 擎 索 引 資 料 庫 中。系 統 界 面 設 計 如 圖 2-9。 操 作 步 驟 如 下 : 1.. 使用者選取計畫名稱或計畫編號。. 2.. 按下瀏覽按鈕,系統跳出檔案選取視窗,使用者選取需上傳的檔 案 。 如 圖 2-10。. 3.. 36. 按下上傳按鈕,即完成圖檔上傳及自動建立索引。.

(49) 第二章 研究方法與過程. 圖 2-9 圖檔上傳系統界面. (資料來源:本研究製作) 圖 2-10 選取上傳檔案 系統界面. (資料來源:本研究製作). 37.

(50) 建築圖檔於知識資料庫建檔自動化之研究— 圖檔中文字資訊萃取、比對、建檔自動化之研究. 「 圖 檔 調 閱 查 詢 系 統 」為 本 系 統 建 構 之 主 要 目 的,提 供「 圖 檔 資 訊 使 用 者 」輸 入 查 詢 字 詞 搜 尋 圖 檔 及 下 載 圖 檔 功 能。圖 檔 下 載 至 使 用 者 端 後,圖檔自動開啟,並定位至文字所在的位置。系統界面設計如圖 2-11。 操 作 步 驟 如 下 : 1.. 使用者輸入查詢字詞。. 2.. 按 下 搜 尋 按 鈕 , 系 統 顯 示 圖 檔 樹 狀 選 單 。 如 圖 2-12。. 3.. 按下下載按鈕,下載圖檔。. 4.. 使 用 者 本 機 的 Microstation 自 動 開 啟 圖 檔 , 並 定 位 至 文 字 所 在 的 位 置 。 如 圖 2-13。. 圖 2-11 圖檔調閱查詢系統界面. (資料來源:本研究製作). 38.

(51) 第二章 研究方法與過程. 圖 2-12 圖檔樹狀選單系統界面. (資料來源:本研究製作) 圖 2-13 圖檔定位系統功能. (資料來源:本研究製作). 39.

(52) 建築圖檔於知識資料庫建檔自動化之研究— 圖檔中文字資訊萃取、比對、建檔自動化之研究. 「 計 畫 名 稱 管 理 系 統 」為 後 端 維 護 管 理 系 統,提 供 系 統 管 理 者 建 置 計 畫 名 稱 及 計 畫 編 號。計 畫 名 稱 及 計 畫 編 號 為 圖 檔 分 類 的 依 據,使 用 者 須 先 行 建 置 後,於 圖 檔 上 傳 系 統 使 用。系 統 界 面 設 計 如 圖 2-14。操 作 步驟如下: 1.. 按下新增按鈕,輸入計畫名稱及計畫編號後,按下存檔按鈕,以 新 增 計 畫 名 稱 及 計 畫 編 號 。 如 圖 2-15。. 2.. 按下編輯按鈕,以修改計畫名稱及計畫編號。. 3.. 按下刪除按鈕,以刪除計畫名稱及計畫編號。. 圖 2-14 計畫名稱管理系統界面. (資料來源:本研究製作). 40.

(53) 第二章 研究方法與過程. 圖 2-15 新增計畫名稱系統界面. (資料來源:本研究製作). 41.

(54) 建築圖檔於知識資料庫建檔自動化之研究— 圖檔中文字資訊萃取、比對、建檔自動化之研究. 第七節. 向量式圖檔轉換為影像格式之機制及 成效之探討. 圖 檔 格 式 有 兩 大 類:向 量 式 (vector)與 網 格 式 (raster)。這 兩 種 格 式 各有其適用的用途。 向量式的資料結構為將所有的空間單元以連續座標組的方式記 錄 各 點 座 標 及 採 樣 順 序。此 種 資 料 的 任 何 空 間 資 訊 都 可 對 應 到 一 組 座 標,精 確 度 高。網 格 式 的 資 料 結 構 為 將 空 間 劃 分 成 規 則 的 多 邊 形,如 正 方 形、長 方 形、三 角 形 等,空 間 單 元 就 由 這 些 規 則 多 邊 形 的『 網 格 』 來 表 達。此 種 資 料 的 網 格 內 所 有 點 視 為 具 有 相 同 屬 性 的 空 間 單 元,方 格愈小,解析力愈高。 兩 種 格 式 的 資 料 各 有 優 劣。向 量 式 資 料 的 優 點 為:精 度 高、資 料 儲 存 空 間 小、資 料 有 序 組 成,故 資 料 讀 取 速 度 快 ;缺 點 為:資 料 結 構 複 雜、運 算 邏 輯 繁 雜。網 格 式 資 料 的 優 點 為:資 料 結 構 簡 單、資 料 蒐 集 快 、 運 算 邏 輯 簡 潔 易 懂 ;缺 點 為 : 精 度 不 夠 、 資 料 量 龐 大 。 本 研 究 將 DGN 格 式 圖 檔 輸 出 成 200dpi 全 彩 的 TIFF 格 式 影 像 檔,檔 案 大 小 約 略 成 長 15 倍 。 向 量 式 與 網 格 式 資 料 間 可 進 行 轉 換。從 向 量 式 至 網 格 式 資 料 的 轉 換 , 這 個 過 程 稱 為 「 網 格 化 」 。 圖 2-16 模 擬 網 格 化 的 過 程 與 結 果 。. 42.

(55) 第二章 研究方法與過程. 圖 2-16 向量式資料網格化. (資料來源:地理資訊系統概論 , 王晉元). 從 網 格 式 到 向 量 式 資 料 的 轉 換,稱 為「 向 量 化 」。從 圖 2-17 裡 , 我 們 可 以 很 清 楚 地 看 到 在 這 樣 一 個 轉 換 過 程 中,資 料 的 精 度 被 嚴 重 地 破壞了。. 圖 2-17 向量式資料網格化再向量化. (資料來源:地理資訊系統概論 , 王晉元). 目 前 建 築 設 計 圖 大 多 是 採 用 電 腦 輔 助 設 計 軟 體 (CAD) 繪 製 , 而 CAD 的 圖 檔 是 以 向 量 式 (Vector)資 料 結 構 儲 存 , 即 圖 檔 中 記 錄 的 是 每 個 圖 形 的 頂 點 座 標 。 若 建 案 完 成 後 , 把 當 初 設 計 的 CAD 圖 檔 儲 存 起 來,將 來 再 利 用 時 則 十 分 便 捷,只 要 把 圖 檔 調 閱 出 來 作 修 改,即 可 產 生 新 圖 檔。但 卻 無 法 將 當 初 在 紙 圖 上 的 簽 核、批 註 及 手 寫 的 修 改 儲 存. 43.

數據

圖 2-5 文字資訊之 文字資訊之 文字資訊之 文字資訊之 XML 結構描述 結構描述 結構描述 結構描述(XSD)
表 2-3  伺服器軟體架構 伺服器軟體架構 伺服器軟體架構  伺服器軟體架構
圖 2-15  新增計畫名稱系統界面 新增計畫名稱系統界面 新增計畫名稱系統界面 新增計畫名稱系統界面

參考文獻

相關文件

利用 Microsoft Access 資料庫管理軟體,在 PC Windows 作業系 統環境下,將給與的紙本或電子檔(如 excel

利用 Microsoft Access 資料庫管理軟體,在 PC Windows 作業系統環境 下,將給與的紙本或電子檔(如 excel

選取本地根資料夾Æ右 1Æ開新檔案Æ輸入檔案名稱( index.html),Enter 鍵Æ右 1Æ設成 首頁 Æ重複〝右 1〝 本地根資料夾〞 Æ開新檔案Æ輸入檔案名稱,Enter

請仲介機構提出評鑑人員於現場所抽取之 10 位雇 主及外國人(求職人)書面或電腦顯示之建檔資 料。

1.推(自)薦表紙本1份及推(自)薦資料電子檔,電子檔格式包括 word 檔(或 odt 檔)及 pdf

上傳後的資料。倘若 於上傳初選檔案截止 日(2/24)前,仍有必 要更換評選檔案,請

利用 Microsoft Access 資料庫管理軟體,在 PC Windows 作業系 統環境下,將給與的紙本或電子檔(如 excel

建築資訊建模(Building Information Modeling, 簡稱