編碼
的 Survey 報告』才需要儲存小議題的資料,而『成熟領域的 Survey 報告』沒有 小議題,而是解法,因此可分為兩種:
1. 未成熟領域的 Survey 報告:其小主題列表中儲存的資料為議題名稱、
解法列表,解法列表為該議題之下的解法,儲存的資料為解法編碼、父 解法編碼,儲存父解法編碼的原因是為了表示其大解法包含小解法的關 係。
2. 成熟領域的 Survey 報告:如前所述,其主題專一,會列出解法並比較 之,所以只需要儲存解法列表即可,其解法列表儲存的資料與『針對未 成熟領域的論文』的小議題的解法列表一樣。
圖 3-10 領域類別知識列表儲存格式
如圖 3-11 所示,技術議題節點儲存的資料有議題名稱、簡介檔名、解法列 表指標,解法節點儲存的資料有解法編碼、簡介檔名、繼承解法、技術報告列表 指標,由於系統有建立解法的關鍵字列表,而且將關鍵字列表載入記憶體中,因
型別 子領域個數 Survey議題個數 簡介檔名 子領域名稱 1 子知識列表指標
子領域名稱 2 子知識列表指標 子領域名稱 3 子知識列表指標 Survey 議題列表指標
議題名稱 1 簡介檔名 報告列表指標 議題名稱 2 簡介檔名 報告列表指標 議題名稱 3 簡介檔名 報告列表指標
Survey 名稱 1 作者 年代 報告編號 子議題列表指標 摘要檔名 內文檔名 Survey 名稱 2 作者 年代 報告編號 子議題列表指標 摘要檔名 內文檔名
議題名稱 解法列表指標 議題名稱 解法列表指標
解法編碼 父解法編碼 解法編碼 父解法編碼
型別 子領域個數 Survey 議題個 數 簡介檔名
子領域名稱 1 子知識列表指標 子領域名稱 2 子知識列表指標 子領域名稱 3 子知識列表指標 Survey 議題列表指標
此不需要儲存解法名稱。技術報告節點需要儲存的資料包含:報告名稱、作者、
年代、摘要檔名、內文檔名、報告編號、解法編碼、技術編碼列表,一篇技術報 告的運用到的技術雖然很多,但是通常在 5、6 個技術之內,因此將報告的技術 列表設定在最多使用 8 種技術。
圖 3-11 技術報告儲存資料 知識編碼
知識編碼 知識編碼 知識編碼
逆向查詢的檢索資料,需要紀錄知識的完整路徑,因此需先制定知識的完整 路徑編碼方式。領域類別架構為樹狀形式,ACM 的分類架構亦為樹狀形式,藉由 ACM 分類架構的子領域類別數目可估計領域類別的子領域類別數目。表 3-4 為 ACM 分類架構子領域數目之統計表,其子類別個數最多為 19,因此『問題-解法』
知識分類架構中,每層領域類別(如圖 3-12 所示)可用 6Bit 表示,即最多可有 63 個,若不滿七層,則以下的層數均儲存 0,如 5-7-18-32-16-19-7 為第七層領 域類別的編碼,其父領域類別編碼為 5-7-18-32-16-19-0。L8 代表技術議題的序 號,L9 代表解法的序號,L10 代表技術報告的序號。L1 至 L10 共 60bit,如利用 64 位元機器,足以用一個 word 代表。
型別 議題個數 Survey 議題個數 簡介檔名 議題名稱 1 簡介檔名 解法列表指標 議題名稱 2 簡介檔名 解法列表指標 議題名稱 3 簡介檔名 解法列表指標 Survey 議題列表指標
父領域類別指標
解法編碼 簡介檔名 繼承解法 技術報告列表指標 解法編碼 簡介檔名 繼承解法 技術報告列表指標 解法編碼 簡介檔名 繼承解法 技術報告列表指標 議題指標
報告名稱 1 作者 年代 報告編號 技術編碼列表 摘要檔名 內文檔名 報告名稱 2 作者 年代 報告編號 技術編碼列表 摘要檔名 內文檔名
由於一領域類別之下可能同時有子領域或 Survey 議題,為了區分 Survey 議 題 與 子 領 域 / 技 術 議 題 , 以 63 來 當 做 Survey 議 題 的 代 號 , 如 5-7-18-32-16-63-0,則代表使用者要存取的是 5-7-18-32-16-0-0 這個領域類別 之下的 Survey 議題,L8 代表 Survey 議題序號,L9 為 Survey 報告序號,由於 Survey 報告的子議題以及解法在顯示 Survey 報告時,以樹狀圖來表示,因此不 需要編碼。
如此的編碼方式,最底層領域類別之下,可有 60 個議題、3,600 個解法、
216,000 篇報告,如此的數量對於一般的領域類別已經足夠。然而,當一個新興 領域(如量子電腦),剛開始報告篇數不多,故將報告全放置於該領域類別之下,
隨著時間的發展,該領域越來越成熟,發現無法將報告放置於領域類別之下,代 表該領域需要切割成數個子領域以進行更細緻之分類。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 18 19 第一層 0 0 0 1 0 3 3 0 2 2 0 0 0 0 0 0 0 0 第二層 2 0 1 7 14 9 8 1 4 3 1 2 1 0 1 0 1 0 第三層 9 22 24 26 33 19 16 10 9 6 2 4 2 1 0 1 0 1
表 3-4 ACM 子類別個數統計表
圖 3-12 知識編碼 逆向查詢檢索方式
逆向查詢檢索方式 逆向查詢檢索方式 逆向查詢檢索方式
有鑒於一般知識庫利用關鍵字查詢時列出一大堆知識,造成使用者不曉得哪 些知識對他有幫助,因此本系統在逆向查詢時,系統將列出有哪些領域之議題下 有該關鍵字之相關知識,再讓使用者挑選有興趣的領域及議題閱讀,系統才列出
60Bit,每層 6Bit
L4 L3 L2 L1
L5 L6 L7 L8 L9 L10
該領域、議題下符合該關鍵字的知識,此對使用者有甚大方便。
使用者在查詢技術報告或 Survey 報告時,可利用『解法』或『技術』兩種 關鍵字去查詢,圖 3-13 為『解法』、『技術』的逆向查詢檢索方式,系統在解法 關鍵字列表中,儲存其逆向查詢資料指標,該資料儲存的型態有兩種:『技術報 告編碼』、『Survey 報告編碼』。當使用者輸入解法關鍵字時,系統將關鍵字轉換 成解法編碼,透過該編碼取得『逆向查詢資料指標』,經由該指標取得有哪些報 告有談到該解法,依據領域類別排序,將同一議題的報告群組起來,並列出其領 域類別路徑、議題名稱以及符合該解法關鍵字的報告列表。
技術關鍵字列表中,儲存了每一使用到此技術之技術報告編號,這些報告一 編碼排序。當使用者輸入技術關鍵字作查詢時,系統先將關鍵字轉換成技術編碼 與『逆向查詢資料指標』,取得所有運用該技術的技術報告,並依領域類別、技 術議題、解法等順序一一列出。
圖 3-13 論文/報告逆向查詢檢索資料
3.3.2 3.3.2 3.3.2
3.3.2 小型私人知識庫 小型私人知識庫 小型私人知識庫 小型私人知識庫
小型私人知識庫與技術報告庫的差異有三:
1. 小型私人知識庫多了書本知識與技術論文
2. 知識來源可能是公司本身的知識,也可能來自於其他技術報告庫、期刊 資料庫、或者網路上的資源,故需紀錄來源
3. Survey 論文來源多了期刊資料庫
ApproachID 名稱 逆向查詢資料指標 ApproachID 名稱 逆向查詢資料指標
技術報告編碼 Survey 報告編碼
TechniqueID 名稱 逆向查詢資料指標 TechniqueID 名稱 逆向查詢資料指標
技術報告編碼
知識節點
Survey 論文 名稱、作者、期刊、年代、Volume、Issue、
頁次、摘要、全文
型別、子議題列表
技術論文 名稱、作者、期刊、年代、Volume、Issue、
頁次、摘要、全文 告需要紀錄來源報告庫。Survey 論文紀錄的資料有名稱、作者、年代、期刊、
頁數、Volume、Issue、摘要、內文,為了與 Survey 報告區分,因此需要加入型 別這個欄位,及加入 Survey 議題列表以紀錄論文討論的議題。如同技術報告,
Survey 報告的來源不只一個,因此需要紀錄來源報告庫。由於期刊數量不多,
因此可以將期刊名稱存在一個表格中,並且給予編碼,載入記憶體中,技術論文
的”Operating System Concepts”、Bach, M. J.的”The Design of the Unix Operating System”等書,也都會談到包含 Process Synchronization、Memory Management 等等議題,因此書本議題名稱共用的情況非常多,故可儲存書本議 題的關鍵字列表,其資料結構如同技術報告庫的解法、技術關鍵字列表,因此不 在贅述。
由於私人知識庫多了書本知識,因此小型私人知識庫的領域類別節點的資料 會多出書本知識列表指標,如圖 3-14 所示。
圖 3-14 書本知識資料
技術論文的編碼與技術報告的編碼相同,Survey 論文與 Survey 報告的編碼 亦相同。由於一個領域類別之下可能同時有子領域、Survey 議題、書本知識,
為了分辨其型態,以 62 來當做書本知識的代號,如 5-7-18-32-16-62-0,則代 表使用者要存取 5-7-18-32-16-0-0 這個領域類別之下的書本知識。書本知識的 範圍較廣,其所屬領域應該都在 L6 以上,如果書本知識所屬領域在 L5 或 L6,
型別 子領域/技術議題個數 Survey 議題個數 書本個數 簡介檔名 子領域名稱 1 知識列表指標
子領域名稱 2 知識列表指標 子領域名稱 3 知識列表指標 Survey 議題列表指標 書本知識列表指標 父領域類別指標
名稱 1 作者 年代 出版社 簡介檔名 書本議題列表指標 名稱 2 作者 年代 出版社 簡介檔名 書本議題列表指標 名稱 3 作者 年代 出版社 簡介檔名 書本議題列表指標
議題編碼 父議題編碼 議題編碼 父議題編碼 議題編碼 父議題編碼
如圖 3-15 所示,其下一層則為 62,L8 為書本序號,由於該書本位於 L5 或 L6,
表示該書本的領域範圍很窄,書本數量應該不多,如此編碼是可行的。當書本知 識所屬領域在 L4 以上時,其領域範圍較大,包含的書本知識可能會超過 64 本,
因此用 L7、L8 來表示書本序號,亦即可有 3600 本書本,已經足以表示一個領域 類別之下的書本。由於系統在顯示書本知識時,以樹狀圖顯示該書本知識的議題 結構,因此不需將書本知識的議題納入編碼。
圖 3-15 書本知識編碼
圖 3-16 書本知識逆向查詢資料
技術/Survey 論文的逆向查詢資料,與技術/Survey 報告的相同,不再贅述。
系統在書本議題關鍵字列表中,儲存其逆向查詢資料指標,該資料儲存的型態為
『書本編碼』,以領域類別排序。使用者在查詢書本時,可能會利用『書本議題』
關鍵字去查詢,當使用者輸入『書本議題』時,系統將關鍵字轉換成書本議題編 碼,透過該編碼取得『逆向查詢資料指標』,經由該指標取得有哪些書籍有談到 該議題,並依照領域類別一一列出。
BookIssueID 名稱 逆向查詢資料指標 BookIssueID 名稱 逆向查詢資料指標
書本編碼 書本編碼
L4 L3 L2 L1
L5 L6 書本 62
L9 L10
L4 L3 L2 L1
L6
62L7 L9
L8L10
書本
圖 3-17 期刊、Volume、Issue、論文之儲存資料
圖 3-17 期刊、Volume、Issue、論文之儲存資料