第一節 參考文獻管理系統
近年來隨著資訊數位化的技術逐漸成熟以及電腦科技的進步,幾乎各式各樣 的資訊都能經由網路取得,網際網路的蓬勃發展使得數位圖書館的資源日益豐 盈,而人們也可以方便地獲取知識。這些電腦與網路科技的發展已逐漸影響人類 生活的許多方式,並改變了資訊與知識的產生、處理及傳播。舉例而言,早期使 用者要利用圖書館資源只能實地到圖書館內尋找,而在「數位圖書館(Digital Library)」[26]這個概念被提出並且建置後,現在的使用者已經不一定要到圖書館 內找資料了,他們可以透過網際網路來取得數位圖書館的資料。
一般來說,使用校園數位圖書館的目的不外乎館藏查詢、電子資料庫查詢及 電子期刊查詢等,而會用到後兩項的使用者主要都是為了研究目的,我們稱之為 學術研究者(Academic User)[22],他們時常需要接觸並閱讀相關的研究論文與報 告。然而,由於個人習慣的差異,有些人閱讀或下載後的文獻常放在零散的地方,
導致將來想要整合時還得花費一番功夫。
有鑑於此,一個可依個人需求來調整且便於管理資料的文獻管理系統就顯得 有需要了,目前文獻管理系統中較著名者包括線上參考目錄 BoW(Bibliography on the Web)系統[24]以及個人線上參考文獻資料庫 RefWorks 系統[27],總結這些系 統的功能,一個好的文獻管理系統必須提供下列幾項服務:
Ø 不受時間與空間的限制,使用者可以在任何時間、任何地點使用文獻管 理系統。
Ø 使用者可以方便地新增資料並且組織及管理個人目錄。
Ø 使用者可以藉由搜尋功能方便找到所需的文獻。
Ø 使用者可以利用唯讀方式將個人之文獻資料分享給其他的研究人員。
表格 1 是這兩個系統的主要功能比較。
文 獻 管 理 系 統 功 能
線上參考目錄 BoW
個人線上參考文獻 資料庫 RefWorks
支援遠端存取 √ √
新增文獻資料 √ √
組織及管理資料(夾) √
建立文獻索引(index) √
文獻搜尋服務 √ √
資源共享 √ √
自動文獻分群 √
表格 1:已知參考文獻管理系統之功能比較
在表格 1 的這些功能中,支援遠端存取及新增文獻資料是一個文獻管理 系統所需提供的基本功能,而一個貼心的文獻管理系統尚需讓使用者依自己的 習慣組織及管理資料或資料夾,因此前三項服務是文獻管理系統的基本功能。
而建立一個好的文獻管理系統的關鍵技術在於(1)如何建立文獻索引、(2)提升 文獻搜尋結果之服務、(3)與他人共享資源及(4)自動文獻分群。
(1) 建立文獻索引:線上參考目錄 BoW 系統[24]提出的索引建立方法為階 層式的概念索引,它從文件中的作者名、出版商、註解等挑選出關鍵字作為索 引,在字詞的權重計算上採用資訊擷取(Information Retrieval)方法的 TF*IDF [1]。這種藉由計算 TF*IDF 的權重公式雖然簡單,但相對地,因為它並沒有判 斷出文件字詞的語意,因此可能會導致非相關的文件搜尋結果或錯誤的文件分 群。解決方法可以加入字詞的語意來建立文件索引,而在判斷字詞語意方面,
包 括 字 典 導 向 方 法 (Dictionary-Based Method) 、 監 督 式 方 法 (Supervised
都可以用來判斷字詞語意,其中字典導向方法是目前最多人採用且準確度較高 的方法,一些相關研究如[3][4][5][6][7][8][19]等都是對照 WordNet 這個詞典 (Thesaurus),利用詞典中所定義的字詞關係來決定字詞間的語意。
(2) 文獻搜尋服務:良好的搜尋必須兼顧快速回傳資料及提升搜尋準確 度,因此系統通常會先建立文件的索引,索引建立的方式依系統或使用者的需 求而有所不同,若系統只提供字串比對的搜尋服務,則資訊擷取(Information Retrieval)方法[1]建立的索引就已足夠,但利用此方法建立的索引並不能保證 搜尋的準確度;若系統希望滿足使用者搜尋的準確度,意即搜尋到語意相關的 資料,則可以利用判斷出的字詞語意建立索引。
(3) 資源共享:線上參考目錄 BoW 系統[24]以及個人線上參考文獻資料庫 RefWorks 系統[27]可以藉由搜尋功能找出相關的文獻,並且提供使用者以唯讀方 式共享他人的資源。但同樣地,系統提供的共享資源中可能有一些和使用者非相 關的文獻,解決方法同樣可以加入字詞的語意來代表文獻。
(4) 自動文獻分群:文獻分群與文獻索引息息相關,計算所有已經建立好索 引文獻的相似度,則可以達到自動文獻分群的功能,不過問題在於分在同群中的 文獻是否真正相關,解決方法同樣可以加入字詞的語意來代表文獻。
以上所述的線上參考目錄 BoW 系統[24]以及個人線上參考文獻資料庫 RefWorks 系統[27]都沒有判斷出字詞的語意,因此我們開發的文獻管理系統將著 眼於語意的分析且建立具語意的字詞索引。
第二節 研究動機
過去的文獻管理系統大多著重於提供一個便於操作的介面,這個介面可以讓 使用者依個人需求來調整且管理所蒐集的文件,最多加上檢索的功能讓使用者能
快速搜尋文件及達到資源共享。有鑑於此,本論文研究的動機便是希望能夠提升 文獻管理系統的價值,藉由分析使用者蒐集的文件,將文件分群並推薦相關的資 料給使用者。因此我們認為一套好的文獻管理系統還必須滿足以下兩個條件:
Ø 分在一群的文件必須確實相關;
Ø 推薦的文件必須符合使用者的需求;
為了滿足上述的兩個要求,一套較佳的文獻管理系統必須要能夠理解文件的 內容,即文件的真正語意,因此本論文提出一個可以判斷字詞語意的演算法,利 用此演算法得到的字詞語意當作文件索引,進而將文件分群,分群後的結果並推 薦給相關的使用者。
第三節 研究目的
綜合以上說明,本論文主要的研究在於判斷文件字詞語意,並利用分群方法 將這些判斷出字詞語意的文件分群。實作的系統呈現(推薦)給使用者的是一個有 組織、有架構的文件分群結果,使用者可以從這些推薦給他的文件中選取自己想 要的資訊,並可以依照自己的喜好新增、修改、儲存整群文件等,而使用者所做 的這些動作都將被系統記錄下來作為其個人設定檔(User Profile)的一部分,以應 用到下次他的文件分群中。
整套個人化文獻管理系統提供的功能有:
Ø 輸入功能(Import):讓使用者將欲儲存的文件輸入空白表單中-利用複 製和貼上(Copy and Paste)。
Ø 管理資料夾功能(Organize Folders):讓使用者自定資料夾,並將文件分 門別類歸納入各個資料夾,並可對資料夾更名、新增、刪除、修改。
Ø 瀏覽功能:由使用者選擇排序欄位瀏覽儲存的文件。
Ø 搜尋功能:分為簡易搜尋及進階搜尋兩種;搜尋使用者儲存的文件。
Ø 文件分群及推薦功能:系統將全部蒐集的文件經斷詞切字處理及字詞語 意判斷後,進行文件分群,分群後的文件推薦給擁有該群某些資料的使 用者。
Ø 回饋(Feedback)及共享功能:使用者可以評估推薦結果,並將滿意度回 傳給系統,系統可藉此調整分群演算法,進一步達到個人化服務的目的。
我們並希望透過經由語意分析後分群好的文件,來達到以下目標:
Ø 自動文件分類:
已知分群後的每群群中心,則新增的文件分別和每群群中心計算相似 度,若最大相似度超過設定的門檻值(Threshold),則這個新增文件歸類在最 大相似度的群中;若最大相似度沒有超過門檻值,則此新增文件單獨成一 群。如此一來即可以做到自動文件分類。
Ø 推薦使用者新進文件:
這個目標可以利用與內容相關的方法(Content-Based Method)來完成,若 利用前述自動文件分類方法將某新增文件歸類到最大相似度的一群中時,這 個新增文件同時會被推薦給擁有該群某些資料的使用者。
綜合以上所述的功能,我們提出的 MyLibrary 文獻管理系統與線上參考目錄 BoW 系統[24]以及個人線上參考文獻資料庫 RefWorks 系統[27]比較的功能如表 格 2:
文獻管理系統 功 能
線上參考目錄 BoW
個人線上參考文獻 資料庫 RefWorks
MyLibrary文 獻管理系統
支援遠端存取 √ √ √
新增文獻資料 √ √ √
組織及管理資料(夾) √ √
建立文獻索引(index) √ √
文獻搜尋服務 √ √ √
資源共享 √ √ √
自動文獻分群 √ √
推薦文獻功能 √
表格 2:本論文提出的 MyLibrary 文獻管理系統與其他系統之比較
我們提出的 MyLibrary 文獻管理系統不僅提供基本功能,亦提供滿足並符合 使用者需求的進階功能。
第四節 本論文內容與架構
本論文共分為五章,第二章介紹文獻管理系統之相關研究工作,包括判斷字 詞語意以建立文件索引、文件分群和個人化參考文獻服務系統;第三章提出一個 新的判斷字詞語意的演算法,利用語彙鍵結為基礎,改良字詞語意權重表示法並 加入兩種策略來決定字詞語意,且對這個演算法及以這個演算法為核心技術的文 件分群結果進行實驗分析與評估;第四章說明實作的「個人化參考文獻管理系 統」,結合 MyLibrary@NCTU 呈現給使用者;第五章則歸納結論與未來研究方 向。