教育中心(Rutgers' Management Education Center)的 4500 名中學生中,有 75%的 學生,曾有嚴重的欺騙行為,一半以上的剽竊來源自網路,顯示剽竊行為在校園 內的氾濫,學生嚴重缺乏尊重他人智慧財產權觀念。在上述的情況越來越嚴重的 情況下,保護智慧財產權的觀念受到重視,除了在硬體方面防止資訊的快速散佈 以及透過數位版權管理(Digital Rights Management, DRM)等被動的方式外,更 應主動積極地偵測是否有剽竊行為的產生。
剽竊與否的判斷十分的主觀,各方專家所下的定義不盡相同,但都傳達一個 相同的概念—剽竊是未經原始著作者同意而使用或模仿其思想或語言 [24]。目 前發展出許多不同的剽竊偵測方法,各有其優、缺點,但都針對較具有規則性的
2
英文,針對較無規則性的中文之研究則稀少許多,因此中文文件的剽竊偵測研究 有其重要性。
1.2 研究目的
本研究之目的為透過Google搜尋引擎建置一中文剽竊偵測系統,自動化偵測 使用者上傳之文件是否有抄襲自網路,並以視覺化介面呈現給使用者,利於人工 檢視其文件的剽竊狀況。本研究發展中文文件剽竊偵測系統的目的,不僅僅在於 偵測是否有剽竊行為的發生,更期望有教育意義地進而提醒使用者,預防剽竊行 為的發生。
由於中文字的意義多變,且字詞組合多變,剽竊與否的判斷,最後還是要依 人工的方式去判斷,本研究根據ROUGE之N-gram co-occurrence statistic [10]之其 中一種方法--最長共同子序列(Longest Common Subsequence, LCS)之演算法,計 算使用者上傳之文件與Google搜尋傳回之搜尋結果之相似度,若高於某一門檻 值,代表有剽竊之可能性,則在系統使用介面上顯示出來,並透過ROUGE-W之 概念修正LCS演算法與ROUGE-L,降低系統整體假警報率。整體的研究目標如 下:
1. 透過Google搜尋引擎,讓使用者知曉其上傳之文件是否有剽竊自網路。
2. 讓使用者檢視其偵測結果,做最後剽竊與否之判斷,並透過警語告知使 用者其參考自網路之文句多寡,期望有教育意義地給予大眾避免剽竊的 方針。
1.3 論文架構
本論文在第二章介紹剽竊定義、目前最常使用的剽竊偵測方法與本研究相關 之文獻。第三章則詳細描述本研究之剽竊系統架構,如何進行文章前置處理作
3
業,進而與Google搜尋引擎回傳的結果做比對之觀念與方法,最後將偵測結果呈 現給使用者。第四章藉由雛形系統的實作,針對網路上新聞、網誌、維基百科之 文章與全國高級中等學校小論文寫作比賽之小論文 [21]做系統正確性之驗證,
並尌產生的結果進行比較與分析。第五章總結本研究並提出未來可改善的研究方 向。論文整體架構如圖 1所示。
剽竊定義
前置處理 Google搜尋引擎結 果
相關研究
相似度比對
系統介紹 系統正確性
之驗證 討論與分析 實驗
剽竊偵測方法 相關系統介紹
系統實作 研究動機背景與目的
結論與未來改善方向
圖 1:論文整體架構
4