緒論 - 以Google搜尋引擎為基礎之中文剽竊偵測系統

教育中心(Rutgers' Management Education Center)的 4500 名中學生中，有 75%的學生，曾有嚴重的欺騙行為，一半以上的剽竊來源自網路，顯示剽竊行為在校園內的氾濫，學生嚴重缺乏尊重他人智慧財產權觀念。在上述的情況越來越嚴重的情況下，保護智慧財產權的觀念受到重視，除了在硬體方面防止資訊的快速散佈以及透過數位版權管理（Digital Rights Management, DRM）等被動的方式外，更應主動積極地偵測是否有剽竊行為的產生。

剽竊與否的判斷十分的主觀，各方專家所下的定義不盡相同，但都傳達一個相同的概念—剽竊是未經原始著作者同意而使用或模仿其思想或語言 [24]。目前發展出許多不同的剽竊偵測方法，各有其優、缺點，但都針對較具有規則性的

英文，針對較無規則性的中文之研究則稀少許多，因此中文文件的剽竊偵測研究有其重要性。

1.2 研究目的

本研究之目的為透過Google搜尋引擎建置一中文剽竊偵測系統，自動化偵測使用者上傳之文件是否有抄襲自網路，並以視覺化介面呈現給使用者，利於人工檢視其文件的剽竊狀況。本研究發展中文文件剽竊偵測系統的目的，不僅僅在於偵測是否有剽竊行為的發生，更期望有教育意義地進而提醒使用者，預防剽竊行為的發生。

由於中文字的意義多變，且字詞組合多變，剽竊與否的判斷，最後還是要依人工的方式去判斷，本研究根據ROUGE之N-gram co-occurrence statistic [10]之其中一種方法--最長共同子序列(Longest Common Subsequence, LCS)之演算法，計算使用者上傳之文件與Google搜尋傳回之搜尋結果之相似度，若高於某一門檻值，代表有剽竊之可能性，則在系統使用介面上顯示出來，並透過ROUGE-W之概念修正LCS演算法與ROUGE-L，降低系統整體假警報率。整體的研究目標如下：

1. 透過Google搜尋引擎，讓使用者知曉其上傳之文件是否有剽竊自網路。

2. 讓使用者檢視其偵測結果，做最後剽竊與否之判斷，並透過警語告知使用者其參考自網路之文句多寡，期望有教育意義地給予大眾避免剽竊的方針。

1.3 論文架構

本論文在第二章介紹剽竊定義、目前最常使用的剽竊偵測方法與本研究相關之文獻。第三章則詳細描述本研究之剽竊系統架構，如何進行文章前置處理作

業，進而與Google搜尋引擎回傳的結果做比對之觀念與方法，最後將偵測結果呈現給使用者。第四章藉由雛形系統的實作，針對網路上新聞、網誌、維基百科之文章與全國高級中等學校小論文寫作比賽之小論文 [21]做系統正確性之驗證，

並尌產生的結果進行比較與分析。第五章總結本研究並提出未來可改善的研究方向。論文整體架構如圖 1所示。

剽竊定義

前置處理 Google搜尋引擎結果

相關研究

相似度比對

系統介紹系統正確性

之驗證討論與分析實驗

剽竊偵測方法相關系統介紹

系統實作研究動機背景與目的

結論與未來改善方向

圖 1：論文整體架構

在文檔中以Google搜尋引擎為基礎之中文剽竊偵測系統 (頁 11-14)