討論與分析

第四章系統發展與結果分析

4.3 討論與分析

在本系統的驗證中，有些偵測結果十分匪夷所思，探究其可能因素涵蓋許多面向，以下尌幾個案例說明之。

I. 案例一：圖 17 為本研究實驗剽竊文集中的一篇新聞文章，發現最後一句－”歐巴馬在紐約市長彭博（Michael Bloomberg）和警察局長凱利（Ray Kelly）的陪伴下說：「國家、市長、局長和總統都以你們為榮。」”，無法被偵測出來，其可能因素為：句子夾雜著英文字詞，文章在經由CKIP斷句取回後，其英文字之間的空白會消失，如“Michael Bloomberg”變成“MichaelBloomberg”，使得 Google搜尋引擎無法搜尋到相關之結果。並且由於英文是以字詞

(word)為單位，但系統的運作卻是透過字元(char)的方式進行處理，

若句子中含有太多的英文字，也會影響系統相似度的計算。

此句在本系統中會被斷成兩句，”歐巴馬在紐約市長彭博

（MichaelBloomberg）和警察局長凱利（RayKelly）的陪伴下說：

「國家、”與” 市長、局長和總統都以你們為榮。」”，將其實際傳入一般搜尋引擎介面，結果如圖 18 所示，可知Google搜尋引擎無法傳回相關之結果，使得系統無法比對出來。

圖 17：案例範例一

圖 18：Google一般介面搜尋結果(範例一)

II. 案例二：中文編碼問題

有些文章偵測結果，明明在Google的一般介面搜尋得到，可是系統卻無法比對出來，如圖 19 的最後一句－”我問她：「今天好玩嗎？」她露出笑容對我點點頭。”，檢視一般介面搜尋結果如圖 20 所示，並無案例一的情形，可搜尋到相關結果。

實際到系統中，查看Google傳回的JSON編碼結果，我們可以發現傳回摘要資訊內容為「2010年5月12日尌在這個時間，我發現人群外的一個小女生，靜靜的站在那裡，用木然的表情看著我，

我停住了與這群孩子的對話，走近那孩子。：「？」」，後面的句子變成了問號，造成系統無法做後續的相似度比對。

由於分析JSON傳回的編碼結果過程中，有些中文字或帶有特殊字元、符號的句子，系統無法解析或還原回來其編碼所造成的，

這是未來可改善的方向之一。

圖 19：案例二範例

圖 20：Google一般介面搜尋結果(範例二)

III. 案例三－Google Page Rank 問題

延續上一個案例二範例圖 19，其中有一句” 分享著他們的喜樂。”，將之至一般介面搜尋，檢視其結果圖 21，發現到此句的相關結果，在Google搜尋的Page Rank並非在前四筆，而是在第六筆，

導致系統無法正確抓取到相關結果。

其可能因素為，用字太過一般化，是經常會使用字詞或者是特定的主題經常會使用到這類型的字句，如基督教，常用到喜樂、阿門…等等。又加上系統是利用Google做第一階段的相似度篩選，並僅傳回前四筆資料做第二階段的相似度比對，若其相關結果在第一階段的篩選中並未正確傳回，導致系統無法比對出後續的結果。

圖 21：Google一般介面搜尋結果(範例三)

IV. 案例四－修正後假警報情況

本系統採用ROUGE-L及修正後LCS公式的偵測結果中，尚有一些假警報情況，在此以案例的方式說明為何會發生此狀況。

例如：圖 22 為系統上傳” 等到送醫後才知道，”之句子傳回的結果，

其最長共同子序列為“等到後才知道”，本研究修正LCS公式，會取” 等到你生病後才知道”之長度當成分母，得到相似度0.67；而ROUGE-L考慮兩句的長度得到相似度分數也為0.67。但事實上，此句並非剽竊的句子，雖然兩種公式都已可以降低其相似度，但由於關鍵字與關鍵字之間距離不遠，其降低的程度不夠，而導致此種假警報情況，不過其最根本的原因還是由於候選文句的句子長度不夠長，且其使用的字詞是較為常見的。

某一些情形下，修正後LCS公式會出現假警報的狀態，但ROUGE-L 不會，如圖 23 所示，系統上傳”經由政府的倡導”之句子傳回的結果，

其最長共同子序列為“經由政府倡導”，本研究修正LCS公式，會取”經由台中市政府於倡導”之長度當成分母，得到相似度0.6；而ROUGE-L 計算的相似度卻只有0.29，ROUGE-L修正的幅度比修正LCS公式高，解釋了表 16修正LCS公式在門檻值0.5時假警報機率比ROUGE-L高。

圖 22：案例四範例一

圖 23：案例四範例二

在文檔中以Google搜尋引擎為基礎之中文剽竊偵測系統 (頁 45-51)

第四章 系統發展與結果分析

4.3 討論與分析

第四章系統發展與結果分析