• 沒有找到結果。

第四章 系統發展與結果分析

4.3 討論與分析

在本系統的驗證中,有些偵測結果十分匪夷所思,探究其可能因素涵蓋許多 面向,以下尌幾個案例說明之。

I. 案例一:圖 17 為本研究實驗剽竊文集中的一篇新聞文章,發現最 後一句-”歐巴馬在紐約市長彭博(Michael Bloomberg)和警察局 長凱利(Ray Kelly)的陪伴下說:「國家、市長、局長和總統都以 你們為榮。」”,無法被偵測出來,其可能因素為:句子夾雜著英 文字詞,文章在經由CKIP斷句取回後,其英文字之間的空白會消 失,如“Michael Bloomberg”變成“MichaelBloomberg”,使得 Google搜尋引擎無法搜尋到相關之結果。並且由於英文是以字詞

36

(word)為單位,但系統的運作卻是透過字元(char)的方式進行處理,

若句子中含有太多的英文字,也會影響系統相似度的計算。

此句在本系統中會被斷成兩句,”歐巴馬在紐約市長彭博

(MichaelBloomberg)和警察局長凱利(RayKelly)的陪伴下說:

「國家、”與” 市長、局長和總統都以你們為榮。」”,將其實際傳 入一般搜尋引擎介面,結果如圖 18 所示,可知Google搜尋引擎無 法傳回相關之結果,使得系統無法比對出來。

圖 17:案例範例一

37

圖 18:Google一般介面搜尋結果(範例一)

II. 案例二:中文編碼問題

有些文章偵測結果,明明在Google的一般介面搜尋得到,可是 系統卻無法比對出來,如圖 19 的最後一句-”我問她:「今天好 玩嗎?」她露出笑容對我點點頭。”,檢視一般介面搜尋結果如圖 20 所示,並無案例一的情形,可搜尋到相關結果。

實際到系統中,查看Google傳回的JSON編碼結果,我們可以 發現傳回摘要資訊內容為「2010年5月12日 尌在這個時間,我發 現人群外的一個小女生,靜靜的站在那裡,用木然的表情看著我,

我停住了與這群孩子的對話,走近那孩子。 :「?」 」,後面的 句子變成了問號,造成系統無法做後續的相似度比對。

由於分析JSON傳回的編碼結果過程中,有些中文字或帶有特 殊字元、符號的句子,系統無法解析或還原回來其編碼所造成的,

這是未來可改善的方向之一。

38

圖 19:案例二範例

圖 20:Google一般介面搜尋結果(範例二)

39

III. 案例三-Google Page Rank 問題

延續上一個案例二範例圖 19,其中有一句” 分享著他們的喜 樂。”,將之至一般介面搜尋,檢視其結果圖 21,發現到此句的相 關結果,在Google搜尋的Page Rank並非在前四筆,而是在第六筆,

導致系統無法正確抓取到相關結果。

其可能因素為,用字太過一般化,是經常會使用字詞或者是特 定的主題經常會使用到這類型的字句,如基督教,常用到喜樂、阿 門…等等。又加上系統是利用Google做第一階段的相似度篩選,並 僅傳回前四筆資料做第二階段的相似度比對,若其相關結果在第一 階段的篩選中並未正確傳回,導致系統無法比對出後續的結果。

圖 21:Google一般介面搜尋結果(範例三)

40

IV. 案例四-修正後假警報情況

本系統採用ROUGE-L及修正後LCS公式的偵測結果中,尚有一些 假警報情況,在此以案例的方式說明為何會發生此狀況。

例如:圖 22 為系統上傳” 等到送醫後才知道,”之句子傳回的結果,

其最長共同子序列為“等到後才知道”,本研究修正LCS公式,會取” 等 到你生病後才知道”之長度當成分母,得到相似度0.67;而ROUGE-L考 慮兩句的長度得到相似度分數也為0.67。但事實上,此句並非剽竊的句 子,雖然兩種公式都已可以降低其相似度,但由於關鍵字與關鍵字之間 距離不遠,其降低的程度不夠,而導致此種假警報情況,不過其最根本 的原因還是由於候選文句的句子長度不夠長,且其使用的字詞是較為常 見的。

某一些情形下,修正後LCS公式會出現假警報的狀態,但ROUGE-L 不會,如圖 23 所示,系統上傳”經由政府的倡導”之句子傳回的結果,

其最長共同子序列為“經由政府倡導”,本研究修正LCS公式,會取”經 由台中市政府於倡導”之長度當成分母,得到相似度0.6;而ROUGE-L 計算的相似度卻只有0.29,ROUGE-L修正的幅度比修正LCS公式高,解 釋了表 16修正LCS公式在門檻值0.5時假警報機率比ROUGE-L高。

圖 22:案例四範例一

圖 23:案例四範例二

41

相關文件