第四章 實驗結果與系統評估
第四節 實驗結果
本節內容為實驗測試後的結果,分別根據各項任務結果進行評估,並採以成 對樣本 t 檢定,檢測同一項任務在「王振鵠教授鏈結資料網」與「王振鵠教授九 秩榮慶特展網站」中執行時,使用者投注在檢索關聯上的平均時間,是否達到顯 著水準α=0.05。為方便呈現,下文便以「LOD 網站」簡稱「王振鵠教授鏈結資 料網」,以「傳統網站」簡稱「王振鵠教授九秩榮慶特展網站」。
實驗人數分別為 LOD 網站 38 人,傳統網站 37 人,為了取得正確數據,本 研究將任務失敗的數據剃除,任務失敗的情形包含(一)未成功搜尋到目標關聯、
(二)未完整搜尋到所有目標關聯、(三)回報錯誤目標以及(四)搜尋時間過長。剔除 失敗數據後,僅計算任務成功的檢索投注時間,而任務失敗的情形,將針對發生 任務錯誤的平台採用次數統計,以計算個別平台的失誤次數。
一、 任務一
表 4-2 為任務一的統計結果,在執行任務一時,兩組受測群體在檢索速度上 達到顯著水準(0.0138<0.05),顯示 LOD 網站與傳統網站有顯著差異,而 LOD 網 站的平均速度為 50.42 秒,傳統網站的平均速度為 73.03 秒,因此 LOD 網站快於 傳統網站。在錯誤次數上,LOD 網站的錯誤次數為 2,傳統網站的錯誤次數為 1。
表 4-2 任務一的統計結果
測試平台 觀察值個數
(人)
平均數 (秒)
變異數 P(t<=t) 雙尾 臨界值:雙 尾
LOD 網站 35 50.41667 1626.25 0.013782 1.994437 傳統網站 36 73.02778 1257.056
68
二、 任務二
表 4-3 為任務二的統計結果,在執行任務二時,兩組受測群體在檢索速度上 有達到顯著水準(0.0044<0.05),顯示 LOD 網站與傳統網站有顯著差異,而 LOD 網站的平均速度為 54.53 秒,傳統網站的平均速度為 86.86 秒,因此 LOD 網站快 於傳統網站。而 LOD 網站的錯誤次數為 0,傳統網站的錯誤次數為 2。
表 4-3 任務二的統計結果
測試平台 觀察值個數
(人)
平均數 (秒)
變異數 P(t<=t) 雙尾 臨界值:雙 尾
LOD 網站 37 54.53 1624.74 0.0044 1.99394
傳統網站 35 86.86 2819.42
三、 任務三
表 4-4 為任務三的統計結果,在執行任務三時,兩個受測群體在檢索速度上 未達到顯著水準(0.44169>0.05),顯示 LOD 網站與傳統網站沒有顯著差異,且 LOD 網站的平均速度為 72.23 秒,傳統網站的平均速度為 62.61 秒。在錯誤次數 上,LOD 網站的錯誤次數為 3,傳統網站的錯誤次數為 4。
表 4-4 任務三的統計結果
測試平台 觀察值個數(人) 平均數(秒) 變異數 P(t<=t) 雙尾 臨界值:雙尾
LOD 網站 34 72.23 3905.005 0.44169 2.00324
傳統網站 33 62.61 1407.496
69
此項任務的結果與前兩項不同,經過研究人員仔細觀察實驗錄像後,發現使 用者多半無法清楚明白 LOD 網站中,關聯查詢的功能語意,此任務的正確路徑 是使用「王教授的某著作出版當下與其指導學生之論文」的關聯查詢進行查找,
但將 SPARQL 查詢語意轉為自然語言時,會產生個人主觀邏輯的差異,造成他 人閱讀困難,導致使用者在瀏覽時的錯誤判斷。比如實驗中,部分使用者未發現 此項功能為正確路徑,轉而採用其他較為迂迴的搜尋方式,使得整體查詢時間拉 長。
四、 任務四
表 4-5 為任務四的統計結果,在執行任務四時,兩個受測群體在檢索速度上 有達到顯著水準(0.00001<0.05),顯示 LOD 網站與傳統網站有顯著差異,但 LOD 網站的平均速度為 107.08 秒,傳統網站的平均速度為 48.82 秒,因此傳統網站快 於 LOD 網站。在錯誤次數上,LOD 網站的錯誤次數為 1,傳統網站的錯誤次數 為 4。
表 4-5 任務四的統計結果
測試平台 觀察值個數
(人)
平均數 (秒)
變異數 P(t<=t) 雙尾 臨界值:雙 尾
LOD 網站 36 107.08 4848.632 0.00001 1.99547
傳統網站 33 48.82 278.1534
在前面的任務設計中有說明,本任務有經過特殊設計,在前幾項任務中,使 用者在使用關聯查詢後,網頁上會立即呈現任務目標,無須進一步動作,然而在 此任務中,設計人員將任務目標設計成必須點擊超連結,連結到該目標物件的詳 細屬性頁面下,才可觀測到目標答案,簡言之,與先前的三項任務不同的地方在 於,使用者必須多一個步驟,才能看到答案。
70
研究人員在觀察實驗時,發現部分使用者在使用關聯查詢後,未進行下一步 點選,反而轉去其他不便於搜尋的功能頁面進行查找(如:一般瀏覽、圖形化瀏覽 等),導致實驗結果懸殊,針對此現象,研究人員於實驗結束後,對受測者進行簡 單的詢問,發現受測者操作錯誤的情況發生於:(一)受測者認為 LOD 網站的關 聯搜尋過於便利,可能為陷阱題;(二)既使在練習時已知曉 URL 的超連結功能,
但執行本任務時,依然疏忽超連結功能,而無法進行下一步操作;(三)誤會呈現 方式不是研究人員所期望的,轉以其他呈現方式;(四)發現結果沒有自己所想的 答案,很可能是選錯功能或是無解 。
總結上述各項任務的結果,在任務失敗次數上,LOD 網站任務失敗總次數 為 6 次,傳統網站失敗總次數是 11 次。在任務一跟任務二中,LOD 網站的搜尋 時間有顯著快於傳統網站,任務三中兩者則無顯著差異,而任務四則是傳統網站 明顯快於 LOD 網站,而透過測後回饋的內容中可以發現,造成任務三與任務四 如此情況的原因,在於 SPARQL 語言轉自然語言的困難,以及實體屬性過多時,
在空間有限的介面下,該如何取捨回傳的欄位,或是介面的引導操作。
71