第四章 參考諮詢機器人建置與評估
第六節 系統評估
本研究參考諮詢機器人使用評估是以邀請十名臺師大學生,實施七項任務而 進行實驗評估,主要分為實驗評估回覆的「滿意度」與「正確率」兩部分,本節 先說明實驗任務,並呈現受測者的提問與機器人的回覆,最後在對「滿意度」與
「正確率」評估結果做說明。
一、 實驗任務說明
依據問答語料庫問題類別歸納之五大類別與兩項功能,設計成七項任務,作 為實驗評估之任務。在執行任務前,先請受測者詳閱「臺師大圖書館小幫手評估 實驗」(附錄五),瞭解五大類別大致範圍與兩項功能的使用方式,以下為任務說 明:
任務ㄧ:請利用「找館藏」之功能查詢圖書館館藏,並以五分量表對參考諮詢機 器人之回覆進行滿意度評估。
任務二:請問利用「開館時間」查詢之功能,並以五分量表對參考諮詢機器人之 回覆進行滿意度評估。
任務三:請問一個與「服務申請與說明」相關之問題,並以五分量表對參考諮詢 機器人之回覆進行滿意度評估。
任務四:請問一個與「硬體設備介紹」相關之問題,並以五分量表對參考諮詢機 器人之回覆進行滿意度評估。
任務五:請問一個與「資源查詢指引」相關之問題,並以五分量表對參考諮詢機 器人之回覆進行滿意度評估。
任務六:請問一個與「圖書館資訊」相關之問題,並以五分量表對參考諮詢機器 人之回覆進行滿意度評估。
任務七:請問一個與「系統相關」相關之問題,並以五分量表對參考諮詢機器人 之回覆進行滿意度評估。
二、 任務提問與回覆
http://www.lib.ntnu.edu.tw/announce/news.jsp 謝謝!
7/15 圖書館會開 嗎?
20190715 那天開館,總館:08:00-21:00;公館,林口 08:00-17:00
更多訊息:http://www.lib.ntnu.edu.tw/about/opening-hours.jsp
表4-11 任務三提問與回覆示例
http://www.lib.ntnu.edu.tw/service/facility.jsp 謝謝!
表4-13 任務五提問與回覆示例
http://www.lib.ntnu.edu.tw/service/borrow.jsp 謝謝!
校友可以借書嗎?
繳交圖書使用年費校友借書證可借閱圖書15 冊、借期 1 個月(遇預約則縮短為 14 天),若欲辦理校友借書證可 參閱如何辦理校友借書證:
http://www.lib.ntnu.edu.tw/service/alumni.jsp 謝謝!
表4-15 任務七提問與回覆示例
三、 滿意度
根據任務實驗受測者提出問題系統給予之回覆進行五分量表滿意度調查,顯 示任務五—針對「資源查詢指引」類別進行提問—的回覆滿意度最低,超過半數 受測者對於此類問題的回覆是不滿意,甚至非常不滿意(表4-16)。
任務二—針對「開館查詢」功能進行提問—的回覆滿意度最高,非常滿意與 滿意各佔50%,任務一—針對「館藏查詢」功能進行提問—的回覆滿意度選擇非 常滿意人數最多,佔任務一回覆滿意度的70%。
表4-16 對於機器人回覆之滿意度 非常
不滿意 不滿意 普通 滿意 非常滿意
任務一 0 1 1 1 7
任務二 0 0 0 5 5
任務三 3 0 0 1 6
任務四 0 2 1 2 5
任務五 3 2 1 2 2
任務六 2 0 3 1 4
任務七 2 1 1 2 4
總計 10 6 7 14 33
總計百分比 14.29% 8.57% 10.00% 20.00% 47.14%
大多受測者表示喜歡機器人給予的回覆為相當準確,又有網址連結可點入複 查,也因此通常有達到此需求之回覆滿意度會較高,如:館藏查詢與開館查詢功 能之回覆。整體而言,受測者對於機器人的回覆是偏向滿意(滿意 20.00%,非 常滿意47.14%)。
四、 正確率
根據任務實驗受測者提出問題系統給予之回覆進行正確率計算,本研究之正 確率分為兩種計算方式,第一種為受測者提問之回覆正確率,是評估機器人回覆 是否為受測者提問之正確答案的計算方式,公式為:
提問之回覆正確率= 提問的正確回覆數 提問總數
提問的正確回覆是指機器人的回覆是受測者提問的正確答案,提問總數為受 測人數乘上任務數,也就是提問總數為70 筆,而提問的正確回覆有 49 筆,因此 提問之回覆正確率為70.00%(表 4-17),在任務一、任務二與任務四—針對「硬 體設備介紹」類別進行提問—回覆的正確率甚至達到百分之百,但任務五的正確 率極低,僅有30.00%。
表4-17 提問的正確回覆數與正確率 提問的正確回覆數 正確率
任務一 10 100.00%
任務二 10 100.00%
任務三 6 60.00%
任務四 10 100.00%
任務五 3 30.00%
任務六 5 50.00%
任務七 5 50.00%
總計 49 70.00%
第二種為系統中回覆的正確率,此正確率僅針對問答語料庫中所包含的答案 來評估回覆是否正確,其公式為:
系統中回覆正確率= 系統中的正確回覆數 提問總數
系統中的正確回覆意思為回覆或許不是使用者所期望之答案,但卻是問答語 料庫中所能對應到的回覆,例如:受測者提問「公務用的書可以借嗎?」,機器 人回覆「很抱歉您的問題不在機器人答題範圍內,煩請於上班時間致電至圖書館 聯絡我們(http://www.lib.ntnu.edu.tw/about/contacts.jsp)或是於線上諮詢台:我要發 問(http://www.lib.ntnu.edu.tw/comment/comment.add.jsp)進行提問,謝謝!」,此必 然不是受測者所期望之答案,不過問答語料庫中並沒有「公務用書」的問答可以 比對,因此此答覆即為「系統中的正確回覆」。
提問總數一樣為70 筆,而系統中的正確回覆有 58 筆,因此系統中回覆正確 率為82.86%(表 4-18),在任務一、任務二與任務四回覆的正確率一樣也達到百 分之百。
表4-18 系統中的正確回覆數與正確率 系統中的正確回覆數 正確率
任務一 10 100.00%
任務二 10 100.00%
任務三 6 60.00%
任務四 10 100.00%
任務五 9 90.00%
任務六 6 60.00%
任務七 7 70.00%
總計 58 82.86%
若以一項任務來比對滿意度與正確率,可以得知,原則上滿意度較高的任務 回覆,其正確率也較高,唯獨任務五與其他不同,任務五的滿意度是七項任務中 最低的,但其系統中回覆正確率卻有 90.00%,探討可能原因,一個原因為受測 者不知如何提問,提問之方式是為了提問而問,跟一般詢問的方式較不同,也因 此問答語料庫中並無可比對紀錄,另一個原因為此類問題的答覆大多只提供指引 性的檢索技巧,而非直接提供正確答案,受測者較希望,機器人直接告訴他資源 在哪,又或是有沒有,而不是只告訴他該如何查詢,因而造成滿意度較低之結果。