第四章 參考諮詢機器人建置與評估
第三節 問答搜集與整理
問答語料搜集來源為臺師大圖書館2013 年 2 月 18 日至 2018 年 6 月 19 日 之參考紀錄1500 筆,加上臺師大圖書館網站常問問答集 40 筆,共計 1540 筆問 答紀錄。在使用參考紀錄前須先篩選、清理並針對問題的意圖進行分類。
一、 參考紀錄與常問問答建檔
搜集而來的 1540 筆問答紀錄會依表 4-4 之欄位存入 Excel 表單中,此時僅 有「key」、「number」、「update time」、「question」、「answer」欄位有資料,完成初 步建檔。
表4-4 問答語料庫欄位與說明
欄位 說明
key 為資料庫中的唯一值,以阿拉伯數字作編號。
number
為原始參考紀錄與常問問答的編碼,非唯一值(原為一個問題 有兩個意圖拆作兩筆問答紀錄),以利建置過程或後續維護可 以查證。
classification 為問題背後的意圖,大分類下的小分類會以「、」分隔。
update time 為資料更新的時間,以利後續資料維護。
question 為問答語料的問題。
answer 為問答語料的答案。
original_tag 為原始jieba.analyse 模組從「question」欄位值取出之關鍵字,
每個關鍵字用「,」分隔。
tag 為經過同義詞轉換、停用詞移除之關鍵字,每個關鍵字用「,」
分隔。
q_cut 為「question」欄位值經 jieba.cut 模組斷詞與同義詞轉換之結 果,每個斷詞用「,」分隔。
二、 篩選參考紀錄
三、 參考紀錄內容清理
問答語料篩選完畢,先用程式將問題中換行符號「\n」以前(包含)的字串 刪除,並移除空行、換行與空白字串。從剩下可利用的問題中先檢視是否有一個 提問問了兩個問題,若有則進行問題拆解,讓每個提問只有一個問題。接著要檢 查問題與答案中是否有提問者的個人資訊需要刪除,例如:姓名、電話、電子信 箱等,到此參考紀錄內容清理告一段落,內容清理前後範例可見表4-6。
表4-6 參考紀錄內容清理前後範例
清理前 清理後
主旨:暑假圖書館開到幾點\n1.請問暑 假星期六圖書館可借書的時間是幾點 到幾點?
2.請問館合證幾天內需要領取?
請問暑假星期六圖書館可借書的時間 是幾點到幾點?
請問館合證幾天內需要領取?
四、 問答分類
此部分問答分類是人工分類,並將分類結果填入「classification」欄位,首先 採用歸納法分成大類,將有類似答案的問題先分為一類,接著再進一步分類,逐 漸分出各個問題的意圖,再來進入第二次分類將原先在不同大類下有相同意圖的 問題合併為一分類。問答語料中可能會有不同問法,但其實想取得的是同一個答 案,也就是意圖相同的問題,那麼相同意圖問題的回答也會相同,最終結果一個 分類為一個意圖(intent),此意圖分類在判斷規則模組中會作分類器用。
在分類的過程中為了增進功能,研究者自行新增了一些問題。將分類好的問 答語料進行答案的審查以確定同類問題下是一致的答案,且是否為正確答案(上 網查證或與館員確認),並盡量附上與該答案相關之圖書館網頁連結。經過前述 處理,參考問答紀錄為394 筆,常問問題 40 筆,自設問題 86 筆,共計 519 筆問 答語料,共有241 項分類(完整分類見附錄一),而 241 項分類又可歸為服務申
請與說明、硬體設備介紹、資源查詢指引、圖書館資訊、系統相關五大類(圖 4-4),其中有關圖書館資訊的問答筆數最多,有150 筆;系統相關的問答筆數最少,
僅有46 筆。
圖4-4 問答語料五大類別