實驗與評估

第四章中文幽默對話系統建置與評估

第四節實驗與評估

本研究設定的實驗情境為：「使用者在上台報告或演講前利用破冰機器人查詢笑話並講出自己所選擇的笑話作為開場，是否可達到緩解僵硬氣氛的破冰效果？」故將實驗時間設在大學期末報告週：第一次實驗時間為2019 年 6 月 8 日至6 月 21 日之間；第二次實驗時間為 2019 年 12 月 22 日至 2020 年 1 月 10 日之間，因第二次實驗期間適逢本國總統大選，故實驗時間延長一週。實驗事先利用社群網站Facebook、Plurk 及 Dcard 進行宣傳，如圖 4-3。第一次實驗吸引了 67 人使用共查詢 493 次；第二次實驗共有 132 人使用共查詢 1,344 次。（上述人數與次數皆不包含內部測試者）。初步分析顯示使用者年齡多分布在 18-25 歲，與預期的使用族群一致。

圖4-3 社群網站 Plurk 中宣傳的貼文示意圖

圖4-4 社群網站 Dcard 中宣傳的貼文示意圖

資料來源：研究者自行整理

一、第一次實驗

在第一次實驗中，僅使用向量空間模型資訊檢索技術並沒有使用到 Word2Vec 的查詢擴展。在 67 人使用共查詢 493 次中，有 298 次的有回饋好笑程度。其中有83 次回饋有達到破冰效果，達到破冰效果的比例為 27.9%（=83/298），約為1/4，找不到笑話的次數為 125 次（第一次查詢就找不到笑話 48 次，加上找到過後再選「再來一個」而沒有笑話的有77 次）。表 4-5 計算其 p 值為 0.16，其顯著性不明顯。語料庫中好笑程度和破冰效果並無明顯的因果關係。表4-6 計算其p 值為 4.52E-33，可以看出能否達到破冰效果主要與使用者認為的好笑程度有關，使用者認為「有點好笑」和「好笑」的笑話其破冰效果比例有93%（=36+57）。

表4-5 第一次實驗破冰效果與語料庫中好笑程度的交叉分析

有達到破冰效果 沒有達到破冰效果

好笑程度 次數 百分比 次數 百分比

1（非常不好笑） 4 4.8% 16 7%

2（不好笑） 11 13.3% 29 13%

3（有點好笑） 31 37.3% 101 47%

4（好笑） 27 32.5% 58 27%

5（非常好笑） 10 12.0% 11 5%

總計 83 100.0% 215 100%

資料來源：研究者自行整理

表4-6 第一次實驗破冰效果與使用者回饋好笑程度的交叉分析

有達到破冰效果 沒有達到破冰效果

好笑程度 次數 百分比 次數 百分比

不好笑 6 7% 166 77%

有點好笑 30 36% 41 19%

好笑 47 57% 8 4%

總計 83 100% 215 100%

資料來源：研究者自行整理

同時在第一次實驗期間，在另外製作的回饋表單中共收到了 19 位使用者的意見回饋，如圖4-5 所示。其中有 8 位認為笑話量不足，7 位希望「小明同學」

有隨機功能，有4 人認為有些查到的笑話講出來會有些尷尬，像是黃色笑話等。

圖4-5 部分使用者的回饋意見

資料來源：研究者自行整理

二、系統優化

根據第一次實驗的回饋意見，發現使用者利用關鍵字查詢笑話，找不到笑話的次數為125 次（第一次查詢就找不到笑話 48 次，加上找到過後再選「再來一個」而沒有笑話的有77 次），占了 25.4%（=125/493）的比例。故在第一次實驗後，本研究在檢索比對生成模組增加了Word2Vec 詞嵌入技術，利用查詢擴展增加使用者找到笑話的機會。

另外仔細觀察使用者的使用行為發現，有些使用者並不知道要查詢何種笑話，

亦或是即使有教學說明仍不知如何操作，與意見回饋中的希望新增隨機功能相同。

故在第二次實驗加入隨機功能以及圖形化的操作選單，增加其易用性，讓使用者更願意使用破冰機器人，以利可以得到更多的研究材料並以改善使用者不知從何檢索，以及檢索結果品質的問題。

圖形化選單使用了LINE 平台提供的 rich menu 製作。如圖 4-6，在 Line 聊天室介面的最下方將選單開啟後，可點選「隨機查詢」如圖左。隨機查詢隨機的笑話為好笑程度3-5 的笑話，由於第一次實驗中語料庫中好笑程度和破冰效果並無明顯的關係，也希望可以藉此發現其因果關係；圖中為點選「推薦字」會以文

字雲圖片呈現語料庫中最常出現的詞彙，以提供查詢詞選用的參考；圖右的「功能查詢」為第一次實驗時就有的功能，但雖於新加入「小明同學」時的介紹詞已有說明介紹，使用者仍會忘記如何使用，故也一同加入圖形化選單，提醒使用者。

圖4-6 系統優化更新的功能資料來源：研究者自行整理

三、第二次實驗

第二次實驗共有132 位使用者參與，總查詢次數 1344 次，其中隨機查詢 1038 次（占總查詢77.23%）；關鍵字查詢有 306 次（占總查詢 22.77%），可見多數的使用者並沒有特定想查什麼主題的笑話，只要可以達到破冰效果即可。但仍有1/4 的人使用關鍵字查詢，此比例仍需要重視。

分別計算表4-7、表 4-8 的顯著水準。表 4-7 的 p 值為 0.01，其顯著性明顯。

（=44/255）；而隨機查詢達到破冰效果則有211 次，占 82.7%的比例（=211/255），

話的有29 次），讓查不到笑話比例降為 16.7%（=51/306），相較於第一次實驗減少了8.7%（=25.4%-16.7%）。顯示運用 Word2Vec 技術進行查詢擴展確實有其成效，可降低使用者找不到笑話的挫折感，以達到對話系統的功能性品質。有影響：當跟別人在一起的時候，笑的機會也比獨自一人的時候多30 倍（Provine，

2001）。即當使用者面對一群人說出笑話，雖然是一個不夠好笑的笑話，但只要

圖4-7 部分使用者的回饋意見

資料來源：研究者自行整理

四、一致性評估

從上述的分析可以得知，語料庫的品質確實會部分影響到對話系統的回覆品質。因此便出現一個問題：語料庫中的好笑程度是否與使用者的認為的好笑程度一致？故本研究以卡方獨立性檢定計算𝑥² = 𝛴_𝑖𝛴_𝑗^(𝑂^𝑖𝑗^−𝐸^𝑖𝑗⁾

𝐸_𝑖𝑗 ，假設 H0為語料庫中的好笑程度與使用者回饋的好笑程度沒有差異，而 H1為語料庫中的好笑程度與使用者回饋的好笑程度有差異，分別就第一次實驗和第二次實驗所得到的數據進行計算。

表 4-9 為第一次實驗使用者回饋的好笑程度與語料庫中好笑程度的交叉分析表。利用EXCEL 中的 CHITEST 函式計算獨立性檢定之 p 值為 0.15，大於設定的顯著水準0.05，無法拒絕虛無假設，因此無法證明語料庫中的好笑程度與使用者回饋的好笑程度有差異。

表4-9 第一次實驗使用者回饋的好笑程度與語料庫中好笑程度的交叉分析表

不好笑 有點好笑 好笑總計 累計百分比

好笑程度1 13 3 4 20 6.7%

好笑程度2 29 5 6 40 13.4%

好笑程度3 78 33 21 132 44.3%

（續下頁）

好笑程度4 45 21 19 85 28.5%

可以當作一定程度上的參考，但笑話是否好笑及可以達到破冰效果，使用者的主

在文檔中基於檢索的中文幽默對話系統建置與評估 (頁 46-56)

第四章 中文幽默對話系統建置與評估

第四節 實驗與評估

一、 第一次實驗

二、 系統優化

三、 第二次實驗

四、 一致性評估

第四章中文幽默對話系統建置與評估

第四節實驗與評估

一、第一次實驗

二、系統優化

三、第二次實驗

四、一致性評估