• 沒有找到結果。

幽默對話系統與評估方法

第二章 文獻探討

第三節 幽默對話系統與評估方法

同第一章所述,多數對話系統應用主要侷限於FAQ。但亦有少數研究已開始 嘗試製作幽默對話系統。本節將介紹國內外有關幽默對話系統的研究(曾元顯,

2017)並同時整合對話系統的評估方法,以利本研究後續系統評估。

一、 幽默對話系統

Augello, Saccone, Gaglio, and Pilato(2008)運用 AIML 在 Yahoo! Messenger 上建置了英文幽默對話系統。他們利用既有的開源 AIML 知識庫再蒐集笑話語 料建構AIML 笑話知識庫,讓機器回覆適當的語句給使用者。為了能「瞭解」使 用者輸入的幽默對話,他們運用 CMU Pronouncing Dictionary 和 WordNet 實作 Mihalcea and Strapparava(2006a)以押頭韻、反義詞、成人俚語為特徵的幽默偵 測方式來回應使用者,其可達到73%的偵測準確度。

Sjobergh and Araki(2009)以模組的方式設計了一個日文聊天機器人,可以 照不同類型的使用者進行個別的回應。其幽默辨識與生成雖簡單,但仍優於當時

Radziwill, and Benton(2017)在 Google Scholar、JSTOR 、EBSCO Host 上 搜 尋 了 在 工 程 、 心 理 、 傳 播 領 域 從 1999 年到 2017 年有關「 chatbots 」、

「conversational agents」、「quality」等共 8 個關鍵字的相關文獻。分析搜尋到的

文獻後並根據 ISO 9241 提出了聊天機器人及對話系統的品質屬性(Quality Attributes)。表 2-2、2-3、2-4 分別就效率、效能及滿意度三項部分說明項目、品 質屬性及資料來源。

表2-2 效率的項目、品質屬性、資料來源一覽表

項目 品質屬性 資料來源

性能

1. 優雅降級 2. 穩定操作 3. 例外處理

4. 避免不適當的言論,並能夠進行損害 控制

5. 有效的功能分配

Cohen & Lane (2016) Thieltges (2016) Kluwer (2011) Morrissey and Kirakowski (2013) Staven (2017) 資料來源:改自Radziwill, and Benton(2017)

表2-3 效能的項目、品質屬性、來源文獻一覽表

Kuligowska (2015) Eeuwen (2017)

Morrissey & Kirakowski (2013)

Wallace (2003) Ramos (2017) Eeuwen (2017) Solomon (2017) Cohen & Lane (2016)

人性

Weizenbaum (1966);

Wallace (2003) Ramos (2017)

Bostrom & Yudkowski (2014)

Coniam (2014)

Morrissey & Kirakowski (2013)

資料來源:改自Radziwill, and Benton(2017)

2 當與一個虛構人物互動時,Ramos (2017)聲稱,人們是願意暫停懷疑並享受互動。

表2-4 滿意度的項目、品質屬性、來源文獻一覽表

Morrissey & Kirakowski (2013)

Pauletto et al. (2013) Solomon (2017) Eeuwen (2017) Ramos (2017)

Meira & Canuto (2015)

倫理&

Neff & Nagy (2016) Applin & Fischer (2015) Eeuwen (2017)

Isaac & Bridewell (2014) Miner et al. (2016) Herzum et al. (2002) Vetter (2002)

近用性

1. 可回應社交線索或缺乏社交線索 2. 可檢測意義或意圖

3. 滿足神經多樣性需求,如額外回應時 間、文本介面

Morrissey and Kirakowski (2013) Wilson et al. (2017) Radziwill & Benton (2017)

資料來源:改自Radziwill, and Benton(2017)

從表2-2 至 2-4 可以發現對於使用者來說,除了功能是否符合使用者需求、

Vetter (2002)

構建測試腳本以評估對話的效 果

建議使用PARADISE 方法 (Walker et al., 1997; Sanders

& Scholtz, 2002) 來確定對

Precision,Recall 和 F1 可以 作為回答問題得分的指標,

Kuligowska

Kaleem et al.

資料來源:改自Radziwill, and Benton(2017)

從以上的文獻評述可知,有關對話系統的評估方法大多使用問卷、訪談的方 式調查使用者對聊天機器人的看法以及大部分的評估指標都著重在對話系統回 應是否正確。

而 Araujo, T.(2018)亦就聊天機器人的功能、互動、回答分配、整體滿意 度、使用滿意度等以問卷的方式調查使用者對於聊天對話代理人(disembodied conversational agents,DCAs)的看法。此研究也同時驗證了 Ramos(2017)所表 示的:當與一個虛構人物互動時,人們是願意暫停懷疑並享受互動。聊天機器人

相關文件