基於檢索的中文幽默對話系統建置與評估

全文

(1)國立臺灣師範大學圖書資訊學研究所碩士學位論文. 指導教授：曾元顯博士. 基於檢索的中文幽默對話系統建置與評估 Implementation and Evaluation of Chinese Humor Retrieval-based Dialog System. 研究生：許瑋倫撰. 中華民國一 ○ 九年七月.

(2) 謝辭不知不覺中兩年時光飛去，學生生活到這裡即將畫上休止符，往後便是人生的新開始，回首兩年間得到的眾多幫助，感激之情難以言表。首先要感謝曾元顯老師的指導，兩年間在老師的悉心帶領及教導下，不僅讓我的技能提升了許多更了解何為研究，給予我相當多啟發；感謝吳怡瑾老師及李龍豪老師在學業上的教導及作為口試委員的寶貴建議，讓此篇論文更加完整；也謝謝玟萱幫忙整理笑話語料。四千多則看一遍就已經很累了，玟萱還看了那麼多遍，我們的笑點真的都提高了。祝福玟萱可以一切順利~ 謝謝我的好夥伴郁綺，沒想到我們兩個的家住的那麼近，還剛好都是同一位指導老師，真的是緣分！除了在課業上幫助我外，在其他事情上也和我分享了很多經驗，能和郁綺一起努力這兩年，真的很幸運。還要謝謝班上的同學們：軒廷擔任班代負責聯絡班級辛苦了；真的很慶幸當初分組時坐旁邊的剛好是靖雯和容愷，雖然做報告的過程很辛苦，但那段時間真的很愉快，也交到了要好的朋友；謝謝怡臻在團體報告中的 carry，有機會在一起玩 UNO！謝謝茹茜和睿睿每天聽我的抱怨以及和我說幹話，帶給我每日的歡笑~幫得成也抽了很多 SSR，雖然沒有消到業障，陰德倒是積了不少；最後要感謝在行政上幫助我很多的雪子和助教以及一路上幫助我的所有人。遙想年幼的我曾童言童語的規劃未來要就讀臺師大研究所。中間的路程雖有不同，但確實達到了相同終點；如今這終點將成為起點，邁開通往「社會」的第一步。人生是不斷的選擇與學習，惟有不斷的精進，才能成為理想中的自己。期許未來的我可以為自己寫下精彩的腳本。最後不免俗地也來一句：「畢業啦！！！」許瑋倫. 謹致於臺師大圖資所中華民國 109 年 7 月. I.

(3) 摘要幽默對話是人際溝通中一項重要的元素，也是人機互動的重要進程之一。本研究透過實作中文幽默對話系統—「破冰機器人」。設置情境，讓使用者查詢相關的笑話並說出，以打破尷尬、僵硬的氣氛並評估其成效。透過系統開發研究法的循環步驟，經過回饋後加入 Word2Vec 的查詢擴展、關鍵字查詢提示，以及好笑笑話的隨機推薦等功能，讓使用者找不到笑話的比例從 25.4%降低到 16.7%，而系統達到的破冰效果從 27.9%提升到 39.9%。可以知道系統優化後確實可以有效的提升使用者的使用率以及破冰效果。實驗後進行語料庫的一致性評估，研究發現： 1.. 破冰機器人確實可達到其成效。. 2.. 語料庫中的好笑程度與使用者的認知接近一致性的臨界值：使用者認為越好笑的笑話，越能達到破冰效果。綜合而言，本研究的貢獻，不僅進行了幽默語料庫的應用，也建置中文幽默. 對話系統。並且在研究過程與結果中，提供了實證經驗與意涵：笑話語料的豐富程度與品質（收集更多笑話並標註好笑程度）、以及普遍使用者已經習慣推薦功能大於自己查詢的趨勢。後續的各類對話系統，建議應運用類似的推薦功能，以符合現今使用者的習慣與期待。. 關鍵詞計算幽默、中文幽默對話、幽默語料、對話系統、破冰機器人. II.

(4) Abstract Humorous dialogue is an important element in interpersonal communication and is also one of the important processes for human-computer interaction. The purpose of this research is to develop related technologies, implement a retrieval-based "icebreaker robot" system which allows users to find relevant jokes for use in relaxing an unduly formal atmosphere when interacting with people, and evaluate its effectiveness. Through the iterative steps of the information system development methodology, query expansion based on Word2Vec technology, frequent keyword prompts, and random recommendation of good jokes are added after user feedback. The results are that the proportion of user queries that fail to find jokes is reduced from 25.4% to 8.0% and that the icebreaker effect achieved has been increased from 25.9% to 40.9%. System optimization can accurately increase the usage rate and effectiveness. By the conformance assessment, get the conclusion of the research below: 1.. Icebreaker robot has an effect on relaxing an unduly formal atmosphere.. 2.. The humor level in the corpus and users cognition are conformance but close to critical value：the funnier jokes that user thinks, better the effect of icebreaker can be achieved. Empirical experience and implications of this study include: the richness and. quality of joke corpus (collecting more jokes and identifying their humor level) and the automatic recommendation relative to passive search are important R & D efforts to improve the effectiveness of such services.. Keywords: Computational Humor, Chinese Humorous Dialogue, Humor Corpus, Dialogue System, Icebreaker Chatbot. III.

(5) 目次第一章緒論................................................................................................................ 1 第一節. 研究動機.................................................................................................... 1. 第二節. 研究目的與問題........................................................................................ 3. 第三節. 名詞解釋.................................................................................................... 4. 第二章文獻探討........................................................................................................ 5 第一節. 文字對話系統與幽默計算........................................................................ 5. 第二節. 幽默語料庫................................................................................................ 8. 第三節. 幽默對話系統與評估方法...................................................................... 11. 第三章研究方法與實施.......................................................................................... 18 第一節. 研究方法.................................................................................................. 18. 第二節. 研究範圍與限制...................................................................................... 20. 第三節. 研究架構.................................................................................................. 21. 第四節. 研究實施與步驟...................................................................................... 25. 第四章中文幽默對話系統建置與評估.................................................................. 28 第一節. 使用語料.................................................................................................. 28. 第二節. 檢索比對生成模組.................................................................................. 30. 第三節. 建置系統.................................................................................................. 35. 第四節. 實驗與評估.............................................................................................. 38. 第五章結論與後續研究.......................................................................................... 48 第一節. 結論.......................................................................................................... 48. 第二節. 後續研究.................................................................................................. 49. 參考文獻...................................................................................................................... 51 IV.

(6) 表次表 2-1 都柏林核心集與幽默語料庫元素比較表 ........................................................ 9 表 2-2 效率的項目、品質屬性、資料來源一覽表 .................................................. 12 表 2-4 滿意度的項目、品質屬性、來源文獻一覽表 .............................................. 14 表 2-5 近年來對話系統相關研究 .............................................................................. 15 表 4-1 都柏林核心集與使用的笑話語料庫元素比較表 .......................................... 28 表 4-2 笑話語料庫的好笑程度與其數量統計表 ...................................................... 29 表 4-3 預訓練模型有關「紅茶」的相似詞相關度比較表 ...................................... 31 表 4-4 第一次實驗原找不到笑話之近似詞統計表 .................................................. 32 表 4-5 第一次實驗破冰效果與語料庫中好笑程度的交叉分析 .............................. 40 表 4-6 第一次實驗破冰效果與使用者回饋好笑程度的交叉分析 .......................... 40 表 4-7 第二次實驗破冰效果與語料庫中好笑程度的交叉分析 .............................. 43 表 4-8 第二次實驗破冰效果與使用者回饋好笑程度的交叉分析 .......................... 43 表 4-9 第一次實驗使用者回饋的好笑程度與語料庫中好笑程度的交叉分析表 .. 45 表 4-10 第二次實驗使用者回饋的好笑程度與語料庫中好笑程度的交叉分析表 46 表 4-11 第一次實驗使用者回饋的好笑程度與語料庫中好笑程度的標準化殘差 47 表 4-12 第二次實驗使用者回饋的好笑程度與語料庫中好笑程度的標準化殘差 47. V.

(7) 圖次圖 3-1 系統開發研究法之步驟 .................................................................................. 18 圖 3-2 本研究規劃的中文幽默對話系統架構圖 ...................................................... 21 圖 3-3 本研究規劃的資料庫關聯圖 .......................................................................... 22 圖 3-4 對話紀錄檔（TIOMSG）實際範例 ............................................................... 22 圖 3-5 笑話語料庫（TJOKEBASE）實際範例 ........................................................ 23 圖 3-6 使用者回饋記錄檔（TSCORE）實際範例 ................................................... 23 圖 3-7 中文幽默對話系統對話流程 .......................................................................... 24 圖 3-8 研究流程圖 ...................................................................................................... 27 圖 4-1 破冰機器人「小明同學」的使用範例 .......................................................... 35 圖 4-2 回饋表單 .......................................................................................................... 37 圖 4-3 社群網站 PLURK 中宣傳的貼文示意圖 ....................................................... 38 圖 4-4 社群網站 DCARD 中宣傳的貼文示意圖 ...................................................... 39 圖 4-5 部分使用者的回饋意見 .................................................................................. 41 圖 4-6 系統優化更新的功能 ...................................................................................... 42 圖 4-7 部分使用者的回饋意見 .................................................................................. 45. VI.

(8) 附錄附錄 1 笑話語料庫（節選）...................................................................................... 56 附錄 2 笑話語料庫詞頻表（前 100）....................................................................... 70. VII.

(9) 第一章. 緒論. 本研究為基於檢索的中文幽默對話系統建置、評估的探討。幽默對話在人際關係中是重要的一環，也是人機互動邁向智慧化的重要進程之一。本章分為三節，分別為研究動機、研究目的與問題、名詞解釋，說明對中文幽默對話系統的初步想法，以下詳述。. 第一節. 研究動機. 對話系統（Dialogue system）又可稱為對話代理人（conversational agent）、聊天機器人（ChatBot），皆指經由對話或文字模擬人類對話、進行交談的電腦程式。自 2011 年蘋果公司推出 Siri 虛擬助理後，人機對話逐漸被廣大的使用者及採用與接受。近年來，由於運算資源效能的提升以及深度神經網路（Deep Neural Network, DNN）機器學習技術的進步，加速了對話系統在商業的發展。而自 2012 年 Facebook、LINE 等即時通訊平台的興起，聊天機器人開始被各界廣泛的運用，成為了目前最為流行的人機對話系統之一。各界亦推出可以串接通訊平台的聊天機器人應用程式介面（API）供使用者製作屬於自己的聊天機器人，如 Google 的 Dialogflow（2010）、Chatfuel（2015）、Rasa（2016）等。LINE 更於今年（2020）在官方帳號平台（LINE Official Account Manager）上新增了「AI 自動回應訊息」功能，無須串接 API 便可直接在通訊平台上製作簡易的聊天機器人。各商家則以製作好的聊天機器人經由對話介面（Conversational User Interface， CUI）提供使用者客服、查詢、推播等各式各樣的服務。2020 年新型冠狀病毒（COVID-19）疫情期間，民間平台亦開發出口罩地圖的聊天機器人提供民眾查詢口罩相關的購買資訊。從上述案例可知，人機對話系統的發展已達應用階段。然而多數應用主要侷限於 FAQ（Frequently Asked Question）等商業階段。要讓對話系統進步到更人性化的階段，需要更多的語言處理、人機互動甚至幽默對話等的相關研究。. 1.

(10) 幽默對話是人際溝通中一項重要的元素。觀看幽默笑話或圖片也會降低負向情緒，對於負面情緒的改善有較好的結果（Strick，2009），甚至是主動留住使用者的優勢之一。但流暢、合宜、適時的幽默對話系統，至今仍是非常困難實現的技術。對話系統不僅需要辨識對話中的情緒氛圍，也要在適當時機生成幽默文意，亦即需做到幽默辨識（Humor Recognition）與幽默生成（Humor Generation）。. 2.

(11) 第二節. 研究目的與問題. 基於幽默在未來對話系統的重要性以及目前可達到的技術，本研究之目的在建置一套可以應用於幽默情境的中文幽默對話系統，簡稱為「破冰機器人」。透過在臺灣月活躍用戶 2100 萬以上的通訊平台 LINE1，建置基於檢索的中文幽默對話系統，設置情境：使用者與人互動需要打破僵硬的氣氛（簡稱破冰），例如上台演講或報告前，利用破冰機器人說出查詢到笑話當作開場白。深入了解使用者在使用破冰機器人之後是否可有效地達到緩和氣氛的效果。根據以上目的，本研究將利用系統開發研究法及自然觀察法分別探討以下問題：. 1. 1.. 在設置情境下，破冰機器人是否可達到破冰的效果？. 2.. 語料庫中好笑程度越高的笑話，是否越能達到破冰效果？. 3.. 語料庫中的好笑程度是否與使用者的認知一致？. 4.. 破冰機器人可能的應用與其加值？. https://www.linebiz.com/tw/column/article-marketing-methods/oa-function/ . Accessed on 2020/06/01. 3.

(12) 第三節一、. 名詞解釋. 破冰（Icebreaker）. 指彼此不認識的人見面時活躍氣氛的遊戲或笑話（Cambridge Advanced Learner's Dictionary，2019）。故只要可以緩和當下的氣氛，若因此而開啟話題，則稱其有達到破冰效果。. 二、. 好笑程度（Humor Level）. 鄭昭明、陳學志、詹雨臻、蘇雅靜、曾千芝（2013）的台灣地區華人情緒與相關心理生理資料庫標註了笑話的好笑程度以及厭惡程度。當好笑程度越高表示其所產生的正向情緒越高；厭惡程度則為負向情緒。. 4.

(13) 第二章. 文獻探討. 本章分成三節。第一節「文字對話系統與與幽默計算」說明對話系統目前的概況及幽默辨識、生成的多種方法；第二節「幽默語料庫」介紹幽默語料庫的相關研究；第三節「幽默對話系統與評估方法」統整國內外有關幽默對話系統的相關研究和歷年來有關聊天機器人的評估方法，從中選擇最適合本研究的評估方式。. 第一節. 文字對話系統與幽默計算. 本研究為建置中文幽默對話系統，首先須從文字對話系統的概況以及如何計算幽默開始著手。本節內容主要參考曾元顯（2017）的研究，回顧文字對話系統的概況與如何計算幽默，以目前可達成的技術建置破冰機器人。. 一、. 文字對話系統. 有關文字對話系統的研發，自 1966 年 Weizenbaum 製作的 ELIZA 推出截至今時，許多企業廠商推出各種產品及其應用軟體，一直都是炙手可熱的研究題材。分析已發表之文獻，歸納文字對話系統的技術，主要分為以下三種方法，分述如下：（一）規則法（Rule）運用人工智慧標記語言（Artificial Intelligence Markup Language，AIML）（Wallace，2003）製作的對話機器人，ELIZA 便是其中一種。針對特定領域撰寫知識庫，或將 FAQ 轉化成 AIML 知識庫自動比對問題並做出回應。其優點為建置快速並且可預期其回應，缺點則是需建置大量的知識庫，人力、時間成本高。除了運用 AIML 建構知識庫，也可自行建置知識庫或自訂語法與規則建構對話知識庫。Newyear and McNeal（2014）以 AIML 發展圖書館服務的對話機器人，透過對話紀錄的分析，讓系統的回答正確率從 12% 逐步提升到 83%。（二）檢索法（Information Retrieval，IR）即透過資訊檢索模式（Retrieval Model），例如 BM25 等演算法方式，在大量 5.

(14) 的知識庫中進行檢索查詢，將最符合的查詢結果回傳給使用者，作為對話系統的回應（Ji, Lu, & Li，2014）。本研究即利用此種方法進行幽默對話。（三）序列對應生成法（Seq2seq）近年來深度神經網路的技術快速發展，例如回歸神經網路（Recurrent Neural Networks，RNN）（Wen, Gasic, Kim, et al.，2015）、長短期記憶體（Long ShortTerm Memory，LSTM）（Wen, Gasic, Mrksic, et al.，2015）等。利用文字斷詞將語料斷句重新進行訓練文字序列（Seq2seq）來回應使用者的問題。其優點是可產生出對話語料中沒有出現過的回應；缺點是訓練資料不足時容易產生不一致的回應或是無意義的文句。. 二、. 幽默計算（Computational Humor）. 自 1995 年以來在語料處理、人機互動、人工智慧的應用等領域，累積不少幽默辨識與幽默生成的技術研究，統稱為計算幽默。其中包括了幽默辨識與幽默生成，底下各細分詳述：（一）幽默辨識幽默辨識主要又可分為幽默分類及幽默程度排序。Zhang and Liu （2014）曾利用下載推特（Twitter）上的推文（Twitter Post）進行幽默辨識，有幽默的理論、語言、情感維度特徵分析出高精確率的幽默推文。 Potash, Romanov, and Rumshisky（2017）則針對喜劇競賽電視節目主題的推文進行幽默程度的比較任務。（二）幽默生成有關幽默的生成，過去多使用模板來達成幽默的生成，而近年來由於技術的進步，也出現了以資訊檢索、深度神經網路來進行幽默生成。以下依照類別詳述： 1.. 規則式幽默生成法 Binsted and Ritchie（1997）提出基於雙關語（Pun）型態的語意與語法規則. 模版，設計出幽默雙關語產生器 JAPE (Joke Analysis and Production Engine)。. 6.

(15) Stock and Strapparava（2003）則利用幽默中的失諧理論（incongruity）開發幽默產生系統 HAHACRONYM。該系統利用既有的英文字頭語（acronym）或是使用者提供的字頭語進行文字替換，產生新的詞語達到幽默效果。總結以上研究，規則式幽默生成法便是利用語句的重新組合，將原本非幽默的語句生成為幽默語句。 2.. 資訊檢索為主的幽默生成法 Blinov, Mishchenko, Bolotova, and Braslavski（2017）利用資訊檢索的方式試. 驗 BM25、QTR（Query Term Reweighting）、Doc2Vec（Le & Mikolov，2014）三種資訊檢索方法進行短文幽默生成。其實驗結果顯示三種資訊檢索的方法差異不大，其原因可能是因為幽默語料已經夠大，以致這三種方法之間的差異不明顯。 3.. 機器翻譯、序列生成技術為主的幽默生成法 Du, Wan, and Ye（2017）以相聲語料為主題，試驗了資訊檢索、統計式翻譯. 以及 Seq2Seq 深度神經網路三種方法。從 1551 個相聲劇本中整理出 150,000 對兩個角色的對話並使用 Yang, Lavie, Dyer, and Hovy （2015）提出的四種特徵來建立幽默偵測模型。其結果 Seq2Seq 並未表現比傳統的方式好。他們認為語料不夠大是導致此結果的原因。因此可以推論效果呈現與語料量有極大的關聯。. 7.

(16) 第二節. 幽默語料庫. 承如上述研究，要進行幽默生成及辨識都與大量的幽默語料有關。而之所以覺得笑話好笑，感到幽默則和社會與文化背景有很大的關係（周平，2011）。因此以下將介紹與中文幽默語料庫有關的相關研究以及本研究使用的台灣地區華人情緒與相關心理生理資料庫（鄭昭明 et al.，2013）與幽默語料庫（Yi-Ciao Gu et al.，2019）。. 一、. 中文笑話語料庫. 任璐 et al.（2018）共收錄了 33,025 則笑話，採用主題分類及笑話產生原因兩種分類方法。強調不對幽默跟笑話做區分，其標註了包含笑話篇名、場景、人物、關鍵詞、幽默程度、幽默方式及笑話類別七種類別。標註完後，其研究同時嘗試進行笑話辨識和笑話生成，然其結果仍有進步的空間。由此可知以目前的技術要達到笑話生成仍有需要解決的難題。. 二、. 台灣地區華人情緒與相關心理生理資料庫. 鄭昭明 et al.（2013）蒐集了 160 則具代表性的中文笑話，並以線上問卷的方式邀請了 396 位 15 歲以上的受試者進行笑話「理解程度」、「好笑程度」、「厭惡程度」的標記。結果發現性別的不同對笑話的理解、好笑及厭惡程度也會不同。其資料庫也提供了後續研究的材料。本研究使用其資料庫中的笑話作為語料之一。. 三、. 幽默語料庫. Yi-Ciao Gu et al.（2019）從 42 個來源收集了 5,615 則笑話，其中包括 27 個公開網站（共 2,777 則笑話）、11 本笑話書籍（共 895 則）、3 個免費 App（共 156 則）共 3,828 則笑話。笑話共分為 9 種主題：黃色、名人、術語、家庭、校園、愛情、職場、冷笑話、其他。此語料庫參考都柏林核心集（Dublin Core）對笑話語料進行編目，共有 15 個欄位。多數笑話由 2 人評定好笑程度，再取得共識決。本研究使用其資料庫中的笑話作為語料之一。. 8.

(17) 幽默語料庫資料的項目欄位與都柏林核心集的 15 個核心元素加以增修或刪減如表 2-1，其中欄位資源識別代號（Identifier）標示笑話來源的網址或 ISBN，如篇名「要求加薪」的笑話，其資源識別代號即為原笑話網址 http://www.ak9k.com/6185.html。流水號（Number）則為蒐集時笑話在各來源的流水編號。表 2-1 都柏林核心集與幽默語料庫元素比較表項目. 都柏林核心集. (1). 題名（Title）. 幽默語料庫 (1) 來源篇名（Source title） (2) 替代篇名（Alternative title）. (2). 著者（Creator）. (3) 作者（Creator） (4) 來源主題（Source subject）. (3). 主題和關鍵詞（Subject） (5) 笑話主題（Subject）. (4). 簡述（Description）. (6) 內容（Text content）. (5). 出版者（Publisher）. 刪除. (6). 其他參與（Contributor）. (7) 分享者（Sharer）. (7). 出版日期（Date）. (8) 公開日期（Public date） (9) 蒐集日期（Collection date） (8). 資源類型（Type）. (10) 資源類型（Type）. (9). 資料格式（Format）. 刪除. 資源識別代號 (11) 資源識別代號（Identifier）. (10) （Identifier） (11). 來源（Source）. 刪除. (12). 語言（Language）. (12) 語言（Language）. (13). 關連（Relation）. 刪除（續下頁） 9.

(18) (14). 涵蓋時空（Coverage）. 刪除. (15). 版權規範（Rights）. 刪除新增： (13)流水號（Number）、(14) 長度（Length）、(15) 好笑程度（Humor Level）. 資料來源：改自 Yi-Ciao Gu et al.（2019）. 10.

(19) 第三節. 幽默對話系統與評估方法. 同第一章所述，多數對話系統應用主要侷限於 FAQ。但亦有少數研究已開始嘗試製作幽默對話系統。本節將介紹國內外有關幽默對話系統的研究（曾元顯， 2017）並同時整合對話系統的評估方法，以利本研究後續系統評估。. 一、. 幽默對話系統. Augello, Saccone, Gaglio, and Pilato（2008）運用 AIML 在 Yahoo! Messenger 上建置了英文幽默對話系統。他們利用既有的開源 AIML 知識庫再蒐集笑話語料建構 AIML 笑話知識庫，讓機器回覆適當的語句給使用者。為了能「瞭解」使用者輸入的幽默對話，他們運用 CMU Pronouncing Dictionary 和 WordNet 實作 Mihalcea and Strapparava（2006a）以押頭韻、反義詞、成人俚語為特徵的幽默偵測方式來回應使用者，其可達到 73%的偵測準確度。 Sjobergh and Araki（2009）以模組的方式設計了一個日文聊天機器人，可以照不同類型的使用者進行個別的回應。其幽默辨識與生成雖簡單，但仍優於當時其餘兩者的聊天機器人。其方式是將使用者輸入的語句傳送到各模組，各模組估計其自信度（數值介於 0 到 1），系統依使用者的偏好調整模組權重，模組權重與自信度相乘後，最高數值者則作為回應輸出。依此方式，可做出客製化的聊天機器人。本研究參考其模組建置中文幽默對話系統。由上述研究可知，語料庫對於幽默對話系統是極為重要的一部分。根據語料庫所提供的不同詮釋資料，對於對話系統進行幽默的偵測與生成都會有極高的影響。. 二、. 對話系統評估方法. Radziwill, and Benton（2017）在 Google Scholar、JSTOR 、EBSCO Host 上搜尋了在工程、心理、傳播領域從 1999 年到 2017 年有關「 chatbots 」、「conversational agents」、「quality」等共 8 個關鍵字的相關文獻。分析搜尋到的. 11.

(20) 文獻後並根據 ISO 9241 提出了聊天機器人及對話系統的品質屬性（Quality Attributes）。表 2-2、2-3、2-4 分別就效率、效能及滿意度三項部分說明項目、品質屬性及資料來源。表 2-2 效率的項目、品質屬性、資料來源一覽表項目. 品質屬性. 資料來源. 1.. 優雅降級. Cohen & Lane (2016). 2.. 穩定操作. Thieltges (2016). 3.. 例外處理. Kluwer (2011). 4.. 避免不適當的言論，並能夠進行損害. Morrissey and. 控制. Kirakowski (2013). 有效的功能分配. Staven (2017). 性能. 5.. 資料來源：改自 Radziwill, and Benton（2017）. 12.

(21) 表 2-3 效能的項目、品質屬性、來源文獻一覽表項目. 功能性. 品質屬性. 資料來源. 1.. 準確的語音合成. Kuligowska (2015). 2.. 準確解釋命令. Eeuwen (2017). 3.. 使用適當的語意. Morrissey & Kirakowski. 4.. 輸出準確的語言. (2013). 5.. 執行請求的任務. Wallace (2003). 6.. 完成任務並即時報告. Ramos (2017). 7.. 一般易用性. Eeuwen (2017). 即時解決問題，包含廣泛的知識，靈活的. Solomon (2017). 解釋. Cohen & Lane (2016) Weizenbaum (1966);. 1.. 通過圖靈測試. 2.. 不必通過圖靈測試2. Wallace (2003) Ramos (2017) 3.. 透明檢查，公開其聊天機器人身份. 4.. 包含錯誤以增加真實感. 5.. 令人信服，滿意和自然的互動. 6.. 能夠回答具體問題. Bostrom & Yudkowski 人性. (2014) Coniam (2014) Morrissey & Kirakowski 7.. 能夠保持主題討論 (2013). 資料來源：改自 Radziwill, and Benton（2017）. 2. 當與一個虛構人物互動時，Ramos (2017)聲稱，人們是願意暫停懷疑並享受互動。 13.

(22) 表 2-4 滿意度的項目、品質屬性、來源文獻一覽表項目. 影響. 品質屬性. 來源文獻. 1.. 提供問候語，表現個性. Morrissey & Kirakowski. 2.. 提供對話提示. (2013). 3.. 通過語調轉折和表現力提供情感訊息. Pauletto et al. (2013). 4.. 散發溫暖和真實感. Solomon (2017). 5.. 使任務變得更有趣. Eeuwen (2017). 6.. 娛樂或讓使用者享受互動. Ramos (2017). 7.. 閱讀並回應人類使用者的情緒. Meira & Canuto (2015). 1.. 尊重，包容和保護尊嚴（與訓練集相 Neff & Nagy (2016) 關） Applin & Fischer (2015). 2.. 使用者的倫理和文化知識 Eeuwen (2017). 倫理&. 3.. 保護和尊重隱私. 行為. 4.. 非欺騙. 5.. 對安全和社會問題的敏感性. 6.. 可信度（與感知質量相關）. Isaac & Bridewell (2014) Miner et al. (2016) Herzum et al. (2002) Vetter (2002) 7.. 注意趨勢和社會背景. 1.. 可回應社交線索或缺乏社交線索. Morrissey and Kirakowski (2013) 2.. 可檢測意義或意圖. 3.. 滿足神經多樣性需求，如額外回應時. Wilson et al. (2017). 近用性. Radziwill & Benton 間、文本介面 (2017) 資料來源：改自 Radziwill, and Benton（2017）. 14.

(23) 從表 2-2 至 2-4 可以發現對於使用者來說，除了功能是否符合使用者需求、回應正確外，有容易操作的互動介面也很重要。在對話時提供對話提示，可以影響使用者是否想繼續使用對話系統。了解聊天機器人及對話系統的品質屬性後，表 2-5 統整了歷年研究所使用的方法及研究重點，以下表簡述。表 2-5 近年來對話系統相關研究. 作者. 重點. 結論和建議. 建議使用 PARADISE 方法 (Walker et al., 1997; Sanders 構建測試腳本以評估對話的效 & Scholtz, 2002) 來確定對. Vetter (2002) 果. 話結構是否符合基本的語言質量標準 Precision，Recall 和 F1 可以作為回答問題得分的指標， Goh et al. 是否有效的回答問題. 但不夠。新措施必須考慮到. (2007) 回應的效果是主觀的，不同的領域有不同的知識庫為了克服 Goh et al.(2007)的聊天機器人的實施和評估（論 Košir (2013). 問題，使用疊代法及追蹤多文）個評估者的主觀評估文獻中提到的所有聊天機器人都符合語言準確性，語法. Coniam (2014). 檢查聊天機器人回覆的語意適應性和意義適合性的基本要求（續下頁） 15.

(24) Kuligowska. 評估比較 6 個波蘭語的商業聊. 通過訪談，確定了 10 個關. (2015). 天機器人. 鍵品質屬性（視覺外觀，語音合成，界面形式，基本知識，專業知識，會話能力，對意外情況的反應，個性特徵，個性化選項，評論/提供反饋的能力），並評估每個一個按順序（1-5）來確定整體質量評估（好，很好，非常好）. Meira &. 確定針對具體情感因素的質量. 提出了一個三級測量框架. Canuto (2015). 指標，其中以情感為主. （概念級、操作級和定量級目標），用於檢查架構質量和情感質量。度量標準包括內聚，關聯，大小，每個模組的通信或服務（用於架構），以及合作、魅力、享受、信任、自然、減少挫折，可信度和有趣性作為指標（續下頁）. 16.

(25) Kaleem et al.. 確定並測試為每個對話代理人. 現有框架的弱點在於它們沒. (2016). 定制評估方法. 有考慮到不同的對話系統會有不同的目標。他們採用 Fenton＆Pfleeger (1998)調整目標-問題-度量方法，並建議測試前/後評分，學習感知，正確/錯誤回應以及系統時間作為可用於品質屬性的指標。. 資料來源：改自 Radziwill, and Benton（2017）. 從以上的文獻評述可知，有關對話系統的評估方法大多使用問卷、訪談的方式調查使用者對聊天機器人的看法以及大部分的評估指標都著重在對話系統回應是否正確。而 Araujo, T.（2018）亦就聊天機器人的功能、互動、回答分配、整體滿意度、使用滿意度等以問卷的方式調查使用者對於聊天對話代理人（disembodied conversational agents，DCAs）的看法。此研究也同時驗證了 Ramos（2017）所表示的：當與一個虛構人物互動時，人們是願意暫停懷疑並享受互動。聊天機器人沒有一定要擬人化，能正確地回答使用者的問題並讓使用者感受到良好的互動，對於聊天機器人來說才是重要的，也是使用者是否會繼續使用下去的原因。綜合上述研究，可以知道製作一個聊天機器人最重要的是回應是否正確，其次是其近用性以及與使用者的互動良好。在進行系統建置時，需注意功能架構是否符合文獻中的指標與需求，以符合使用者的期待。. 17.

(26) 第三章. 研究方法與實施. 本章共分三節：第一節「研究方法」說明使用什麼研究方法協助進行本研究；第二節「研究範圍與限制」說明本研究限縮的特定範圍並劃分研究界線；第三節「研究架構」梳理整個研究架構的概觀。第四節「研究實施與步驟」詳細說明研究中每個環節的步驟。. 第一節一、. 研究方法. 系統開發研究法（ Information System Development. Methodology） Nunamaker, Chen, and Purdin （1990）提出了一套資訊系統發展的概念（Systems Development in Information Systems Research），後被譯為系統開發研究法（Information System Development Methodology）。其研究流程必須包括理論建構、觀察、實驗、系統開發等步驟。Sure & Studer 等學者在系統開發研究的研究流程設計中，於系統建構過程中以及完成後，還加入「評鑑」（Sure & Studer， 2002，2004）。洪淑芬（2013）提到系統開發研究法是複合式研究方法的一種，其具有正向探索研究的概念。以下為此方法之步驟流程圖 3-1：. 需求分析. 系統設計. 系統建置. 實驗. 系統評估. 圖 3-1 系統開發研究法之步驟資料來源：研究者自行整理. 在本研究中，系統係指「破冰機器人」，透過蒐集文獻進行需求分析及系統設計。建置系統的雛形後實行、實驗，依照實驗的結果進行評估與系統優化。本. 18.

(27) 章將會在第三節研究架構中說明其系統設計。後續步驟將於第四章的系統建置與評估詳述。. 二、. 自然觀察法. 幽默感不僅是多層面的概念，個體對於幽默的感受也不同。而心理學最常運用測量幽默的方法有自然觀察法、晤談法、實驗法、社交計量法、心理測驗法。本研究將採用自然觀察法：在自然環境中觀察個體的幽默行為（笑或微笑），能對幽默做深入的觀察（陳淑蓉、陳學志，2005）。觀察使用者使用破冰機器人是否可達到破冰的效果。. 19.

(28) 第二節. 研究範圍與限制. 對於人為什麼會笑這件事，就心理學的層面，影響的因素很多，除了與社會、文化有關外（周平，2011），同時也與性別有關（鄭昭明 et al.，2013）。因此本研究將設置情境：使用者在上台報告或演講前利用破冰機器人查詢笑話並講出自己所選擇的笑話作為開場，是否可達到緩解僵硬氣氛的破冰效果。並由使用者主觀判斷是否可達到破冰的效果。其研究範圍及限制如下條列： 1.. 本研究將使用語料庫中的篇名、內容及好笑程度進行查詢，並不特別區分笑話主題：笑話主題尤其是黃色笑話可能影響是否可以達到破冰效果的原因之一，但因語料庫的黃色笑話共有 532 則，僅占總笑話數約 10%的比例。為確認使用者查詢笑話語料的內容多樣化，並不特別區分笑話主題。. 2.. 本研究實驗僅限 LINE 個人聊天室：LINE 聊天室可分為個人聊天室及群組聊天室。原實驗預計群組聊天室也進行實驗評估，然進行群組聊天室實驗可能涉及跨領域研究，故本研究將其排除。. 3.. 本研究之實驗可視為是模擬實驗：由於本研究的實驗沒有強制性。僅宣傳鼓勵使用者於上台報告前可運用此系統來講出笑話，以達破冰的效果。但使用者是否用在設定的情境中並不得而知。因此，此實驗可視為是一種模擬實驗。但因為使用者是自願使用系統，此實驗數據仍有其參考價值。. 20.

(29) 第三節. 研究架構. 本研究參考前述 Sjobergh and Araki （2009）的設計，初步提出圖 3-2 的系統架構，做為中文幽默對話系統的基礎。. 使用者. LINE、Facebook Messenger 等社交通訊平台. 對話紀錄檔. 檢索比對生成模組. 使用者回饋記錄檔. 中文笑話語料庫. 圖 3-2 本研究規劃的中文幽默對話系統架構圖資料來源：改自曾元顯（2017）透過 LINE 平台介接中文幽默對話系統，使用者在 LINE 聊天室中輸入關鍵字，系統將輸入的關鍵字與笑話語料庫進行檢索比對輸出最相關的笑話並將使用者回饋以及對話紀錄下來供研究分析。檢索比對生成模組亦搭配對話紀錄檔依序回覆下一則次相關的笑話（使用者不會看到重複的笑話），直到語料庫中沒有次相關的笑話為止，詳細內容會在第四章說明。圖 3-3 至圖 3-6 為本研究規劃的資料庫關聯圖與其實際範例：笑話語料庫（TjokeBase）、對話紀錄檔（Tiomsg）、回饋記錄檔（Tscore）；圖 3-7 為設計之對話流程。. 21.

(30) userID. datetime. logtime. channelID. M. Tiomsg. reply. JokeID. userName. Tscore. N. TjokeBase. jokeScore. inmsg. 圖 3-3 本研究規劃的資料庫關聯圖資料來源：研究者自行整理. 圖 3-4 對話紀錄檔（Tiomsg）實際範例資料來源：研究者自行整理. 22. title. txt. category.

(31) 圖 3-5 笑話語料庫（TjokeBase）實際範例資料來源：研究者自行整理. 圖 3-6 使用者回饋記錄檔（Tscore）實際範例資料來源：研究者自行整理 23.

(32) 加入機器人為好友. 使用者輸入查詢關鍵字. 查詢符合條件笑話. 查得結果. 再來一個. 使用者回饋. 回覆「無該關鍵字笑話」. 評分(存入資料庫) 圖 3-7 中文幽默對話系統對話流程資料來源：研究者自行整理. 24. 查無結果.

(33) 第四節. 研究實施與步驟. 本研究的流程分為三大階段。第一階段為研究設計，確定設計的破冰機器人應包含哪些功能以及使用那些語料為此階段的重要任務。接著使用系統開發研究法，確認初步思考的功能架構是否符合文獻中的指標與需求，以銜接第二階段；第二階段為系統建置階段，進行系統流程與演算法之設計以及破冰機器人程式之開發，此為系統開發研究法中的實行；第三階段為實驗與評估，開始進行資料蒐集執行自然觀察法，依照蒐集到的資料分析並評估破冰機器人是否可達到破冰效果，進而再優化系統並進行第二次實驗，最終分析經過系統優化後是否增加了其回應準確率及達到破冰效果。最後撰寫結論與建議或未來展望，希望可做為未來正體中文的幽默對話系統之基石。研究流程如圖 3-8，而本研究的步驟如下： 1.. 確定語料：確定要使用的語料以及原語料庫中所包含的欄位，以利系統設計。. 2.. 擬定研究方法：透過文獻探討找出適合本研究的研究方法。評估後選擇了「系統開發研究法」. 作為主要實作的方法，「自然觀察法」作為了解是否達到破冰效果的方法。而在「系統開發研究法」中的評估考慮到對話系統的近用性，採用以對話流程的方式進行簡單的問卷調查。 3.. 執行系統開發研究法. 4.. 執行自然觀察法. 5.. 進行第一次實驗：為配合本研究之實驗情境：「使用者在上台報告或演講前利用破冰機器人查. 詢笑話並講出自己所選擇的笑話作為開場，是否可達到緩解僵硬氣氛的破冰效果。」實驗時間將設於大學的期末報告周進行。 6.. 系統評估：蒐集實驗資料後進行分析，評估系統的使用效果如何以及分析使用者建議。. 25.

(34) 7.. 系統優化：依照系統評估結果進行系統優化後再次實驗確認優化後的系統是否實質上. 的提升系統使用效果。 8.. 進行第二次實驗. 9.. 確定研究呈現方式：完成的「中文幽默對話系統」應該如何呈現給大眾，本研究最終的研究結果. 將給予公開使用。 10. 提出結論與建議：目前的研究加入了許多研究限制，做出現階段的結論與建議。並對未來中文幽默對話系統提出建設性的意見供參考。 11. 研究結束. 26.

(35) 圖 3-8 研究流程圖資料來源：研究者自行整理. 27.

(36) 第四章. 中文幽默對話系統建置與評估. 本章共分為四節：第一節介紹破冰機器人所使用的語料庫；第二節說明檢索的比對生成模組，並會同時介紹評估過後新增的 Word2Vec 詞嵌入技術；第三節說明建置系統的過程；第四節介紹兩次實驗以及評估過後進行系統改善後的結果。. 第一節. 使用語料. 本研究所使用的語料為第二章第二節提到的台灣地區華人情緒與相關心理生理資料庫及幽默語料庫。由於笑話眾多難免有重複的笑話，參考 Tseng and Teahan（2004）的作法，利用 Python 程式語言的 gensim 套件，透過向量空間模型全文檢索的方法偵測相似度高的笑話，再以人工確認剃除重複的笑話後，剩下共 4,696 則笑話。每則笑話依照笑話語料庫的標記方式，除了原本的 15 個欄位外，新增欄位 ID 標示來源為台灣地區華人情緒與相關心理生理資料庫或是幽默語料庫：J 開頭為來自台灣地區華人情緒與相關心理生理資料庫的笑話，共 1,237 筆；L 開頭則是幽默語料庫的笑話，共 3,365 筆；S 開頭為本研究進行時新增的校園笑話，共 94 筆。表 4-1 為使用的笑話語料庫與都柏林核心集之比較。由於結合了兩個語料庫，有些無法得知的欄位則內容暫時留白，若有機會再進行加工編目時補充。表 4-1 都柏林核心集與使用的笑話語料庫元素比較表項目. 都柏林核心集. (1). 題名（Title）. (2). 著者（Creator）. (3). 主題和關鍵詞（Subject）. (4) (5) (6). 簡述（Description）出版者（Publisher）其他參與（Contributor）. 幽默語料庫 (1) 來源篇名（Source title） (2) 替代篇名（Alternative title） (3) 作者（Creator） (4) 來源主題（Source subject） (5) 笑話主題（Subject） (6) 內容（Text content）刪除 (7) 分享者（Sharer）（續下頁）. 28.

(37) (7). 出版日期（Date）. (8) (9). 資源類型（Type）資料格式（Format）資源識別代號（Identifier）來源（Source）語言（Language）關連（Relation）涵蓋時空（Coverage）版權規範（Rights）. (10) (11) (12) (13) (14) (15). (8) 公開日期（Public date） (9) 蒐集日期（Collection date） (10) 資源類型（Type）刪除 (11) 資源識別代號（Identifier）刪除 (12) 語言（Language）刪除刪除刪除新增： (13) ID、(14)流水號（Number）、(15) 長度（Length）、(16) 好笑程度（Humor Level）. 資料來源：研究者自行整理. 統計笑話語料庫中 1 為非常不好笑，5 為非常好笑。表 4-2 顯示好笑程度及其則數，其中好笑程度 3 至 5 的比例佔 72.2％，可知 4,696 則笑話中，多數的笑話為具有一定好笑程度的笑話。表 4-2 笑話語料庫的好笑程度與其數量統計表好笑程度. 1. 2. 3. 4. 5. 總計. 則數. 384. 912. 1851. 1310. 239. 4696. 比例. 8.2%. 19.4%. 39.4%. 27.9%. 5.1%. 100.0%. 資料來源：研究者自行整理. 29.

(38) 第二節. 檢索比對生成模組. 檢索比對生成模組負責將使用者輸入查詢的關鍵字比對笑話，依照相似程度，回覆使用者與查詢關鍵字相似度最高的笑話。若使用者查詢相同關鍵字或點選再來一個笑話，則會搭配對話紀錄檔依序回覆下一則次相關的笑話，直到語料庫中沒有次相關的笑話為止。為記錄破冰機器人與使用者的對話以利後續分析，此模組會在輸出笑話後依照 Radziwill and Benton（2017）所統整出對話系統品質屬性，直接詢問使用者輸出的笑話是否有在情境中達到破冰效果並回饋使用者自己認為這則笑話的好笑程度。使用者輸入的關鍵字可以是與情境有關的語句或是詞彙，例如「跨年的笑話」或是「跨年」。為求對話系統功能性中的即時解決問題，本研究使用向量空間模型（Vector Space Model，VSM）資訊檢索技術，並於第一次實驗後新增 Word2Vec 詞向量進行查詢擴展（query expansion），以提升檢索的成效。向量空間模型是經典常用的資訊檢索方法（Salton，1989）。其將語料中每份文件的重要詞彙（有主題意義的詞彙），都視為向量中的一個維度，而詞彙在文件中的出現次數（Term Frequency, TF）以及在整個語料中出現篇數的倒數（Inverse Document Frequency, IDF）的乘積（TFxIDF），作為該維度的權重。如此 n 篇文件的語料庫若共有 m 個詞彙，就形成一個 m x n 的矩陣，其中每一行向量對應到每一篇文件，而每一列向量則對應到每一個重要詞彙。依向量餘弦公式（Cosine），可計算任意兩文件或是兩詞彙的相似度（曾元顯 et al.，2020）。另一種 VSM 的表示法，則跟語料無關，單純以「獨熱編碼」（one-hot encoding）表示。2013 年 Mikolov et al.（2013）發展出 Word2Vec 的詞嵌入（word embedding）技術，就是從高維度的整數向量，以各種嵌入語意的方式降維成低維度的實數向量。嘗試使用 4,696 筆笑話進行 Word2Vec 訓練，訓練出來的結果為 not in vocabulary，可見要訓練出可用的模型其需要龐大的資料量進行訓練；故本研究. 30.

(39) 透過下載截至 2019 年 8 月 20 日的中文維基百科文章，處理後共 7.91 GB 純文字檔與 gensim 工具訓練出 2,238,637 個詞彙的詞嵌入向量（Word Embedding Vectors），依此來擴展使用者查詢詞找不到笑話的情況。如查詢「紅茶」，依照經驗法則決定透過 Word2Vec 找出「紅茶」的前 10 個近似詞，可以得到以下的 10 個相似詞及其詞向量： >>> print(model.wv.most_similar('紅茶', topn=10)) [('烏龍茶', 0.7259955406188965), ('奶茶', 0.6932611465454102), ('珍珠奶茶', 0.6661516427993774), ('綠茶', 0.6420326828956604), ('牛乳', 0.640976071357727), ('清酒', 0.6371012926101685), ('羊羹', 0.6370382308959961), ('豆奶', 0.6361131072044373), ('醬汁', 0.6340006589889526), ('辣醬', 0.6339839100837708)] 而網路上也有許多已預訓練的模型，使用國立中央大學自然語言處理實驗室預訓練的中文相似詞搜尋再次進行比較：GloVe（2014）、fastText（2015）、ELMo （2018）、BERT（2018），一樣以「紅茶」為例，各相似詞的相關度如表 4-3 所示。表 4-3 預訓練模型有關「紅茶」的相似詞相關度比較表 GloVe 綠茶奶茶. fastText 0.529006 烏龍茶 0.498111 綠茶. ELMo BERT 0.667802 綠茶 0.879299 綠茶 0.651961 烏龍 0.878241 奶茶. 0.854658 0.782052. 茶 0.639603 鳳梨 0.638406 芋頭. 0.835163 茶葉 0.833013 咖啡. 0.774467. 茶. 0.493436 茶葉 0.478747 茶種. 茶葉. 0.470483 茶. 0.620114 木瓜. 0.824546 烏龍茶. 0.767454. 咖啡. 0.616471 米粉 0.611610 花椒. 0.824053 茶 0.821034 茶道. 0.731770. 烏龍茶. 0.460294 咖啡 0.435566 紅茶店. 正山小種. 0.402066 正山小種. 0.608489 茶樹. 0.820239 製茶. 0.720664. 沖泡. 0.373593 奶茶. 0.607784 香菇. 0.820071 茶飲. 0.708198. 蜜香. 31. 0.768085. 0.721585.

(40) 資料來源：研究者自行整理. 使用預訓練模型的前 10 個近似詞再依此查詢笑話語料庫，其查詢相關度皆未超過門檻 0.3（依經驗法則設定）。故本研究決定使用自行訓練的 Word2Vec 模型，除擴展查詢效果好外，資料也較為透明。而透過自行訓練的 Word2Vec 找出前 10 個近似詞：「烏龍茶、奶茶、珍珠奶茶、綠茶、牛乳、清酒、羊羹、豆奶、醬汁、辣醬」，再依此查詢笑話語料庫，可找出相關的 2 則笑話，比較原本找不到的笑話的關鍵字與新增 Word2Vec 後原關鍵字找到笑話的比例提升了 26.4%（=14/53）。表 4-4 為在第一次實驗中原本找不到笑話，新增 Word2Vec 後找到笑話筆數的統計表。表 4-4 第一次實驗原找不到笑話之近似詞統計表原找不到關鍵字的笑話. 增加近似詞後找到幾筆笑話. 小明小明，睡著. 0. 小明小明，正義. 1. 小明小明，鬥陣. 1. 小明小明，飯店. 1. 小明小明，隨機. 0. 小明小明，餐廳. 0. 小明小明，我. not in vocabulary. 小明小明，關公. 0. 小明小明，懶覺. not in vocabulary. 小明小明，幹. 0. 小明小明，紅茶. 2. 小明小明，肚子餓. 0 （續下頁） 32.

(41) 小明小明，師大. 0. 小明小明，炸蝦. 1. 小明小明，經濟. 0. 小明小明，包裹. 0. 小明小明，行李. 0. 小明小明，出國. 2. 小明小明，檢定. 1. 小明小明，論文. 0. 小明小明，指導教授. 0. 小明小明，資工. 0. 小明小明，上班第一天. not in vocabulary. 小明小明，哈哈哈. 0. 小明小明，學習. 0. 小明小明，期末考. 0. 小明小明，氣球. 0. 小明小明，桌子. 0. 小明小明，打手槍. not in vocabulary. 小明小明，幹話. 0. 小明小明，模範生. 0. 小明小明，嫩. 0. 小明小明，東漢. 0. 小明小明，河童. 0. 小明小明，哈特利. 0. 小明小明，豬頭. 0 （續下頁）. 33.

(42) 小明小明，生活. 0. 小明小明，寄. 0. 小明小明，怡臻. 1. 小明小明，黃色. 1. 小明小明，幹你娘. not in vocabulary. 小明小明，演唱會. 0. 小明小明，籃球. 0. 小明小明，電視. 0. 小明小明，電扇. 0. 小明小明，毛豆. 0. 小明小明，天皇. 0. 小明小明，雞排. 1. 小明小明，松鼠. 1. 小明小明，米妮. 1. 小明小明，海綿寶寶. not in vocabulary. 小明小明，工具人. not in vocabulary. 總計笑話數. 14. 關鍵字. 12. 資料來源：研究者自行整理. 34.

(43) 第三節. 建置系統. 本研究透過 LINE 提供的 API 建立了一個機器人帳號，後台介接上述的檢索比對生成模組的查詢笑話互動系統，並記錄使用者的查詢語句以及回饋資訊。使用者可對名為「小明同學」的聊天機器人進行情境查詢（支援語音輸入）。「小明同學」會找出最相似的笑話提供使用者參考，並請使用者回饋該則笑話的好笑程度，繼而詢問此則笑話對使用者而言是否有達到破冰的效果，如圖 4-1 的使用範例中，使用者查詢了有關「紅茶」的笑話，「小明同學」回覆使用者笑話標題及內容後詢問使用者認為的笑話好笑程度。. 圖 4-1 破冰機器人「小明同學」的使用範例資料來源：研究者自行整理. 雖然在語料庫中好笑程度為求細緻分為 1 至 5 級，然在前導研究時，發現到使用者認為 3 個等級在使用上最直覺，容易選擇回饋，因此在詢問好笑程度時僅分為「不好笑」、「有點好笑」、「好笑」共 3 個等級。其虛擬碼（pseudo code）如. 35.

(44) 下： def getAnswer (chID, uID, txt, event) if txt == 查詢語句 received_text = txt 查詢資料庫符合關鍵字笑話 message={回饋表單} elif txt == "再來一個" 查詢 received_text 笑話 else: 回覆無符合關鍵字笑話 end 在文獻探討中 Radziwill, and Benton（2017）提到使用者在使用對話系統時有容易操作的互動介面也很重要，故在評估時本研究決定使用 LINE 的 flex message 對話格式，以選單的方式直接詢問使用者在情境中破冰機器人是否有達到破冰的效果及自己認為笑話的好笑程度，如 Facebook Marketplace 同樣是使用選單的方式進行使用者調查。同時搭配回饋表單，若使用者有對於破冰機器人的任何建議，都可以利用回饋表單反饋，如圖 4-2。. 36.

(45) 圖 4-2 回饋表單資料來源：研究者自行整理. 37.

(46) 第四節. 實驗與評估. 本研究設定的實驗情境為：「使用者在上台報告或演講前利用破冰機器人查詢笑話並講出自己所選擇的笑話作為開場，是否可達到緩解僵硬氣氛的破冰效果？」故將實驗時間設在大學期末報告週：第一次實驗時間為 2019 年 6 月 8 日至 6 月 21 日之間；第二次實驗時間為 2019 年 12 月 22 日至 2020 年 1 月 10 日之間，因第二次實驗期間適逢本國總統大選，故實驗時間延長一週。實驗事先利用社群網站 Facebook、Plurk 及 Dcard 進行宣傳，如圖 4-3。第一次實驗吸引了 67 人使用共查詢 493 次；第二次實驗共有 132 人使用共查詢 1,344 次。（上述人數與次數皆不包含內部測試者）。初步分析顯示使用者年齡多分布在 18-25 歲，與預期的使用族群一致。. 圖 4-3 社群網站 Plurk 中宣傳的貼文示意圖資料來源：研究者自行整理. 38.

(47) 圖 4-4 社群網站 Dcard 中宣傳的貼文示意圖資料來源：研究者自行整理. 一、. 第一次實驗. 在第一次實驗中，僅使用向量空間模型資訊檢索技術並沒有使用到 Word2Vec 的查詢擴展。在 67 人使用共查詢 493 次中，有 298 次的有回饋好笑程度。其中有 83 次回饋有達到破冰效果，達到破冰效果的比例為 27.9%（=83/298），約為 1/4，找不到笑話的次數為 125 次（第一次查詢就找不到笑話 48 次，加上找到過後再選「再來一個」而沒有笑話的有 77 次）。表 4-5 計算其 p 值為 0.16，其顯著性不明顯。語料庫中好笑程度和破冰效果並無明顯的因果關係。表 4-6 計算其 p 值為 4.52E-33，可以看出能否達到破冰效果主要與使用者認為的好笑程度有關，使用者認為「有點好笑」和「好笑」的笑話其破冰效果比例有 93%（=36+57）。. 39.

(48) 表 4-5 第一次實驗破冰效果與語料庫中好笑程度的交叉分析有達到破冰效果. 沒有達到破冰效果. 好笑程度. 次數. 百分比. 次數. 百分比. 1（非常不好笑）. 4. 4.8%. 16. 7%. 2（不好笑）. 11. 13.3%. 29. 13%. 3（有點好笑）. 31. 37.3%. 101. 47%. 4（好笑）. 27. 32.5%. 58. 27%. 5（非常好笑）. 10. 12.0%. 11. 5%. 總計. 83. 100.0%. 215. 100%. 資料來源：研究者自行整理. 表 4-6 第一次實驗破冰效果與使用者回饋好笑程度的交叉分析有達到破冰效果. 沒有達到破冰效果. 好笑程度. 次數. 百分比. 次數. 百分比. 不好笑. 6. 7%. 166. 77%. 有點好笑. 30. 36%. 41. 19%. 好笑. 47. 57%. 8. 4%. 總計. 83. 100%. 215. 100%. 資料來源：研究者自行整理. 同時在第一次實驗期間，在另外製作的回饋表單中共收到了 19 位使用者的意見回饋，如圖 4-5 所示。其中有 8 位認為笑話量不足，7 位希望「小明同學」有隨機功能，有 4 人認為有些查到的笑話講出來會有些尷尬，像是黃色笑話等。. 40.

(49) 圖 4-5 部分使用者的回饋意見資料來源：研究者自行整理. 二、. 系統優化. 根據第一次實驗的回饋意見，發現使用者利用關鍵字查詢笑話，找不到笑話的次數為 125 次（第一次查詢就找不到笑話 48 次，加上找到過後再選「再來一個」而沒有笑話的有 77 次），占了 25.4%（=125/493）的比例。故在第一次實驗後，本研究在檢索比對生成模組增加了 Word2Vec 詞嵌入技術，利用查詢擴展增加使用者找到笑話的機會。另外仔細觀察使用者的使用行為發現，有些使用者並不知道要查詢何種笑話，亦或是即使有教學說明仍不知如何操作，與意見回饋中的希望新增隨機功能相同。故在第二次實驗加入隨機功能以及圖形化的操作選單，增加其易用性，讓使用者更願意使用破冰機器人，以利可以得到更多的研究材料並以改善使用者不知從何檢索，以及檢索結果品質的問題。圖形化選單使用了 LINE 平台提供的 rich menu 製作。如圖 4-6，在 Line 聊天室介面的最下方將選單開啟後，可點選「隨機查詢」如圖左。隨機查詢隨機的笑話為好笑程度 3-5 的笑話，由於第一次實驗中語料庫中好笑程度和破冰效果並無明顯的關係，也希望可以藉此發現其因果關係；圖中為點選「推薦字」會以文. 41.

(50) 字雲圖片呈現語料庫中最常出現的詞彙，以提供查詢詞選用的參考；圖右的「功能查詢」為第一次實驗時就有的功能，但雖於新加入「小明同學」時的介紹詞已有說明介紹，使用者仍會忘記如何使用，故也一同加入圖形化選單，提醒使用者。. 圖 4-6 系統優化更新的功能資料來源：研究者自行整理. 三、. 第二次實驗. 第二次實驗共有 132 位使用者參與，總查詢次數 1344 次，其中隨機查詢 1038 次（占總查詢 77.23%）；關鍵字查詢有 306 次（占總查詢 22.77%），可見多數的使用者並沒有特定想查什麼主題的笑話，只要可以達到破冰效果即可。但仍有 1/4 的人使用關鍵字查詢，此比例仍需要重視。分別計算表 4-7、表 4-8 的顯著水準。表 4-7 的 p 值為 0.01，其顯著性明顯。表 4-8 的 p 值則為 3.16E-70，顯著同為明顯。仔細觀察好笑程度與破冰效果的交叉分析亦可發現：關鍵字查詢的達到破冰效果共有 44 次，占 17.3%的比例. 42.

(51) （=44/255）；而隨機查詢達到破冰效果則有 211 次，占 82.7%的比例（=211/255），由此可以推測若只回覆好笑程度 3-5 的笑話，確實可以有效的提升破冰效果。. 表 4-7 第二次實驗破冰效果與語料庫中好笑程度的交叉分析有達到破冰效果. 沒有達到破冰效果. 好笑程度. 次數. 百分比. 次數. 累計百分比. 1（非常不好笑）. 1. 0.4%. 6. 2%. 2（不好笑）. 6. 2.4%. 16. 4%. 3（有點好笑）. 118. 46.3%. 202. 53%. 4（好笑）. 118. 46.3%. 129. 34%. 5（非常好笑）. 12. 4.7%. 31. 8%. 總計. 255. 100.0%. 384. 100%. 資料來源：研究者自行整理. 表 4-8 第二次實驗破冰效果與使用者回饋好笑程度的交叉分析有達到破冰效果. 沒有達到破冰效果. 好笑程度. 次數. 百分比. 次數. 累計百分比. 不好笑. 8. 3%. 263. 68%. 有點好笑. 95. 37%. 97. 25%. 好笑. 152. 60%. 24. 6%. 總計. 255. 100%. 384. 100%. 資料來源：研究者自行整理. 另外，運用 Word2Vec 技術擴展使用者查詢詞後，找不到笑話的次數共為 51 次（第一次查詢就找不到笑話 22 次，加上找到過後再選「再來一個」而沒有笑 43.

(52) 話的有 29 次），讓查不到笑話比例降為 16.7%（=51/306），相較於第一次實驗減少了 8.7%（=25.4%-16.7%）。顯示運用 Word2Vec 技術進行查詢擴展確實有其成效，可降低使用者找不到笑話的挫折感，以達到對話系統的功能性品質。而仔細觀看表 4-5 至表 4-8 顯示，不好笑的笑話仍有機率達到破冰效果。進一步分析對話紀錄發現，使用者認為不好笑的笑話，實際使用仍有機會達到破冰效果。這裡舉以下笑話為例說明：男：「你剛剛跌倒會不會痛？」女：「我沒有跌倒阿～」男：「咦你不是從天上掉下來的天使嗎？」此則笑話在語料庫的好笑程度為 2，使用者回饋也認為此則笑話不好笑，但實際使用卻有達到破冰效果。由此可以說明，笑話好不好笑因人而異；而能達到破冰效果除了真正好笑的笑話外，也有其他的因素。而影響笑話是否幽默的原因，可分為笑話內容本身及個人的主觀認知。笑話要好笑，首先聽眾要先能理解笑話本身的內容，才能令人發笑。後者如鄭昭明 et al.（2013）認為性別是影響因素之一，男生對黃色笑話的接受度就高於女生。另外，社會互動、群眾心理現象也有影響：當跟別人在一起的時候，笑的機會也比獨自一人的時候多 30 倍（Provine， 2001）。即當使用者面對一群人說出笑話，雖然是一個不夠好笑的笑話，但只要群眾裡其中一個人發笑，就會影響其他人也會跟著笑，有時即使不是夠好的笑話，也可達到破冰的效果。而真正好笑的笑話，也可能因為歷時性的關係，漸漸變得不好笑。在第二次實驗中便有使用者反應：「笑話本身是好笑的，只是已經聽過了，所以不會笑出來。」這些都說明，影響笑話達到幽默的因素頗為複雜。在此次實驗期間，在另外製作的回饋表單中收到的建議多為希望有更多笑話，如圖 4-7。相較於第一次實驗收到的建議，可知使用者在系統功能上已無其他期望的需求。但也顯示出使用者認為笑話仍有不足，因繼續收集笑話以提升語料庫的品質。. 44.

(53) 圖 4-7 部分使用者的回饋意見資料來源：研究者自行整理. 四、. 一致性評估. 從上述的分析可以得知，語料庫的品質確實會部分影響到對話系統的回覆品質。因此便出現一個問題：語料庫中的好笑程度是否與使用者的認為的好笑程度 2. 一致？故本研究以卡方獨立性檢定計算𝑥 = 𝛴𝑖 𝛴𝑗. (𝑂𝑖𝑗 −𝐸𝑖𝑗 ) 𝐸𝑖𝑗. 2. ，假設 H0 為語料庫中. 的好笑程度與使用者回饋的好笑程度沒有差異，而 H1 為語料庫中的好笑程度與使用者回饋的好笑程度有差異，分別就第一次實驗和第二次實驗所得到的數據進行計算。表 4-9 為第一次實驗使用者回饋的好笑程度與語料庫中好笑程度的交叉分析表。利用 EXCEL 中的 CHITEST 函式計算獨立性檢定之 p 值為 0.15，大於設定的顯著水準 0.05，無法拒絕虛無假設，因此無法證明語料庫中的好笑程度與使用者回饋的好笑程度有差異。表 4-9 第一次實驗使用者回饋的好笑程度與語料庫中好笑程度的交叉分析表不好笑. 有點好笑. 好笑. 總計. 累計百分比. 好笑程度 1. 13. 3. 4. 20. 6.7%. 好笑程度 2. 29. 5. 6. 40. 13.4%. 好笑程度 3. 78. 33. 21. 132. 44.3% （續下頁）. 45.

(54) 好笑程度 4. 45. 21. 19. 85. 28.5%. 好笑程度 5. 7. 9. 5. 21. 7.0%. 總計. 172. 71. 55. 298. 100.0%. 資料來源：研究者自行整理. 而第二次實驗，一樣利用 EXCEL 中的 CHITEST 函式計算獨立性檢定之 p 值為 0.07，大於設定的顯著水準 0.05，無法拒絕虛無假設，因此與第一次實驗一樣無法證明語料庫中的好笑程度與使用者回饋的好笑程度有差異。下表 4-10 為第二次實驗使用者回饋的好笑程度與語料庫中好笑程度的交叉分析表。表 4-10 第二次實驗使用者回饋的好笑程度與語料庫中好笑程度的交叉分析表不好笑. 有點好笑. 好笑. 總計. 累計百分比. 好笑程度 1. 6. 1. 0. 7. 1.1%. 好笑程度 2. 11. 6. 5. 22. 3.4%. 好笑程度 3. 144. 99. 77. 320. 50.1%. 好笑程度 4. 89. 75. 83. 247. 38.7%. 好笑程度 5. 21. 11. 11. 43. 6.7%. 總計. 271. 192. 176. 639. 100.0%. 資料來源：研究者自行整理. 進一步計算其標準化殘差zij =. Oij −Eij √Eij. 。在 Z 分佈的臨界值為±1.96 的情況下，. 會發現有些細格數字逼近臨界值，像是在第一次實驗中使用者回饋的好笑程度與語料庫中「好笑程度 5／有點好笑」細格，見表 4-11；和第二次實驗使用者回饋的好笑程度與語料庫中「好笑程度 1／不好笑」、「好笑程度 4／好笑」細格，見表 4-12。因此從獨立性檢定與標準化殘差計算出語料庫中的好笑程度與使用者的認為的好笑程度為一致，但其一致性接近於臨界值。語料庫中笑話的好笑程度 46.

(55) 可以當作一定程度上的參考，但笑話是否好笑及可以達到破冰效果，使用者的主觀性仍占比較大的影響。表 4-11 第一次實驗使用者回饋的好笑程度與語料庫中好笑程度的標準化殘差使用者回饋的好笑程度不好笑. 有點好笑. 好笑. 1. 0.43. -0.81. 0.16. 2. 1.23. -1.47. -0.51. 3. 0.21. 0.28. -0.68. 4. -0.58. 0.17. 0.84. 5. -1.47. 1.79. 0.57. 語料庫的好笑程度. 資料來源：研究者自行整理. 表 4-12 第二次實驗使用者回饋的好笑程度與語料庫中好笑程度的標準化殘差使用者回饋的好笑程度不好笑. 有點好笑. 好笑. 1. 1.76. -0.76. -1.39. 2. 0.55. -0.24. -0.43. 3. 0.71. 0.29. -1.19. 4. -1.54. 0.09. 1.81. 5. 0.65. -0.53. -0.25. 語料庫的好笑程度. 資料來源：研究者自行整理. 47.

(56) 第五章. 結論與後續研究. 本研究利用系統開發研究法與自然觀察研究法建置基於檢索的中文幽默對話系統的建置與評估。首先探討文字對話系統與幽默計算包含探討幽默語料庫的相關文獻及幽默對話系統與評估分法；接下來經由兩次的實驗及兩次實驗中的系統優化來完整的建置、評估並得到其實驗結果了解成效。最後分析此系統的應用以及未來的建議。. 第一節. 結論. 本研究以資訊系統開發研究法與自然觀察研究法的循環步驟，實作出基於檢索的中文幽默對話系統，並評估其運用的成效。經過使用者的回饋以及對話紀錄的分析，加入 Word2Vec 擴展查詢、圖形化選單、隨機功能、推薦字讓使用者找不到笑話的比例從 25.4%降低到 16.7%（降低了 8.7%），而系統達到的破冰效果從 27.9%提升到 39.9%（提升了 12%）。隨機笑話的功能讓使用者不須查詢就可以查詢到好笑程度 3-5 的笑話，其使用率比關鍵字查詢高出許多（82.7%比 17.3%）。也再次印證了使用者對於對話系統的功能性及近用性，普遍使用者已經習慣推薦功能大於自己查詢的趨勢。後續的各類對話系統，建議應運用類似的推薦功能，以符合現今使用者的習慣與期待。一致性評估也證明了語料庫中的好笑程度與使用者回饋的好笑程度統計結果雖為一致，但介於邊緣。真正好笑的笑話，也可能因為歷時性的關係，漸漸變得不好笑。因此語料庫也需不斷的更新，以確保品質：好笑程度越高的笑話越容易讓使用者認為是好笑的笑話；而使用者認為越好笑的笑話，則越可達到破冰效果。綜論上述，呼應第一章的研究問題，整理本研究的結論共有以下兩點：一、破冰機器人確實可達到其成效。二、語料庫中的好笑程度與使用者的認知接近一致性的臨界值：使用者認為越好笑的笑話，越能達到破冰效果。. 48.

(57) 第二節. 後續研究. 本研究進行的實驗僅限於 LINE 個人聊天室，未來情境允許的情況下，應進行群組實驗，讓中文幽默對話系統擁有更大的研究價值。另外本研究使用檢索法進行幽默生成，期望未來能以機器翻譯、序列生成技術為主成功進行幽默生成。. 一、. 實地及跨領域實驗. 本研究此次進行的是設置情境的模擬實驗，因進行實地實驗其成本較大。未來在條件允許的情況下可以進行實地實驗。由於引發「笑」的因素眾多，若進行實地實驗或訪問受試者，相信可以得到更深入的研究結果。為未來中文幽默對話系統可以發揮更大的研究價值，也可嘗試跨界與心理相關治療結合。利用與中文幽默對話系統對話，讓憂鬱症患者可以舒緩心情等。然若要進行此實驗，勢必要由心理、醫療相關專家進行評估以及須謹慎的控制實驗場域。. 二、. 生成式笑話. 統整目前的研究，雖已可以利用機器翻譯、序列生成技術成功地進行幽默生成，然其生出的笑話品質仍不高。故本研究決定以檢索法的幽默生成方式進行實驗。生成的笑話品質不高，可從增加語料、負例或是利用不同的機器學習方式訓練生成模型，如 GPT-3 等方式著手。然增加語料及負例則代表需事先以更多的人工的方式判別笑話的好笑程度等加值欄位。因此持續補充笑話語料庫，為實現生成式笑話的重要過程。. 三、. 語料庫的更新. 從兩次實驗的實驗結果中得到語料庫的品質確實會部分影響到對話系統的回覆品質，而研究也顯示語料庫中的好笑程度與使用者的認知接近一致性的臨界值。分析其原因可能是因為笑話的歷時性造成的。因此建議未來語料庫除了要持續增加笑話外，可定期的再找人進行好笑程度的評測更新笑話的好笑程度，確保. 49.

(58) 語料庫中的笑話品質以及語料庫中的好笑程度與使用者的認知的一致性。綜論以上，本研究進行了幽默語料庫的應用，實作了一個基於檢索的中文幽默對話系統並以系統研究法循環進行評估及優化。設置情境進行實驗，實證了好笑程度越高的笑話確實越容易讓使用者覺得好笑；而使用者覺得好笑的笑話，確實越容易達到緩和僵硬氣氛的破冰效果以及使用者已習慣並期望對話系統擁有圖像化及自動推薦的功能。增加對話系統的易用性是提升此類服務成效的重要工作。最後對未來研究提出後續建議，希望可作為未來中文幽默對話系統的基石，期待後續研究者能透過更精確的實驗及技術進一步的探討。. 50.

(59) 參考文獻任璐、楊亮、徐琳宏、樊小超、刁宇峰、林鴻飛（2018）。中文笑話語料庫的構建與應用。中文信息學報，32(7)，20-29。周平（2011）。幽默的心理緣起與社會緣起一種關係-過程的笑話社會學取徑。國科會計畫（編號：NSC99-2410-H343-025-MY2）。洪淑芬（2013）。圖書資訊學研究中的科學研究方法：以系統開發研究法為例。大學圖書館，17(1)，107-121。doi:10.6146/univj.17-1.06 陳淑蓉、陳學志（2005）。幽默感的定義與測量：多向度幽默感量表之編製。應用心理研究，(26)，167-187。國立中央大學自然語言處理實驗室 — 中文相似詞搜尋（ 2019 ）。取自： http://ai.ee.ncu.edu.tw/embeddingsearch 曾元顯（2017）。【中文幽默對話系統之研發】。科技部計畫（編號：MOST 107-2221E-003-014-MY2）。曾元顯、許瑋倫、吳玟萱、古怡巧、陳學志（2020）。基於檢索方法的中文幽默對話系統之建置應用與評估。圖書資訊學刊。取自： https://jlis.lis.ntu.edu.tw/html/index.html。鄭昭明、陳學志、詹雨臻、蘇雅靜、曾千芝（2013）。台灣地區華人情緒與相關心理生理資料庫 ─ 中文笑話評定常模。中華心理學刊， 55(4) ， 555-569 。 doi:10.6129/CJP.20121026 Augello, A., Saccone, G., Gaglio, S., & Pilato, G. (2008). Humorist Bot: Bringing Computational Humour in a Chat-Bot System. Paper presented at the International Conference on Complex, Intelligent and Software Intensive Systems. 51.

(60) Araujo, T. (2018). Living up to the chatbot hype: The influence of anthropomorphic design cues and communicative agency framing on conversational agent and company perceptions.. Computers. in. Human. Behavior,. 85,. 183–189.. doi:10.1016/j.chb.2018.03.051. Blinov, V., Mishchenko, K., Bolotova, V., & Braslavski, P. (2017). A Pinch of Humor for Short-Text Conversation: An Information Retrieval Approach. Paper presented at the Experimental IR Meets Multilinguality, Multimodality, and Interaction: 8th International Conference of the CLEF Association, CLEF 2017, Dublin, Ireland, September 11–14, 2017, Proceedings, Cham. https://doi.org/10.1007/978-3-31965813-1_1 Yi-Ciao Gu, Yuen-Hsien Tseng, Wei-Lun Hsu, Wun-Syuan Wu and Hsueh-Chih Chen (2019). Development and Classification of a Chinese Humor Corpus. Paper presented at the 20th International Conference on Computational Linguistics and Intelligent Text Processing, La Rochelle, France. icebreaker. (2019). Cambridge Advanced Learner's Dictionary. Retrieved from https://dictionary.cambridge.org/zht/dictionary/english-chinesetraditional/icebreaker Ji, Z., Lu, Z., & Li, H. (2014). An Information Retrieval Approach to Short Text Conversation. arXiv:1408.6988. Le, Q. V., & Mikolov, T. (2014). Distributed representations of sentences and documents. arXiv preprint arXiv:1405.4053. Mihalcea, R., & Strapparava, C. (2006a). Learning to Laugh (Automatically): Computational Models for Humor Recognition. Computational Intelligence, 22(2),. 52.

(61) 126-142. Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781. Newyear, D., & McNeal, M. (Producer). (2014). Extending Library Services with AI Conversational. Agents.. Retrieved. from. http://connect.ala.org/files/AI_Conversational_Agents.pptx Nunamaker, J. F., Chen, M., & Purdin, T. D. M. (1990). Systems Development in Information Systems Research. Journal of Management Information Systems, 7(3), 89-106. doi:10.1080/07421222.1990.11517898 Potash, P., Romanov, A., & Rumshisky, A. (2017). SemEval-2017 Task 6: #HashtagWars: Learning a Sense of Humor. Paper presented at the 11th International Workshop on Semantic Evaluations, Vancouver, Canada. Provine, R. R. (2001). Laughter: A Scientific Investigation. London, UK: Penguin Books. Radziwill, N. M., & Benton, M. C. (2017). Evaluating Quality of Chatbots and Intelligent Conversational Agents. Software Quality Professional, 19(3), 25. Retrieved from https://arxiv.org/abs/1704.04579 Sjobergh, J., & Araki, K. (2009). A Very Modular Humor Enabled Chat-Bot for Japanese. Paper presented at the Conference of the Pacific Association for Computational Linguistics, Sapporo, Japan. Strick, M., van Baaren, R. B., Holland, R. W., & van Knippenberg, A. (2011). Humor in advertisements enhances product liking by mere association.Psychology of Popular Media Culture, 1(S), 16–31.https://doi.org/10.1037/2160-4134.1.S.16. 53.