幽默語料庫之相關研究

第二章文獻探討

第三節幽默語料庫之相關研究

如前述，國內外目前尚未發現一個類似幽默語料庫的產生，以「幽默語料庫」

做關鍵字去搜尋國外文獻，會發現幽默語料庫經常搭配著幽默生成及幽默辨識一同出現，反而沒有專指性的文章在講述幽默語料庫，大多也只有英文語料。但中國已有一派學者在研擬一個適用漢語體系的「中文笑話語料庫」。因此除了中國在應用幽默語料庫方面的文獻外，本節也會參考一些幽默對話系統為題的研究。

之所以參考目前的幽默對話系統的架構，是為了之後設計出一個更適合幽默語料的檢索系統。

一、中國大陸之幽默語料庫¹

與本研究最相關的文獻莫過於 2018 年 7 月刊登在《中文信息學報》的〈中文笑話語料庫的構建與應用〉，作者群是由大連理工大學的信息檢索研究團隊的五人，外加一位自大連外國語大學軟件學院的學者，共六人進行中文笑話語料庫的研究，總共收錄了 33,025 則笑話。而《中文信息學報》在中國的電腦及計算技術類的多種期刊中，被評斷為核心期刊之一（中文信息學報，2018），可見其影響力及能見度。對於中文笑話語料庫建置的步驟主要分為三部分：歸納理論、語料標註及識別不同體裁。在歸納理論部分裡，提到了中國學者針對笑話分類有著不同的見解，也因此至今仍沒有明確的笑話分類標準。此研究採用兩種分類方法，

一種為按主題分類，另一種則為按笑話產生原因分類。最特別的是，中文笑話語料庫強調不對幽默跟笑話做區分（任璐等人，2018），在本研究也會沿用此概念，

1 此部分大多內容參考任璐、楊亮、徐琳宏、樊小超、刁宇峰、林鴻飛的《中文笑話語料庫的

構建與應用》

畢竟笑話本屬幽默的文體之一，另外區分開來其實無太大實質意義。其中文笑話語料庫的建置流程如下圖 2-2：

圖 2- 2 改圖自任璐等人的標註過程流程圖

中文笑話語料庫以文獻編碼（Text Encoding Initiative，簡稱 TEI）為標註規範，TEI 是一個描述詮釋資料的標準，目的是為創造跨地域、跨領域的電子文件框架（電子檔案保存實驗室，2017）。任璐等人（2018）制定其語料庫的標註體系，內容包含笑話題目（title）、場景（scene）、人物（person）、關鍵詞（keywords）、幽默程度（level）、幽默方式（reason）及笑話類別（category），其中笑話題目

（title）與場景（scene）是可選項目，其他項目則不能為空值。其設計的標註軟體以半自動方式進行機器識別，再用可延伸標記語言（ Extensible Markup Language，簡稱 XML）儲存。

因為笑話本身的獨特點在於每個人閱讀完產生的效果不同，因此笑話分類變得很重要卻也很難處理。在此作者群所使用的方法是集結九個人，一同參與分類的一致性。將九人分為三人小組，總共三組，三人之中有一人為仲裁，當三人中兩人標註的分類相同時，此時就完成分類，如有不同才會有仲裁者評斷。無可避免的情況是三人意見相左的時候，這時會依標註類型作不同處理，例如數值的標註不同就取平均值等。

完成「語料標註」的部分後，即進行「識別不同體裁」，顧名思義是要從眾多文章類型、體裁中辨別出笑話，以便於做笑話辨識及笑話生成的作業。比較的例子必須具備幾個特色，如文章長度相似、詞彙使用相似等等，在這裡以四種體裁為主：故事、新聞、諺語/歇後語以及微博。在結果分析中，使用邏輯迴歸（Logistic Regression）及五倍交叉驗證法。用相同的評價指標觀察每一種體裁，指標包含準確率、召回率及Ｆ1 值（任璐等人，2018）。期許中文笑話語料庫的存在未來能解決笑話生成等不同的難題。

除了上述的中文笑話語料庫，幽默語料庫還能用在別的地方，像是與多維度分析結合進行研究。因基於語料庫的語篇分析有以下幾個優勢：

1. 實證性：大規模收集語料

2. 數據分析：採自動模式計算進行數據分析 3. 一體性：集質性分析與量化分析於一體

李璠（2017）的環境語篇之語料庫即是採用這種方式，以「環境汙染」、「霧霾」等等關鍵詞去搜索，在特定時間內共收集 90 篇，共計 7920 字，以 UTF-8 保存。建立標註代碼表、停用詞表及詞頻表等等，利用現有的工具自建語料庫（這裡使用的是 AntConc3.2.1w）。結果發現，詞彙變形所產生的新義會產生幽默感，

如「為人民服霧」。當使用的語言加上語境達到不和諧的時候，即產生幽默的效果，也印證了幽默理論中的「失諧論」。也因此可以說「幽默」有時可能會削弱討論的嚴肅性或模糊方向，反觀也可能會更有效表達民眾訴求。

在第二章第二節的語料庫實際操作之應用，有提到學術演講的幽默分析，跟其類似的研究還有以多媒體語料庫為本，分析學生的幽默對話。劉鋒、張京魚

（2015）也是採自建小型語料庫的方式，配合使用 ELAN 軟體（為一款跨平台的多媒體轉寫標註軟體），收集課堂幽默話語（Humorous Student Discourse，簡稱

HSD），試圖了解學生幽默話語的使用情況，及是否與語言學習有關聯。收集語料的過程用自然觀察法，主要以錄影為主，但除了錄影之外還會有訪談補充語料內容。研究最後也證實了課堂上的幽默的確可以營造輕鬆的課堂環境，增加學習者的學習興趣，不過因為樣本數小（只有 90 小時的影片）及對象限於小學生，

不禁讓人懷疑它的可信度。

幽默語料庫其實也是一個跨時間的歷時語料庫，例如中國已出現一個名叫

〈言語幽默漢英平行歷時語料庫〉，內含九千萬字/詞，建於 2013 年 3 月。此語料的標註主要以兩個方式著手：篇頭資訊標註及篇體資訊標註，設好參數與定義標註符號，為的是方便後續系統的排序、索引或優化。而不管什麼形式的資料庫，

都應該對原始語料進行清理，包括去除不必要的符號、多餘空格等，再用 UTF-8 編碼保存文本。隨著數位典藏的概念擴散，任何的時、地、物學者都欲永久保存，因此歷時語料庫愈來愈受到重視（李廣偉、戈玲玲、劉朝暉，2016）。

二、幽默對話系統²

有了初步的幽默語料庫，就能做接下來的幽默對話系統。幽默對話系統起源於聊天機器人（Chatbot），透過訓練語料庫的形式進行聊天的過程。Chatbot 系統發源於麻省理工學院，做出全世界第一個聊天機器人，並稱作 ELIZA (Weizenbaum, 1966)。隨後也有 PARRY、ALICE 等不同性質的聊天機器人出現，

且開始日漸擴展市場，發展迄今，這類的聊天系統已成為近幾年炙手可熱的話題之一。議題延伸至幽默對話系統，最為大眾所知的應該就屬 iPhone 的內建系統 Siri 了。為提高使用者人數，許多系統如 Facebook 的 Messenger 或 LINE 等紛紛效仿 Siri，加入制式的自動回覆以外有趣的回應來吸引大眾。

2 此部分內容大多參考曾元顯的《中文幽默對話系統之研發》計劃書

由於國內對幽默對話系統的研究才剛起步，還算不上成熟，所以用以下幾篇國外的文獻整理出重點與分類，可分為文字對話系統及幽默的計算兩大類說明：

(一) 文字對話系統

所有的對話系統最初都由文字的形式做開發，主要使用下列三種方法去設計對話內容：

1. 規則法：對話系統使用的規則有非常多種，舉例來說，聊天機器人 ALICE 採用的人工智慧標註語言（Artificial Intelligence Markup Language，簡稱 AIML）

便是其中一種(Wallace, 2003)。可針對 AIML 知識庫人工處理後台對話，或是從常見問題集（Frequently asked questions，簡稱 FAQ）找出常見問題，做自動回覆的功能，如利茲大學計算機學院的 FAQchat 系統 (Shawar, Atwell, &

Roberts, 2005)。至今在網路可公開取得的 AIML 知識庫：英文有四萬多條問答規則，簡體中文約有 1,715 條規則，尚未見繁體中文的版本（曾元顯，2017）。

2. 檢索法：即利用資訊檢索模式（Retrieval model），在大量對話語料中進行檢索，將最符合問題答案的回傳給使用者，作為對話系統的回應 (Ji, Lu, & Li, 2014)，本研究即是預期日後要支援這樣的檢索系統。

3. 序列對應生成法：深度學習法又分多種方式，有遞歸神經網路（RNN）、卷積神經網路（convolutional neural networks，簡稱 CNN）以及長短期記憶（LSTM）

（Bacciu et al., 2016），而序列對應則常利用 RNN 與 LSTM。針對語料斷詞部分重新訓練文字序列（Sequence to Sequence），也就是訓練出另一種文字序列的人工神經網路來回應對話的問題(Li et al., 2016)。

下列整理出各方法優缺點的比較表 2-2：

表 2- 2 改自曾元顯《中文幽默對話系統之研發》頁 3-4

不同方法優缺點比較優點缺點

1. 規則法 ⚫ 系統初期建置快

⚫ 系統回應可預期、易解釋

回應的領域範圍愈大，知識庫整體成本（人力、時間、經驗）愈高。

2. 檢索法檢索技術與工具成熟需大量且清理乾淨的對

話語料庫。

3. 序列對應生成法可產生對話語料中沒出現過的回應。

訓練資料不足時，容易產生不一致或無意義的回應。

(二) 幽默計算（Computational Humor）

多數學者試圖運用深度學習方法去計算幽默產生的一切，其中包括了幽默辨識及幽默生成，幽默辨識又被認為比幽默生成的難度更高 (Zhang & Liu, 2014)。

以下分為幽默辨識、幽默生成以及幽默對話系統，底下再細分類別：

1. 幽默辨識法 (1) 以自動分類為主

對於一個大型的語料庫來說，是不適用以人工方式進行內容辨識的，因此，

非常需要依靠自動分類從旁協助。但幽默的分類就像幽默的效果一樣，幽默是否達到效果有時因人而異，像德國學者參加英語體系的演講時常無法同其他英語系

國家的學者感受到一樣的笑點 (Reershemius, 2012)，因幽默具有主觀性、地域性、

文化性、時事性以及語言差異等至少五種特性（曾元顯，2017）。

Mihalcea 與 Strapparava (2006)就將幽默辨識視為一個分類的任務，並蒐集正

在文檔中幽默語料庫之建置 (頁 30-38)

第二章 文獻探討

第三節 幽默語料庫之相關研究

第二章文獻探討

第三節幽默語料庫之相關研究