第二章 文獻探討
第三節 幽默語料庫之相關研究
如前述,國內外目前尚未發現一個類似幽默語料庫的產生,以「幽默語料庫」
做關鍵字去搜尋國外文獻,會發現幽默語料庫經常搭配著幽默生成及幽默辨識一 同出現,反而沒有專指性的文章在講述幽默語料庫,大多也只有英文語料。但中 國已有一派學者在研擬一個適用漢語體系的「中文笑話語料庫」。因此除了中國 在應用幽默語料庫方面的文獻外,本節也會參考一些幽默對話系統為題的研究。
之所以參考目前的幽默對話系統的架構,是為了之後設計出一個更適合幽默語料 的檢索系統。
一、中國大陸之幽默語料庫1
與本研究最相關的文獻莫過於 2018 年 7 月刊登在《中文信息學報》的〈中 文笑話語料庫的構建與應用〉,作者群是由大連理工大學的信息檢索研究團隊的 五人,外加一位自大連外國語大學軟件學院的學者,共六人進行中文笑話語料庫 的研究,總共收錄了 33,025 則笑話。而《中文信息學報》在中國的電腦及計算技 術類的多種期刊中,被評斷為核心期刊之一(中文信息學報,2018),可見其影 響力及能見度。對於中文笑話語料庫建置的步驟主要分為三部分:歸納理論、語 料標註及識別不同體裁。在歸納理論部分裡,提到了中國學者針對笑話分類有著 不同的見解,也因此至今仍沒有明確的笑話分類標準。此研究採用兩種分類方法,
一種為按主題分類,另一種則為按笑話產生原因分類。最特別的是,中文笑話語 料庫強調不對幽默跟笑話做區分(任璐等人,2018),在本研究也會沿用此概念,
1 此部分大多內容參考任璐、楊亮、徐琳宏、樊小超、刁宇峰、林鴻飛的《中文笑話語料庫的
構建與應用》
20
畢竟笑話本屬幽默的文體之一,另外區分開來其實無太大實質意義。其中文笑話 語料庫的建置流程如下圖 2-2:
圖 2- 2 改圖自任璐等人的標註過程流程圖
中文笑話語料庫以文獻編碼(Text Encoding Initiative,簡稱 TEI)為標註規 範,TEI 是一個描述詮釋資料的標準,目的是為創造跨地域、跨領域的電子文件 框架(電子檔案保存實驗室,2017)。任璐等人(2018)制定其語料庫的標註體 系,內容包含笑話題目(title)、場景(scene)、人物(person)、關鍵詞(keywords)、 幽默程度(level)、幽默方式(reason)及笑話類別(category),其中笑話題目
(title)與場景(scene)是可選項目,其他項目則不能為空值。其設計的標註軟 體 以 半 自 動 方 式 進 行 機 器 識 別 , 再 用 可 延 伸 標 記 語 言 ( Extensible Markup Language,簡稱 XML)儲存。
因為笑話本身的獨特點在於每個人閱讀完產生的效果不同,因此笑話分類變 得很重要卻也很難處理。在此作者群所使用的方法是集結九個人,一同參與分類 的一致性。將九人分為三人小組,總共三組,三人之中有一人為仲裁,當三人中 兩人標註的分類相同時,此時就完成分類,如有不同才會有仲裁者評斷。無可避 免的情況是三人意見相左的時候,這時會依標註類型作不同處理,例如數值的標 註不同就取平均值等。
21
完成「語料標註」的部分後,即進行「識別不同體裁」,顧名思義是要從眾 多文章類型、體裁中辨別出笑話,以便於做笑話辨識及笑話生成的作業。比較的 例子必須具備幾個特色,如文章長度相似、詞彙使用相似等等,在這裡以四種體 裁為主:故事、新聞、諺語/歇後語以及微博。在結果分析中,使用邏輯迴歸(Logistic Regression)及五倍交叉驗證法。用相同的評價指標觀察每一種體裁,指標包含 準確率、召回率及F1 值(任璐等人,2018)。期許中文笑話語料庫的存在未來 能解決笑話生成等不同的難題。
除了上述的中文笑話語料庫,幽默語料庫還能用在別的地方,像是與多維度 分析結合進行研究。因基於語料庫的語篇分析有以下幾個優勢:
1. 實證性:大規模收集語料
2. 數據分析:採自動模式計算進行數據分析 3. 一體性:集質性分析與量化分析於一體
李璠(2017)的環境語篇之語料庫即是採用這種方式,以「環境汙染」、「霧 霾」等等關鍵詞去搜索,在特定時間內共收集 90 篇,共計 7920 字,以 UTF-8 保 存。建立標註代碼表、停用詞表及詞頻表等等,利用現有的工具自建語料庫(這 裡使用的是 AntConc3.2.1w)。結果發現,詞彙變形所產生的新義會產生幽默感,
如「為人民服霧」。當使用的語言加上語境達到不和諧的時候,即產生幽默的效 果,也印證了幽默理論中的「失諧論」。也因此可以說「幽默」有時可能會削弱 討論的嚴肅性或模糊方向,反觀也可能會更有效表達民眾訴求。
在第二章第二節的語料庫實際操作之應用,有提到學術演講的幽默分析,跟 其類似的研究還有以多媒體語料庫為本,分析學生的幽默對話。劉鋒、張京魚
(2015)也是採自建小型語料庫的方式,配合使用 ELAN 軟體(為一款跨平台的 多媒體轉寫標註軟體),收集課堂幽默話語(Humorous Student Discourse,簡稱
22
HSD),試圖了解學生幽默話語的使用情況,及是否與語言學習有關聯。收集語 料的過程用自然觀察法,主要以錄影為主,但除了錄影之外還會有訪談補充語料 內容。研究最後也證實了課堂上的幽默的確可以營造輕鬆的課堂環境,增加學習 者的學習興趣,不過因為樣本數小(只有 90 小時的影片)及對象限於小學生,
不禁讓人懷疑它的可信度。
幽默語料庫其實也是一個跨時間的歷時語料庫,例如中國已出現一個名叫
〈言語幽默漢英平行歷時語料庫〉,內含九千萬字/詞,建於 2013 年 3 月。此語 料的標註主要以兩個方式著手:篇頭資訊標註及篇體資訊標註,設好參數與定義 標註符號,為的是方便後續系統的排序、索引或優化。而不管什麼形式的資料庫,
都應該對原始語料進行清理,包括去除不必要的符號、多餘空格等,再用 UTF-8 編碼保存文本。隨著數位典藏的概念擴散,任何的時、地、物學者都欲永久保 存,因此歷時語料庫愈來愈受到重視(李廣偉、戈玲玲、劉朝暉,2016)。
二、幽默對話系統2
有了初步的幽默語料庫,就能做接下來的幽默對話系統。幽默對話系統起源 於聊天機器人(Chatbot),透過訓練語料庫的形式進行聊天的過程。Chatbot 系 統 發 源 於 麻 省 理 工 學 院 , 做 出 全 世 界 第 一 個 聊 天 機 器 人 , 並 稱 作 ELIZA (Weizenbaum, 1966)。隨後也有 PARRY、ALICE 等不同性質的聊天機器人出現,
且開始日漸擴展市場,發展迄今,這類的聊天系統已成為近幾年炙手可熱的話題 之一。議題延伸至幽默對話系統,最為大眾所知的應該就屬 iPhone 的內建系統 Siri 了。為提高使用者人數,許多系統如 Facebook 的 Messenger 或 LINE 等紛紛 效仿 Siri,加入制式的自動回覆以外有趣的回應來吸引大眾。
2 此部分內容大多參考曾元顯的《中文幽默對話系統之研發》計劃書
23
由於國內對幽默對話系統的研究才剛起步,還算不上成熟,所以用以下幾篇 國外的文獻整理出重點與分類,可分為文字對話系統及幽默的計算兩大類說明:
(一) 文字對話系統
所有的對話系統最初都由文字的形式做開發,主要使用下列三種方法去設計 對話內容:
1. 規則法:對話系統使用的規則有非常多種,舉例來說,聊天機器人 ALICE 採 用的人工智慧標註語言(Artificial Intelligence Markup Language,簡稱 AIML)
便是其中一種(Wallace, 2003)。可針對 AIML 知識庫人工處理後台對話,或是 從常見問題集(Frequently asked questions,簡稱 FAQ)找出常見問題,做自 動回覆的功能,如利茲大學計算機學院的 FAQchat 系統 (Shawar, Atwell, &
Roberts, 2005)。至今在網路可公開取得的 AIML 知識庫:英文有四萬多條問 答規則,簡體中文約有 1,715 條規則,尚未見繁體中文的版本(曾元顯,2017)。
2. 檢索法:即利用資訊檢索模式(Retrieval model),在大量對話語料中進行檢 索,將最符合問題答案的回傳給使用者,作為對話系統的回應 (Ji, Lu, & Li, 2014),本研究即是預期日後要支援這樣的檢索系統。
3. 序列對應生成法:深度學習法又分多種方式,有遞歸神經網路(RNN)、卷 積神經網路(convolutional neural networks,簡稱 CNN)以及長短期記憶(LSTM)
(Bacciu et al., 2016),而序列對應則常利用 RNN 與 LSTM。針對語料斷詞 部分重新訓練文字序列(Sequence to Sequence),也就是訓練出另一種文字 序列的人工神經網路來回應對話的問題(Li et al., 2016)。
下列整理出各方法優缺點的比較表 2-2:
24
表 2- 2 改自曾元顯《中文幽默對話系統之研發》頁 3-4
不同方法優缺點比較 優點 缺點
1. 規則法 ⚫ 系統初期建置快
⚫ 系統回應可預期、易解 釋
回應的領域範圍愈大,知 識庫整體成本(人力、時 間、經驗)愈高。
2. 檢索法 檢索技術與工具成熟 需大量且清理乾淨的對
話語料庫。
3. 序列對應生成法 可產生對話語料中沒出現 過的回應。
訓練資料不足時,容易產 生不一致或無意義的回 應。
(二) 幽默計算(Computational Humor)
多數學者試圖運用深度學習方法去計算幽默產生的一切,其中包括了幽默辨 識及幽默生成,幽默辨識又被認為比幽默生成的難度更高 (Zhang & Liu, 2014)。
以下分為幽默辨識、幽默生成以及幽默對話系統,底下再細分類別:
1. 幽默辨識法 (1) 以自動分類為主
對於一個大型的語料庫來說,是不適用以人工方式進行內容辨識的,因此,
非常需要依靠自動分類從旁協助。但幽默的分類就像幽默的效果一樣,幽默是否 達到效果有時因人而異,像德國學者參加英語體系的演講時常無法同其他英語系
25
國家的學者感受到一樣的笑點 (Reershemius, 2012),因幽默具有主觀性、地域性、
文化性、時事性以及語言差異等至少五種特性(曾元顯,2017)。
Mihalcea 與 Strapparava (2006)就將幽默辨識視為一個分類的任務,並蒐集正
Mihalcea 與 Strapparava (2006)就將幽默辨識視為一個分類的任務,並蒐集正