• 沒有找到結果。

後續研究

在文檔中 幽默語料庫之建置 (頁 93-112)

第五章 結論與後續研究

第二節 後續研究

目前幽默語料庫雖然有 15 個欄位,但仍稍嫌不足,為增加其完整性,應再 設計更多加值欄位。另外,此語料庫目的為盡可能收納全部笑話的語料庫,也就 是會隨時間逐漸擴大語料量,對於後續語料的擴充抑或是幫助聊天機器人的發展 等,進一步對語料庫進行修訂、編目,補充更多數據,希冀對各方面如笑話辨識、

笑話生成等難題實以解決之道。

一、加值欄位的應用

為未來幽默語料庫能發揮其最大實用價值,預期的加值欄位主要有四個:(1) 誘發笑話的原因;(2)負例;(3)人物;(4)幽默程度。以下分別詳述之:

83

(一) 誘發笑話的原因

笑話中的語言特徵,如押韻、反義詞、俚語等。像是在「中文笑話語料庫」

按笑話產生原因分為 8 類:(1)諧音笑話;(2)諧義笑話;(3)類比笑話;(4)委婉笑 話;(5)反語笑話;(6)諷刺笑話;(7)誇張笑話;(8)反轉笑話(任璐等人,2018)。

但依據任紹偉(2004)所提出的笑話構成原理其實高達五類 74 種原因:

1. 語音篇:同形同音、異形同音、多音字、諧音、語音停頓等等。

2. 文字篇:念錯字、符號代替文字、漢字筆畫、寫錯字、濫造字等等。

3. 詞句篇:曲解詞意、方言詞、誤解外文詞、多義詞、顛倒詞序/語序、歧異句等 等。

4. 修辭篇:語意雙關、誇張、比喻、反語、擬人、標點修辭、褒詞貶用等等。

5. 邏輯篇;概念內涵與外延的相互關係、混淆概念、誤解概念間的交叉關係、違 反定義規則、巧用同一律、預設、換位法、歸謬法、顛倒因果、違反矛盾律等 等。

幽默語料庫若能有此欄位,即可在大量文字數據裡辨識笑話、有哪些,進而 取出笑話。

(二) 負例

所謂的「負例」,指的是負面範例,因想測試的內容不同而不同,在這裡特 指為了與笑話區別而事先找好的短文範例,笑話為正例,其他同笑話長度的短文 則為負例。擁有此欄位可訓練分類器去辨別不同文章類型,熟悉「笑話」後,就 能提升幽默辨識技術。一旦幽默辨識技術較成熟,發展幽默生成也會相形成長。

84

85

(四) 幽默程度

據「中文笑話語料庫」中,依據幽默程度分為 1、3、5 三種程度,1 為最低 的好笑程度,5 為最高的好笑程度。由於每個人的笑點不同,幽默程度可能會有 差異,此欄位的數值高低也可能有偏頗,但若有此欄位對幽默檢索等相關研究來 說能有一定的幫助。「幽默程度」對照幽默語料庫的欄位,就很像是「人氣數」,

以下是依照人氣數的內容所統整的格式,總共有 12 種格式:

1. 笑話評價:(票數,平均分數) 2. 人氣數

3. (愛心) 喜歡數 4. 回覆數/人氣數 5. 回覆篇數/瀏覽人次 6. 按讚數

7. 讚數

8. 觀看次數/按讚數 9. 人氣數

10. 爆紅溫度 11. 查看人數 12. 人氣數/回應數

86

可再大致區分成 5 種計算方式:

1. 笑話評價 2. 人氣 3. 喜歡/讚數 4. 觀看次數 5. 回應

只是目前的人氣數是部分笑話才有此欄位的內容,尚未統一評分格式,待未 來收錄有評分的笑話數量達到七成(現有笑話僅有三成),再統一評分機制,令 每個笑話都可以有幽默程度的區別,例如把上述格式簡化、濃縮成「讚數」與「觀 看次數」。

如果說現有欄位的目的,是為了公開使用而應有的編目欄位,為幽默語料庫 的最低價值;那加值欄位的目的,就是為了那些欲利用此語料庫做幽默生成或幽 默辨識技術的學者而應有的欄位,為幽默語料庫預期的最大價值。

二、其他方面研究

(一) 笑話語料的擴充

雖然幽默語料庫已有 3,691 則笑話,已是有小型規模的語料庫,但距離預期 上萬筆資料仍相差甚遠。根據任璐等人(2018)在〈中文笑話語料庫的構建與應 用〉一文中提到,擴充笑話語料應是為了有以下作用:

87

1. 能運用使用者所提供的關鍵詞做直接的搜尋,找出對應之笑話。

2. 如果無法達成第一點,如無精確匹配的笑話,會再根據關鍵字與題名、分類,

或人事物等依序進行相似度分析。

若無足夠龐大的資料量,使用者在使用此語料庫時必定處處碰壁,也就無法 發揮幽默語料庫的最大價值,因此,持續擴充語料為此語料庫實踐過程的重點之 一。

(二) 笑話與負範例之辨識系統

若要做出一個笑話自動檢索系統,必須先讓系統能在眾多文體體裁中辦認出

「笑話」,此時負範例即擔任舉足輕重的角色。好的負例可訓練分類器,經過不 斷的訓練,幽默辦認的成效也會愈高。當分類器成熟後,就能自動找出笑話,進 而較為省時省力的增加笑話語料。

(三) 幽默識別與幽默生成

在前面第二章第三節的幽默對話系統中也有提到,有初步的幽默語料庫,才 能做接下來的幽默對話系統。若能創建一個語料量龐大的幽默語料庫,利用幽默 辨識法分類每則笑話,再利用幽默生成法產生新的有趣內容,結合對話系統的架 構,定能幫助幽默語料檢索系統的發展。

根據任璐等人(2018)對中文笑話語料庫的應用之觀點來說,針對笑話識別 的部分認為:可利用其進行深度學習的模型,將特徵加到模型中,計算判斷是否 為笑話;而針對笑話生成的部分則認為:可參照部分學者的幽默生成框架,結合 其語料庫特點,達到笑話生成。

88

然而,以目前的建置過程來看,仍相當依靠人工作業,但對於一個大型的語 料庫來說,並不適用人工的方式進行內容辨識的。因此,當幽默語料庫擴大成大 型語料庫之時,便非常需要依靠自動分類從旁協助。另外,加值欄位如誘發笑話 的原因、正負例來源比較、人物,以及幽默程度的評分等也是未來開發的重點,

這些欄位都是能替幽默語料庫「增值」,正因如此,未來它們的存在也是勢在必 行。

總論以上,本研究的幽默語料庫內容主要為正體中文,不同於中國以簡體中 文為主的「中文笑話語料庫」,訴求是以符合我國國情所創置的資料庫,可用來 助長資訊檢索系統、聊天機器人,或幽默辨識、幽默生成之技術發展,其背後的 數據集即可利用幽默語料庫。依據不同使用者需求的檢索系統提供資料量,再透 過時間一點一滴累積語料量,形成大型的語料庫可對爾後相關技術研究貢獻一份 心力,讓機器學習的發展更加成熟。

89

參考文獻

FunHacks ( 2016 ) 。 Python 正 則 表 達 式 re 模 塊 。 取 自 http://funhacks.net/2016/12/27/regular_expression/

JeanCheng ( 2015 ) 。 Python 正 则 表 達 式 匹 配 中 文 。 取 自 https://blog.csdn.net/gatieme/article/details/43235791

Tommy Huang(2018)。機器學習應用-「垃圾訊息偵測」與「TF-IDF 介紹」(含 範例程式)。取自 https://medium.com/@chih.sheng.huang821/機器學習應用-垃 圾訊息偵測-與-tf-idf 介紹-含範例程式-2cddc7f7b2c5

Vincent ( 2009 ) 。 使 用 MS Office OneNote 辦 識 圖 片 中 的 文 字 。 取 自 http://isvincent.pixnet.net/blog/post/30094176-%E4%BD%BF%E7%94%A8ms-

office-onenote%E8%BE%A6%E8%AD%98%E5%9C%96%E7%89%87%E4%B8%A D%E7%9A%84%E6%96%87%E5%AD%97。

上海圖書館(2006)。DCMI 元數據術語。取自 http://dc.library.sh.cn/dcmi-terms.htm

中 文 信 息 學 報 ( 2018 ) 。 期 刊 简 介 。 取 自 http://jcip.cipsc.org.cn/CN/column/column22.shtml

中 央 研 究 院 ( 1997 ) 。 中 央 研 究 院 中 英 雙 語 知 識 本 體 詞 網 。 取 自 http://bow.ling.sinica.edu.tw/intro/

中央研究院(1997)。古漢語語料庫。取自 http://hanji.sinica.edu.tw/

中 央 研 究 院 語 言 學 研 究 所 。 中 文 詞 彙 特 性 速 描 系 統 簡 介 。 取 自 http://wordsketch.ling.sinica.edu.tw/

90

中 央 研 究 院 歷 史 語 言 研 究 所 ( 1984 ) 。 漢 籍 全 文 資 料 庫 。 取 自 http://hanchi.ihp.sinica.edu.tw/ihp/hanji.htm

中 華 民 國 計 算 語 言 學 學 會 。 中 文 廣 播 新 聞 語 料 庫 。 取 自 http://www.aclclp.org.tw/use_mat_c.php#cospro

中 華 民 國 計 算 語 言 學 學 會 。 台 灣 口 音 英 語 語 料 庫 。 取 自 http://www.aclclp.org.tw/use_mat_c.php#cospro

中 華 民 國 計 算 語 言 學 學 會 。 國 語 語 音 資 料 庫 。 取 自 http://www.aclclp.org.tw/use_mat_c.php

尤雅姿(1996)。《世說新語》所表現之幽默現象及其意義之探究-從美學的觀 點出發。文史學報,26,49-70。

王勻芊(2016)。口語語料庫之建置典藏與應用:以臺灣客語口語語料庫為例 (碩 士論文)。國立政治大學,臺北市。

王 梅 玲 ( 1995 ) 。 主 題 分 析 Subject Analysis 【 線 上 辭 典 】 。 取 自 http://terms.naer.edu.tw/detail/1683115/

王 梅 玲 ( 2011 ) 。 都 柏 林 核 心 集 (Dublin Core) 。 取 自 http://techserviceslibrary.blogspot.tw/2011/04/dublin-core.html

台灣語言學學會(2015)。【政大客語口語語料庫】 近期更新!歡迎使用!取 自 http://linguist.tw/zh-tw/news/67/

任紹偉(2004)。幽默笑話語言學。中國:吉林人民出版社。

任璐、楊亮、徐琳宏、樊小超、刁宇峰、林鴻飛(2018)。中文笑話語料庫的構 建與應用。中文信息學報,32(7),20-29。

91

光 華 畫 報 雜 誌 社 ( 2005 ) 。 光 華 雜 誌 中 英 對 照 知 識 庫 。 取 自 http://edba.ncl.edu.tw/sinorama/intro.htm

李佩瑛等人(2010)。語料庫建置入門數位化工作流程指南。臺北:數位典藏拓 展臺灣數位典藏計畫。

李廣偉、戈玲玲、劉朝暉(2016)。言語幽默漢英平行歷時語料庫及其檢索系統 的構建與應用。外語電化教學,172,60-65。

李璠(2017)。基于自建語料庫對環境幽默語篇的多維度分析。環球市場信息導 報,21,102-106。

岳曉東(2012)。幽默心理學:思考與研究。香港:香港城市大學。

岳曉東、郝霞、Goldman, G.(2010)。幽默風格、樂觀人格與心理健康—— 800 名香港和內地大學生的調查與思考。教育研究學報,25(1),125-157。

林武聰(2003)。線上英語學習環境(碩士論文)。國立雲林科技大學,雲林縣。

林郁翔(2008)。為何使用資料庫儲存資料時,需要先執行正規化?取自 https://www.ithome.com.tw/node/47440

林淑貞(2006)。作者、歷史與「寓莊於諧」──明清「笑話寓言」創作意圖析 探。興大中文學報,18,73-122。

國家教育研究院(2016)。105.08.12 國教院華語文語料庫查詢工具及基礎技巧

簡 介 【 Youtube 影 音 資 料 】 。 取 自

https://www.youtube.com/watch?v=LuF7WBeOHrU

國 家 教 育 研 究 院 。 國 家 教 育 研 究 院 電 子 報 ( 第 167 期 ) 。 取 自 https://epaper.naer.edu.tw/index.php?edm_no=167&content_no=2952

92

國 家 教 育 研 究 院 。 國 家 教 育 研 究 院 電 子 報 ( 第 38 期 ) 。 取 自 https://epaper.naer.edu.tw/index.php?edm_no=38&content_no=1040

國 家 教 育 研 究 院 。 國 家 教 育 研 究 院 電 子 報 ( 第 49 期 ) 。 取 自 https://epaper.naer.edu.tw/index.php?edm_no=49&content_no=1368

國 家 發 展 委 員 會 ( 2015 ) 。 資 料 集 詮 釋 資 料 標 準 規 範 。 取 自 http://file.data.gov.tw/opendatafile/資料集詮釋資料標準規範.pdf

崔懷芝(2007)。量表信度的測量:kappa 統計量之簡介。生統 E 報,11。

章忠信(2003a)。我怎知如何才是「合理使用」的合理範圍?著作權筆記。取自 http://www.copyrightnote.org/ArticleContent.aspx?ID=3&aid=563

章 忠 信 ( 2003b ) 。 印 書 籍 時 不 可 超 過 三 分 之 一 ? 著 作 權 筆 記 。 取 自

章 忠 信 ( 2003b ) 。 印 書 籍 時 不 可 超 過 三 分 之 一 ? 著 作 權 筆 記 。 取 自

在文檔中 幽默語料庫之建置 (頁 93-112)

相關文件