• 沒有找到結果。

幽默語料庫分析

在文檔中 幽默語料庫之建置 (頁 52-91)

第四章 幽默語料庫建置與分析

第五節 幽默語料庫分析

第一節 建置流程

本研究的建置流程分成前期、中期以及後期:前期為前置作業,事先訂定好 語料需要的欄位(共有 15 個欄位),將欄位填入 EXCEL 檔內,並開始蒐集語 料。每個笑話來源獨立一個工作表,主要來源為三大類:(1)笑話網站;(2)書籍;

(3)手機 APP 程式,又以第一類笑話網站為大宗,蒐集超過三千筆笑話,而所有 資料都彙整於幽默語料庫的 EXCEL 檔裡。

中期為語料整理的部分,主要為兩個步驟,一是語料清理,二是語料編目。

語料清理的目的是為留下相互獨立的笑話內容,舉凡笑話重複或是笑點一致的數 量佔語料庫比例太多時,會影響其價值與應用。而語料編目的目的是令每筆資料 都能有最完整的資訊,此步驟先以 Python 做部分分類,再進行人工分類。有鑑 於現有技術對幽默辨別仍尚未成熟,因此還是需要依靠人為判斷。研究中期結束,

也代表著第一輪分類的結束。

42

建置後期為保存作業,此階段最關鍵的步驟,在於「笑話主題」分類。有鑑 於一人分類會導致主觀性之疑慮,此時請兩個人來同時做主題分類,前提是主題 分類必須定義完整,兩人根據同一基準下才進行分類。當笑話分類一致時,就直 接儲存數據;而當笑話分類不一致時,此時再請第三人來分類那些不一致的笑話。

取多數決的分類為最終分類,但若三人主題分類都不同時,就會進行討論。當三 人達成共識時,共識的分類就為最終分類,再儲存於 EXCEL 檔。在建置中期的 時候,除主題分類以外,所有詮釋資料的內容都已處理完畢。一旦主題分類確定 之後,所有笑話就都編目完成,全部資料都會儲存至 EXCEL 檔,換言之,幽默 語料庫的初步建置告一段落。

建置流程如圖 4-1:

圖 4- 1 建置流程圖

43

第二節 語料蒐集

蒐集幽默語料庫的語料花費了約 8 週的時間,蒐集不同來源共 3,828 筆資料,

相似內容只取一個蒐集,並以 EXCEL 檔作統整。

第一步:確定幽默語料庫資料該有的項目欄位

先確立項目可幫助日後分析作業,倘若蒐集資料跟修改欄位一併進行,可能 將耗費雙倍人力、時間成本,徒勞無功。

此部分參考了都柏林核心集(Dublin Core)的十五個核心元素(已於第二章 第四節幽默語料與詮釋資料提及都柏林核心集項目的內容),再加以增修或刪減,

使其適用於幽默語料庫。

以下為修改後適用於幽默語料庫的項目說明:

(1) 流水號(Number):每則笑話都給予一個號碼,以方便日後查詢。

(2) 來源篇名(Source title):笑話的標題或命名。

(3) 替代篇名(Alternative title):為笑話內容前十字,目的在於若笑話原本沒附 有標題或標題不適合笑話內容,便可使用此篇名。

(4) 分享者(Sharer):笑話通常分享、轉述多次,作者已不可考。

(5) 作者(Creator):笑話的創作者,或是將文字畫成插圖的圖文作家。

(6) 內容(Text content):笑話的內容,要完整詳細不可簡述。

(7) 公開日期(Public date):笑話公開發表的日期。

44

(8) 蒐集日期(Collection date):笑話蒐集並收錄資料庫的日期。

(9) 來源主題(Source subject):笑話的主題或種類(可能會有兩個主題以上)。

(10) 笑話主題(Subject):分類編目後給定的主題。

(11) 長度(Length):根據內容長短分為短、中、長笑話。

(12) 語言(Language):笑話所使用的語言,分為純中文、臺語、純英文及中英 混合。

(13) 資源類型(Type):笑話所屬的媒介,如書籍、網頁、人際互動等。

(14) 資源識別代號(Identifier):如果是書籍,此欄為 ISBN;如果是網路,

則為 URL。

(15) 人氣數(Popularity):不同管道有不同的人氣呈現,如臉書的按讚數、

PTT 的留言數等。若有相關數字就入此欄,若沒有則空白不記錄。

45

根據兩者內容,比較項目的相異之處如表 4-1:

表 4- 1 Dublin Core 與幽默語料庫元素比較表

項目 都柏林核心集 幽默語料庫

(1) 題名(Title) 來源篇名(Source title)

替代篇名(Alternative title)

(2) 著者(Creator) 作者(Creator)

(3) 主題和關鍵詞(Subject) 來源主題(Source subject)

笑話主題(Subject)

(4) 簡述(Description) 內容(Text content)

(5) 出版者(Publisher) 刪除

(6) 其他參與者(Contributor) 分享者(Sharer)

(7) 出版日期(Date) 公開日期(Public date)

蒐集日期(Collection date)

(8) 資源類型(Type) 資源類型(Type)

(9) 資料格式(Format) 刪除

(10) 資源識別代號(Identifier) 資源識別代號(Identifier)

(11) 來源(Source) 刪除

(12) 語言(Language) 語言(Language)

(13) 關連(Relation) 刪除 (14) 涵蓋時空(Coverage) 刪除 (15) 版權規範(Rights) 刪除

新增:

流水號(Number)、長度(Length)、 人氣數(Popularity)

46

其中在都柏林核心元素之「出版日期」中,有修飾詞「創作日期」、「有效 日期」、「可用日期」、「發行日期」、「維護日期」、「接受日期」、「取得 著作權日期」及「提交日期」共八項。而在幽默語料庫之日期部分分為「公開日 期」及「蒐集日期」,「公開日期」即相當於「提交日期」,「蒐集日期」則相 當於「接受日期」。

再根據蒐集內容,區分必要欄位與可選欄位如表 4-2:

表 4- 2 幽默語料庫之必要/可選欄位比較表

必要欄位 可選欄位

(6)內容 (8)蒐集日期 (13)資源類型 (14)資源識別代號

(2)來源篇名 (4)分享者 (5)作者 (7)公開日期 (9)來源主題 (15)人氣數

必要欄位指在蒐集過程中一定要填入的內容,可選欄位則指內容可空白。至 於流水號、替代篇名、笑話主題、長度及語言,則會在下一節語料編目再詳細說 明處理方式。

第二步:蒐集至少 30 個來源的笑話資料

項目確定後,便是開始蒐集的工作。找笑話其實不難,光是下關鍵字「笑話」, 搜尋結果就不勝枚舉,某些網站甚至都能超過千筆,或上至萬筆。因此,找不同 來源的笑話,此資料庫才有意義。

47 3. 笑話精選集 http://win1209.ta

cocity.com.tw/jok

4. 笑話集中營 http://www.kingn et.com.tw/joke/#

網友發表 有評分機制 數量未明;

每則笑話沒有 對應的 URL 5. 小蕃薯 http://kids.yam.c

om/joke/

7. Dcard https://www.dcar d.tw/f

48 11. Facebook https://www.face

book.com/

12. Instagram https://www.insta gram.com/

來自網路 按愛心數量 圖文創作者居 多;

數量未明 13. Youtube https://www.yout

ube.com/

16. 隨意窩 http://blog.xuite.

net/

49 19. 每日頭條 https://kknews.cc

/

24. 笑話集錦 http://itchen.class .kmu.edu.tw/Joke.

50

表 4- 4 笑話來源清單─笑話書籍

書名 ISBN 出版日期 備註

1. 歐美幽默笑話 9573605724 1998 年 7 月 上百則笑話;

無分類、無目錄 2. 幽默宅急便 9575299639 2001 年 4 月 約兩百則笑話 3. 保證有笑〈火辣版〉 9572036068 2001 年 5 月 黃色笑話為主;

有分類

4. 幽默好有魅力 9576077729 2002 年 4 月 內文穿插笑話;

數量未明 5. 網路哈哈大笑話-趣

聞軼事篇

9574807460 2002 年 4 月 上百則笑話

6. 網路哈哈大笑話-三 鮮笑湯

9574808688 2002 年 10 月 上百則笑話

7. 誰會比我糗? 9575744195 2002 年 10 月 兒童書;

110 個糗事分享 8. 幽默,酷一點也好 9867715071 2003 年 7 月 內文穿插笑話;

數量未明

9. 幽默‧諷刺‧笑話 9868153115 2005 年 10 月 有 461 則笑話;

有分類、無目錄 10. 幽默的力量 9789869444873 2017 年 7 月 沒有版權頁;

內文穿插笑話;

數量未明 11. 幽默開懷文選 9576003482 無 沒有版權頁;

多則笑話構成

51

表 4- 5 笑話來源清單─笑話 APP

APP 名稱 備註

1. 笑話集 有 13,436 則笑話;

可跳頁、收藏、分享

2. 老笑話 有 3,900 則笑話;

可隨機、搜尋、收藏夾之功能;

能調整字體大小 3. 笑話連篇之笑死朕 目前有 529 則笑話;

不定時更新笑話則數;

可跳頁、收藏、分享;

能調整字體大小

超過 30 個來源主要分成三類:(1)網站(2)書籍(3)手機應用程式,其中書本與 應用程式的笑話需依靠光學字元識別(Optical Character Recognition, 簡稱 OCR)

的技術,把圖片轉文字再收進資料庫中。圖片文字識別軟體主要採用兩種免費方 式:One Note 與 Google Drive。

方法一:One Note

1. 介紹:一種數位筆記本,可存放待辦事項清單、演講和會議記錄、或任何想 整理或記住的事項。儲存使用者輸入或匆匆記下的筆記,或拍下的圖片快照。

2. 步驟:

(1) 開啟 One Note ,將圖片插入筆記本。

(2) 對其圖片按右鍵,選擇「複製圖片的文字」

(3) 此時文字已在剪貼簿,在任何文件上按右鍵選擇「貼上」即可。

52

方法二:Google Drive

1. 介紹;雲端硬碟提供每人 15 GB 的免費 Google 線上儲存空間,可儲存相片、

記事、設計、繪圖、影音紀錄等各種內容。但其實,Google 的雲端硬碟也有 文字辨識的功能。

2. 步驟:

(1) 上傳掃描圖檔。

(2) 對欲辨識文字的圖檔按右鍵,選擇開啟工具,再點選 Google 文件。

(3) 此時辨識工作已開始,需等待幾秒的時間。

(4) 在新建的 Google 文件內即可看到文字。

下列各舉一個橫書與直書的文字例子來比較兩者的辨識效果。

1. 橫式書寫:以某個笑話 APP 其中一則笑話截圖為例。

圖 4- 2 笑話 APP 裡的一則笑話

(1) One Note:

1964.天天想

53

小王整天悶悶不樂,朋友問他是否失戀了,他說:

「沒的事,只是我天天想著怎樣才能和她在-起,

而她天天想著怎樣才能不和我在-起。」

(2) Google Drive:

1964. 天天想 小王整天悶悶不樂,朋友問他是否失戀了,他說: 「沒的事, 只是我天天想著怎樣才能和她在一起, 而她天天想著怎樣才能不和我在一 起。」

2. 直式書寫:以「歐美幽默笑話」一書中的一頁內文為例。

圖 4- 3 歐美幽默笑話的內文

54

(1) One Note

徵。一位滿面暗瘡的同學寫道:「一波未平,一波又起。」

上作文課時,老師請每位學生用最簡單的語句來形容自己的特

大學生:「難怪我考試總不及格。」

教授:「一個傻瓜提的問題,十個聰明人也回答不了。」

他得了優等。

哲學試題中有一題是:「如果這是問題,請回答。」

一個學生簡潔地寫道:「如果這是答案,請評分。」

*特徵

*對話

*考試

(2) Google Drive

* 考 試

55

哲學試題中有一題是:「如果這是問題,請回答。」

一個學生簡潔地寫道:「如果這是答案,請評分。」 他得了優等。

*對話

教授:「一個傻瓜提的問題,十個聰明人也回答不了。」 大學生:「難怪我 考試總不及格。」

※特徵

上作文課時,老師請每位學生用最簡單的語句來形容自己的特 徵。一位滿 面暗瘡的同學寫道:「一波未平,一波又起。」

上述兩者比較發現,在橫書文字方面,兩者的效果大同小異,大致都能辨識 出原圖片的文字。但在直書文字上,One Note 與 Google Drive 的辨識開始出現分 歧,One Note 會出現語句順序紊亂的問題,雖然一樣可辨識出幾乎完整的內容,

但在 Google Drive 的文字辨識上,語句順序的正確度比起前者高出許多,甚至完 全正確。總論上述,整理出統整表格 4-6 如下:

但在 Google Drive 的文字辨識上,語句順序的正確度比起前者高出許多,甚至完 全正確。總論上述,整理出統整表格 4-6 如下:

在文檔中 幽默語料庫之建置 (頁 52-91)

相關文件