第二章 文獻探討
第四節 幽默語料與詮釋資料
承上一節,無論是語料庫或對話系統,都相當依賴語料數量的大小。本研究 統整上述幽默對話系統之文獻研究,並參考曾元顯(2017)對語料蒐集、使用的 分類器以及語料資源等項目的比較表 2-3,以觀察語料數量:
28
Gradient Boosted Regression Trees
(GBRT)
(Random Forest)
Word2Vec;
WordNet; Word Association; CMU pronunciation
Random Forest);
卷 積 神 經 網 路
(CNN)
Word2Vec;
WordNet;
Word Association;
CMU
pronunciation dictionary
29
論表格結果而言,四篇文獻中有三篇都有提到正負面範例的比較,代表在訓 練語料的過程中,必須有不同種類卻相似的文體去執行分類器訓練,才能達到比 較好的效果。而就語料數量來看,最少的落在 3,000 筆,至多上萬筆,考量到本 研究除了蒐集語料,還有編目、加工的時間等等,因此幽默語料庫的語料量也應 至少達 3,000 筆以上才有其意義,並蒐集自多個來源。
多種語料來源的情況下,必然會包括笑話書籍,然而使用是否涉及著作權問 題,其實著作權法第六十五條第二項僅針對「合理使用」提出四項原則,包括:
(1)利用之目的及性質,包括商業目的或非營利教育目的;(2)著作之性質;(3)所 利用之質量及其在整個著作所占之比例;(4)利用結果對著作潛在市場與現在價 值之影響等(章忠信,2003a),實際上並沒有訂定統一標準,法律上亦無規定 多少內容屬「在合理範圍內」,因此本研究除依循這幾項原則之下外,亦會以普 遍標示「使用內容不可超過三分之一」之規定進行蒐集資料及使用資料(章忠信,
2003b)。
確定完語料庫該有的數量後,接著是確定幽默語料庫資料該有的項目欄位,
此為本研究重點之一,先確立項目可幫助分析作業,倘若蒐集資料跟修改欄位一 併進行,可能將耗費雙倍人力、時間成本,徒勞無功。考慮到傳統資訊組織的詮 釋資料,或是國家發展委員會針對政府資料開放平台所訂定〈資料集詮釋資料標 準規範〉(附錄 3)等都不適用此語料庫後,最終決定以都柏林核心集(Dublin Core)的 15 個核心元素及其他詳細元素為詮釋資料依據。之所以選擇都柏林核 心集作為標竿,原因在於幽默語料庫的語料既不是純圖書文獻,也不為政府資料 的一種,它是大量的電子資源組成,而都柏林核心集即為一套專為描述網路電子 資源的詮釋資料格式(王梅玲,2011),於是擇其改之。都柏林核心集所有元素 共高達 55 項,包含 15 個核心元素及其修飾詞與另外的詳細元素,而所謂的「修 飾詞(Refinement)」,即指修飾核心元素的元素,可著錄更詳細、更完整的資 訊提供給使用者。
30
以下為都柏林核心集 15 個核心元素之項目簡介:
(1) 題名(Title):作品題名或名稱。
(2) 著者(Creator):作品的創作者或組織。
(3) 主題和關鍵詞(Subject):作品的主題和關鍵字(詞)。
(4) 簡述(Description):文件的摘要或影像資源的內容敘述 (5) 出版者(Publisher):負責發行作品的組織。
(6) 其他參與者(Contributor):除了著者外,對作品創作有貢獻的其他相關人士 或組織,如書中插圖的製作者。
(7) 出版日期(Date):作品公開發表的日期。
(8) 資源類型(Type):作品的類型或所屬抽象範疇,例如網頁、小說、詩、技 術報告、字典等。
(9) 資料格式(Format):資訊的實體形式或者是數位特徵,也用來告知檢索者在 使用此作品時,所須的電腦軟體和硬體設備。如果是電子檔案,建議使用 MIME 格式的表示法。
(10) 資源識別代號(Identifier):字串或號碼可用來唯一標示此作品,例如 URN、
URL、ISSN、ISBN 等。
(11) 來源(Source):資源的衍生來源(同內容範疇),例如同一作品的不同媒 體版本,或者是翻譯作品的來源等。
(12) 語言(Language):作品本身所使用的語言,建議遵循 RFC 1766 的規定。
(13) 關連(Relation):與其他作品(不同內容範疇)的關連,或所屬的系列和檔 案庫。
31
(14) 涵蓋時空(Coverage):作品所涵蓋的時期和地理區域。
(15) 版權規範(Rights):作品版權聲明和使用規範。
整合所有元素之關聯,整理出核心元素及其修飾詞的表 2-4 如下:
表 2- 4 都柏林核心集所有元素表
項目 都柏林核心集 修飾詞
(1) 題名(Title) 別名(Alternative)
(2) 著者(Creator)
(3) 主題和關鍵詞(Subject)
(4) 簡述(Description) 目次(Table of Contents)
摘要(Abstract)
(5) 出版者(Publisher)
(6) 其他參與者(Contributor)
(7) 出版日期(Date) 創作日期(Created)
有效日期(Valid)
可用日期(Available)
發行日期(Issued)
維護日期(Modified)
接受日期(Date Accepted)
取得著作權日期(Date Copyrighted)
提交日期(Date Submitted)
(8) 資源類型(Type)
(9) 資料格式(Format) 高廣度(Extent)
媒體(Medium)
(10) 資源識別代號(Identifier) 書目引用(Bibliographic Citation)
(11) 來源(Source)
(12) 語言(Language)
(續下頁)
32
(13) 關連(Relation) 版本繼承(Is Version Of)
版本關聯(Has Version)
被取代(Is Replaced By)
取代(Replaces)
被需要(Is Required By)
需要(Requires)
格式轉換為(Has Format)
遵照(Conforms To)
(14) 涵蓋時空(Coverage) 空間(Spatial)
時間(Temporal)
(15) 版權規範(Rights) 取用權(Access Rights)
授權條款(License)
其他詳細元素:
更新方法(Accrual Method)
更新週期(Accrual Periodicity)
更新政策(Accrual Policy)
適用對象(Audience)
教育水準(Education Level)
指導方法(Instructional Method)
仲介(Mediator)
保管歷史(Provenance)
權利持有者(Rights Holder)
在本研究中,仍著重在 15 個核心元素上,其他 40 項作輔,將其增修或刪 減,擬定出一套適用於幽默語料庫的詮釋資料格式,並在後續研究章節展現。
33