• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

89

4.4 小結

第 4 章比較了分類模型間的分類成功率,並找出類別間詞組差異及類別的獨特性 表現,最後建立新的語言特徵,過程中也利用一般常用語言特徵作為輔助比較。4.1 節為分類模型間的差異,利用 OOB 錯誤率對多類別與雙類別模型作分類效果評估,

並觀察不同研究方向、不同類別及不同語言特徵下雙類別模型的表現。4.2 節則解 決前一節類別間差異為何的疑問,找出不同研究方向下各類別間差異的重要特徵 詞組及能代表類別特色的獨特性詞組。4.3 節彙整了 4.2 節重要特徵詞組中分類權 重較高的詞組,以改善在 4.1 節的多類別模型分類效能,詳細結論如下:

1. 本論文建立的隨機森林分類模型,以所有類別為目標的多類別模型分類 效果不佳,但在結合經過篩選的重要特徵詞組後有明顯改善。

2. 雙類別模型雖然在情境性語言特徵表現比一般常用語言特徵差,但不影 響後續尋找類別間的差異性及類別的獨特性詞組的有效性。

3. 雷震因為身為《自由中國》社論修訂者,使得與其他作者間分類效果最差,

而非社論內龍平甫與朱伴耘分類表現最好。

4. 「同主題不同作者」作者間語言特徵以名詞+動詞組合、程度詞組合及形 容詞+名詞組合分類最差,而副詞+動詞組合及名詞+名詞組合分類最好。

5. 「同作者不同類型」日記分類表現遠佳於社論與文章,在折線圖中呈現水 平線,且也較「同主題不同作者」OOB 錯誤率還低。

6. 重要特徵詞組能找出類別間的差別在哪,而獨特性詞組則能找出類別相 對於其他類別的獨特表現,並搭配原始文本內的句子做比對。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

90

第 5 章 結論與未來展望

大多數對於的作者歸屬研究主要以文本分類為主,藉由機器學習的輔助下,找出該 文本作者為誰,如果要深入找出文本間的差異點,則需藉由人工統計及專家輔助的 方式才能有效尋找。本研究利用隨機森林內的決策點分類概念,聯想是否能作為不 同類別間區別的要素,並捨棄掉容易分類,改以情境性為主的語言特徵作為根基,

找出類別間的獨特性詞組,最後研究結果也找出了不少有別於其他類別的特徵。本 研究介於機器學習與人工統計之間,將重心放在類別間該「如何區別」而非「如何 辨識」上,最後也藉由回頭觀察原始文本篩選出的獨特性詞組。

本研究提出的語言特徵,是希望在一定規則下找出情境性,而非完全仰賴學者 提出的固定組合,並試圖因應不同作者、不同類型的文本。分類演算法選擇隨機森 林原因有 2 個:分類過程容易觀測、及可無需測試資料直接評估模型,當然分類上 較其他演算法優秀也是主要原因之一。有了各棵樹決策點上語言特徵的詞組,就能 計算重要特徵數值,進一步找出獨特性詞組;利用 OOB 錯誤率,可以在模型訓練 時直接使用各類別完整資料,模型間比較上也較為準確且方便。

研究過程中情境性語言特徵與常用語言特徵相比,分類效果雖非完美,但卻在 詞組上包含了情境解釋性,藉由捨棄部分分類效果而達到替類別間的差異詞組提 供更多額外資訊。最後結合了分類效果較佳詞組作為新的語言特徵,比起單一情境 性語言特徵分類效果更好,達到既具有分類效果又能從差異性詞組得到更多資訊 的語言特徵。在重要特徵詞組與獨特性詞組結果中,可以看出一般常用語言特徵數 目較少,而情境性語言特徵數量較多,代表著常用及共同主題性的詞組會在篩選過 程中被淘汰,而類別的差異性詞組則有效的被突顯出來,觀察原始文章的例句後更 能理解該詞組對於該類別代表的含意。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

91

情境性語言特徵的選擇上是利用建立的規則篩選出本論文想要的語言特徵,

規則雖然參考了各類學者的研究,但可能還有些雜訊需要進一步方式做去除。反之,

也可以加入新的語言特徵增加分類效果及觀察,最後結合的語言特徵分類效果可 能也會更好。本論文在研究的方向為《自由中國》的「同主題不同作者」及雷震所 有文本的「同作者不同類型」2 類,而雷震的日記內又分成 3 個時間段,這使得原 本私領域的日記又多了「同類型不同時間」新的研究方向。當雷震身處在不同時間、

不同環境時,是不是文本也會反映出各時間段的獨特性詞組呢?另外,隨機森林在 本研究僅觀察決策點上的分類詞組,但就如同決策樹般有著從根到葉的規則路徑,

可以藉由關聯規則找出各類別在文本分類的規則及詞組間是否有著因果關係,這 些將會留到未來去研究。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

92

References

[1] 杜協昌,〈利用文本採礦探討《紅樓夢》的後四十回作者爭議〉,2012 數位典 藏與數位人文國際研討會,頁 135-162,國立台灣大學,2012。

[2] A. Abbasi, and H. Chen, “Writeprints: A Stylometric Approach to Identity-Level Identification and Similarity Detection in Cyberspace,” ACM Transactions on Information Systems, vol. 26, no. 2, pp. 1-29, Mar. 2008.

[3] J. Wang, “A critical discourse analysis of Barack Obama’s speeches,” Journal of Language Teaching and Research, vol. 1, no. 3, pp.254-261,May 2010.

[4] 薛化元,《自由中國與民主憲政:1950 年代台灣思想史的一個考察》,臺北縣 板橋市:稻鄉出版社,頁 1-11,1996。

[5] M. Koppel, J. Schler, and S. Argamon, “Authorship Attribution: What's Easy and What's Hard?” Journal of Law & Policy, vol. 21, no. 2, pp. 317-331, Jun. 2013.

[6] M. Koppel, J. Schler, and S. Argamon, “Authorship attribution in the wild,”

Language Resources and Evaluation, vol. 45, no. 1, pp. 83-94, Mar. 2011.

[7] N. Zechner, “The past, present and future of text classification,” in 2013 European Intelligence and Security Informatics Conference. EISIC’13, Aug. 2013, pp. 230-230.

[8] 郉義田,〈居延漢簡資料庫的建立與展望〉,2015 數位典藏與數位人文國際研 討會,頁 1-7,國立台灣大學,2015。

[9] 胡適,《中國章回小說考證》,天津市:南開大學出版社,頁 187-328,2014。

[10] E. Stamatatos, “A survey of modern authorship attribution methods,” Journal of the American Society for information Science and Technology, vol. 60, no. 3, pp. 538-556, Mar. 2009.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

93

[11] M. Koppel and Y. Winter, “Determining if two documents are written by the same author,” Journal of the Association for Information Science and Technology, vol. 65, no. 1, pp. 178-187, Jan. 2014.

[12] V. G. Ashok, S. Feng, and Y. Choi, “Success with style: Using writing style to predict the success of novels,” in Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, Oct. 2013, pp. 1753–1764.

[13] S. Bird and E. Loper, “NLTK: the natural language toolkit,” Proceedings of the ACL-02 Workshop on Effective tools and methodologies for teaching natural language processing and computational linguistics-Volume 1, Association for Computational Linguistics, pp. 63-70, 2002.

[14] B. Yu, “Function words for Chinese authorship attribution,” Proceedings of the NAACL-HLT 2012 Workshop on Computational Linguistics for Literature, Association for Computational Linguistics, pp. 45-53, 2012.

[15] A. Rocha, et al., “Authorship Attribution for Social Media Forensics,” IEEE Transactions on Information Forensics and Security, vol. 12, no. 1, pp. 5-33, Jan.

2017.

[16] L. Breiman, “Random forests,” Machine learning, vol. 45, no. 1, pp. 5-32, Oct. 2001.

[17] T. M. Oshiro, P. S. Perez, and J. A. Baranauskas, “How many trees in a random forest? ” in Machine Learning and Data Mining in Pattern Recognition, Jul. 2012, pp. 154-168.

[18] L. Breiman, “Bagging predictors,” Machine learning, vol. 24, no. 2, pp. 123-140, Aug. 1996.

[19] A. Caliskan-Islam, Stylometric Fingerprints and Privacy Behavior in Textual Data.

Drexel University, pp. 81-85, 2015.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

94

[20] M. L. Pacheco, K. Fernandes, and A. Porco, “Random forest with increased generalization: A universal background approach for authorship verification,” in Conference and Labs of the Evaluation Forum, 2015.

[21] M. Popescu and C. Grozea, “Kernel methods and string kernels for authorship analysis,” in Conference and Labs of the Evaluation Forum, 2012.

[22] L. Marujo, et al., “Textual Event Detection using Fuzzy Fingerprints,” in Intelligent Systems’2014, Springer International Publishing, pp.825-836, 2015.

[23] T. R. Reddy, B. V. Vardhan, and P. V. Reddy, “A Survey on Authorship Profiling Techniques,” International Journal of Applied Engineering Research, vol. 11, no. 5, pp. 3092-3102, 2016.

[24] M. Kuta, B. Puto, and J. Kitowski, “Authorship Attribution of Polish Newspaper Articles,” in Artificial Intelligence and Soft Computing, Springer International Publishing, 29 May 2016, pp. 474-483.

[25] A. Palomino-Garibay, et al., “A Random Forest Approach for Authorship Profiling,”

in Conference and Labs of the Evaluation Forum, 2015.

[26] P. Galán-García, et al., “Supervised Machine Learning for the Detection of Troll Proles in Twitter Social Network: Application to a Real Case of Cyberbullying,”

Logic Journal of the IGPL, vol. 24, no. 1, pp. 42–53, Feb. 2016.

[27] 孙雪、韩蕾、李昆仑,〈基于类别特征选择与反馈学习随机森林算法的邮件过 滤系统研究〉,计算机应用与软件,第 32 卷,第 4 期,頁 67-71,2015。

[28] P. Maitra, S. Ghosh, and D. Das, “Authorship Verification – An Approach based on Random Forest,” in Conference and Labs of the Evaluation Forum, 2015.

[29] 任函、冯文贺、刘茂福等,〈基于语言现象的文本蕴涵识别〉,中文信息学报,

第 31 卷,第 1 期,頁 184-191,2017。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

95

[30] 孟雪井、孟祥兰、胡杨洋,〈基于文本挖掘和百度指数的投资者情绪指数研究〉, 宏观经济研究,第 1 期,頁 144-153,2016。

[31] 周强、俞士汶,〈汉语短语标注标记集的确定〉,中文信息学报,第 10 卷,第 4 期,頁 1-11,1996。

[32] 丁声树,《现代汉语语法讲话》,北京:商务印书馆,頁 180,1961。

[33] 呂叔湘、朱德熙,《語法研究和探索》,北京:北京大學出版社,頁 85,1983。

[34] 劉月華、故韡、潘文娛,《實用現代漢語語法》,臺北市:師大書苑出版,頁 124,

1996。

[35] 李泉,《汉语语法考察与分析》,北京市:北京語言文化大學,頁 71,2001。

[36] 张谊生,《现代汉语副词分析》,上海市:上海三聯書店,頁 6,2010。

[37] 謝佳玲,〈漢語情態詞的語意界定:語料庫為本的研究〉,中國語文研究,第 1 期,頁 45-63,2006。

[38] 张华伟、王明文、甘丽新,〈基于随机森林的文本分类模型研究〉,山东大学学 报 (理学版),第 41 卷,第 3 期,頁 139-143,2006。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

106

不(D)願意(VK),可(D)知(VK),不(D)舒服(VH),不能(D)睡(VA), 甚(Dfa)眾(VH),續(D)寫(VC),一(D)談(VE),只(Da)寫(VC),

再(D)說(VE),不(D)悉(VK),多(D)寫(VC),不(D)問(VE), 所(D)云(VE),不(D)做(VC),不(D)出(VC),不(D)懂(VK), 最(Dfa)高(VH),去(D)做(VC),不(D)信任(VJ),可(D)說(VE), 不(D)著(VC),十分(Dfa)起床(VA),不(D)高興(VK),已(D)到(VCL),

所(D)寫(VC),最(Dfa)大(VH),很(Dfa)冷(VH),未(D)見(VE), 很(Dfa)熱(VHC),未(D)遇(VK),也(D)沒有(VJ),不(D)給(VD),

去(D)找(VC),要(D)使(VL),甚(Dfa)寒(VH),並(D)說(VE), 均(D)係(VG),不(D)合理(VH),一(D)為(VG),所(D)提(VE), 去(D)參加(VC),可(D)使(VL),所(D)載(VC),太(Dfa)大(VH), 不(D)承認(VE),來(D)舍(VC),來(D)接見(VC),所(D)言(VE), 不(D)相信(VK),要(D)看(VC),又(D)給(VD),很(Dfa)累(VHC),

不(D)通(VH),不(D)公平(VH),未(D)睡好(VA),去(D)美(VH), 並(D)云(VE),來(D)接(VC),均(D)到(VCL),不(D)吃(VC), 又(D)無(VJ),甚(Dfa)佳(VH),不(D)了解(VK),不(D)擬(VF)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

108

(VC),不(D)懂(VK),不(D)信任(VJ),不(D)著(VC),不(D)高興(VK), 無(VJ)此(Nep),未(D)見(VE),未(D)遇(VK),不(D)給(VD), 無(VJ)一(Neu),不(D)合理(VH),不(D)承認(VE),不(D)以(P), 不(D)相信(VK),不(D)通(VH),不(D)公平(VH),未(D)睡好(VA),

不(D)吃(VC),不(D)了解(VK),不(D)擬(VF),不(D)出來(VA), 未(D)吃(VC),不(D)夠(Dfa),不(D)起來(VA),不(D)參加(VC), 不(D)說(VE),不(D)受(VJ),未(D)送來(VD),未(D)寫(VC), 不(D)負責(VL),不(D)曉得(VK),不(D)快(VH),無(VJ)辦法(Na), 未(D)參加(VC),未(D)提(VE),不(D)負責任(VH),不(D)下去(VA),

不(D)容易(VH),不(D)怕(VK),不(D)聽(VE),不(D)像(VG), 不(D)守法(VA),不(D)太(Dfa),不(D)與(P),不(D)必要(VH), 未(D)停(VHC),不(D)止(VH),不(D)允(VE),不(D)一致(VH), 不(D)接受(VC),未(D)出門(VA),不(D)寫(VC),未(D)見到(VE),

不(D)使(VL),未(D)送(VD),未(D)接見(VC),無(VJ)雨(Na), 不(D)客氣(VH),不(D)好看(VH),未(D)出席(VC),不(D)重視(VJ),

未(D)下雨(VA),不(D)開(VC),不(D)起(VC),未(D)允(VE), 不(D)讓(VL),無(VJ)問題(Na)

同作者不同類型 太(Dfa)不(D),很(Dfa)不(D),很(Dfa)大(VH),更(D)是(SHI),

好(VH)的(DE),最(Dfa)大(VH),很(Dfa)久(VH),最(Dfa)高(VH),

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

110

雷震文本詞組 多(D)寫(VC),很(Dfa)有(V_2),多(Neqa)年(Nf),更(D)不(D), 更(D)可(D),十分(Dfa)不(D),很(Dfa)好(VH),極(Dfa)不(D), 很(Dfa)容易(VH),最(Dfa)重要(VH),十分(Dfa)起床(VA), 太(Dfa)無(VJ),很(Dfa)難(VH),稍(D)有(V_2),最(Dfa)不(D), 更(D)有(V_2),更(D)進一步(D),多(D)是(SHI),十分(Dfa)至(P), 多(D)吃(VC),太(Dfa)大(VH),多(VH)了(Di),十分(Dfa)始(VH), 多(VH)得(DE),好(Dfa)久(VH),極(Dfa)少數(Neqa),更(D)使(VL),

太(Dfa)久(VH),很(Dfa)快(VH),最(Dfa)怕(VK),多(Neqb)月(Na), 極(Dfa)大(VH),多(D)用(P),非常(Dfa)不(D),太(Dfa)不成(VH), 很(Dfa)明顯(VH),更(D)大(VH),多(Neqb)的(DE),更(D)無(VJ), 很(Dfa)早(VH),多(D)做(VC),很(Dfa)遠(VH),十分(Dfa)車(Na), 十分(Dfa)始(D),略(D)談(VE),很(Dfa)想(VE),多(Dfa)大(VH),

十分(Dfa)的(DE),很(Dfa)少有(VH),多(VH)的(DE), 很(Dfa)高(VH),好(VH)而(Cbb),多(D)有(V_2),更(D)要(D),

非常(Dfa)上訴(VC),最(Dfa)小(VH),更(D)不用說(Dk), 更(D)不能(D),多(D)不(D),太(Dfa)累(VHC),略(D)有(V_2),

十分(Dfa)感到(VK),比較(Dfa)不(D),最(Dfa)低(VH), 更(D)不必(D),很(Dfa)佩服(VJ),更(D)應(D),多(VH)一(Neu),

好(VH)得多(Dfb),太(Dfa)沒有(VJ),十分(Dfa)才(Da), 多(D)說(VE),多(D)則(D),最(Dfa)有(V_2),最(Dfa)冷(VH), 最(Dfa)易(VH),多(D)係(VG),更(D)重要(VH),稍(D)坐(VA), 多(Dfa)慈(VH),十分(Dfa)累(VHC),多(VH)而(Cbb),多(D)為 (VG),多(Neqa)次(Nf),非常(A)委員會(Nc),非常(Dfa)的(DE),

最(Dfa)要緊(VH),很(Dfa)願意(VK),很(Dfa)高興(VK), 最(Dfa)有力(VH),最(Dfa)壞(VHC),多(D)屬(VG)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

112

要(D)說(VE),要(D)寫(VC),要(D)注意(VK),是(SHI)好(VH), 想(VE)吃(VC),是(SHI)反對(VE),是(SHI)受(VJ),是(SHI)指(VG),

可(D)作(VC),竟(D)說(VE),是(SHI)怕(VK),可(D)得(VJ), 要(D)來(VA),可(D)到(VCL),要(D)給(VD),是(SHI)表示(VE), 敢(VL)說(VE),能(D)說(VE),是(SHI)反共(VH),可(D)請(VF), 是(SHI)如何(VH),許(Neqb)到(VCL),願(VK)做(VC),別(D)無(VJ),

是(SHI)大(VH),能(D)做到(VE),當(P)係(VG),要(D)買(VC), 要(D)找(VC),竟(D)無(VJ),要(D)到(VCL),可(D)明瞭(VK), 要(D)想(VE),許(Neqb)訪(VC),是(SHI)違反(VJ),會(D)畢(VH), 可(D)減少(VHC),是(SHI)贊成(VK),要(D)打(VC),會(D)發生(VJ),

是(SHI)想(VE),許(Neqb)返(VCL),要(D)團結(VHC), 將(D)經過(VCL),必須(D)使(VL),是(SHI)自由(VH),要(D)走(VA),

要(D)實行(VC),可(D)完(VH),好(Dfa)久(VH),應(D)如此(VH), 是(SHI)無(VJ),是(SHI)使(VL),是(SHI)做(VC),要(D)說明(VE), 可(D)寫(VC),是(SHI)屬於(VJ),該(D)管(VE),可以(D)接見(VC),

可(D)解決(VC),是(SHI)假(VH),可(D)出(VC),要(D)發生(VJ), 可能(D)發生(VJ),要(D)送(VD),不必(D)如此(VH),要(D)搞(VC), 是(SHI)希望(VK),應(D)包括(VK),要(D)發表(VC),要(D)開(VC), 要(D)加(VC),想(VE)做(VC),要(D)下雨(VA),果(Cbb)如此(VH),

想(VE)寫(VC),要(D)受到(VJ),可以(D)使(VL),要(D)建立(VC), 要(D)失敗(VH)