第六章 結論與建議

第二節 研究限制與未來建議

階層式的詞彙分群,改善詞網中所涵蓋的詞彙多數為常用詞彙造成領域相依性 問題,並提出核心詞彙輔助語意的命名與文本標籤歸類的特徵詞彙,在文本主 題標籤有明確主題分別的資料庫,如TSSCI 與美國專利,文本歸類的準確率約 有八成,相較於大部分篩選的關鍵詞仍在其他時期也出現的報導型文本如《人 民日報》,有明顯的差異;文本數量也影響著以社群網絡建構的語意關係,從 TSSCI 文本的特徵選取上則較難以看出語意的差異性,對比於文本數龐大的


《人民日報》與不同公司的專利文本,在挑選出的特徵上更加符合直覺,然而 由於本文對於文本分群的方法僅採用計數的方式層層歸類,並未考量語意間距 離的定義、一篇文章多個主題的情形下,導致無法完整呈現文本間的關係,又 再加上英文關鍵詞篩選機制上的假陽性過大,許多非關鍵詞詞彙造成的噪音使 得文本歸類時技術相同的專利並不全然歸類在一起。

儘管本文提出的文本分群方法有諸多可再商議與改進的地方,但對於文本 分群議題上嘗試不使用詞網而是以資料導向進行,引入社群網絡的觀點並建構 詞彙與詞彙間的關係,使得在比較文章相似度時不在只是計算文章間多少比例 的字詞相同,而是以更彈性的方法依據文本性質評斷一詞多義、多詞一義的關 係,觀察文章間的相似程度。

第二節 研究限制與未來建議

文本前處理是非結構型資料處理的第一步,也是挑選後續分析的特徵變數 重要環節,本文對於中文斷詞處理上並未依文本而對於語料庫做適當調整,關 鍵詞篩選上也並未考慮文字詞性,使得英文文本僅能用單字做後續分析,相較 於多數文字研究採用詞性與詞類(Part of Speech)工具使得在斷詞方面斷出的特徵 變數更能代表語意。

置、詞性性質都並未考量,並且考量後續的文本分群,單一種性質的關鍵詞篩 選機制將使得後續文本分群彈性不大,若想探討專利文本的技術關係,關鍵詞 篩選也應當以技術名詞為主,若《人民日報》想探討各省地域性關係,關鍵詞 篩選也需以地理性名詞為主,因此考量文本間不同性質的關鍵詞也將使得後續 分群應用更加彈性。

現行的文字分析技術還未有一套完整分析系統掌握文本語意、人名地名與 結合文化風俗的訊息,對於許多人工定義好的工具如詞網若能善加利用,透過 資料導向的方式使得語意關係更加完整與多元,在處理文本關聯時將可以以更 多的面向探討文本間的關係。

1. 何立行、余清祥、鄭文惠(2014),從文言到白話:《新青年》雜誌語言 變化統計研究,東亞觀念史集刊,第七期,頁427-454。

2. 余清祥(1998),統計在紅樓夢的應用,政大學報,第七十六期,頁 303-327。

3. 吳旻璁(2013),結合主題資訊萃取關鍵詞和建構概念圖,碩士論文,國立雲 林科技大學,資訊管理研究所。

4. 吳怡瑾、方友杉、喻欣凱(2009),運用文件分群與概念關聯分析技術協助網 誌瀏覽:任務導向評估方法,圖書資訊學研究,第四期第一卷,頁 133-164。

5. 梁家安(2016),從國共內戰到改革開放:人民日報風格變遷之量化研究,碩士 論文,國立政治大學,統計研究所。

6. 謝博行(2013),局部最長連續共同子序列與新詞組收集,碩士論文,國立清 華大學,統計學研究所

1. Beliga, S., Meštrović, A., Martinčić-Ipšić, S.(2015). An overview of graph-based keyword extraction methods and approaches. Journal of information and

organizational sciences, 39(1), 1-20.

2. Benezeth, Y., Bertaux, A. Manceau, A.(2015). Bag-of-word based brand recognition using Markov clustering algorithm for codebook generation. 2015 IEEE International Conference on Image Processing (ICIP), Quebec City, QC, 3315-3318.

3. Chen, C.H.(2017). Improved TF.IDF in Big News Retrieval: An Empirical Study.

Pattern Recognition Letters, 93, 113 - 122.

4. Condon, A., Karp, R. M.(2001). Algorithms for graph partitioning on the planted partition model. Random Structures and Algorithms, 18(2):116–140.

5. Donetti, L., Munoz,M. A.(2004). Detecting network communities: a new systematic and efficient algorithm. Journal of Statistical Mechanics, 2004(10):10012.

6. Girvan, M., Newman, M. E. J.(2002), Community structure in social and biological networks. Proc. Natl Acad. Sci. USA 99, 7821-7826

7. Hotho, A., Staab, S., Stumme, G.(2003). Wordnet improves text document clustering. In Proc. of the SIGIR 2003 Semantic Web Workshop, pages 541–544.

8. Huang, A.(2008). Similarity Measures for Text Document Clustering, NZCSRSC 2008, Christchurch, New Zealand.

9. Inmon, W. H., Nesavich, A.(2008). Tapping Into Unstructured Data-Integrating Unstructured Data and Textual Analytics into Business Intelligence, Prentice Hall.

10. Lan, M., Tan, C.L., Low, H.B., Sung S.Y.(2005). A comprehensive

comparative study on term weighting schemes for text categorization with support vector machines. In Proc. 14th WWW, 1032–1033.

11. Magnini, B. and Cavaglia, G.(2000). Integrating subject field codes into wordnet.

In Proceedings of LREC-2000, the Second International Conference on Language Resources and Evaluation. Athens, Greece.

12. Michael W., Berry, (2004). Survey of Text Mining – Clustering, Classification, and Retrieval. Springer Press

13. Newman, M. E. J.(2004), Fast algorithm for detecting community structure in networks. Physical Review E, 69(6):066133.

14. Passos A. and Wainer J.(2009) Wordnet-based metrics do not seem to help document clustering.

15. Pons, P., Latapy, M(2006)., Computing communities in large networks using random walks. Journal of Graph Algorithms Applications, 10(2).

16. Recupero, D. R.(2007). A new unsupervised method for document clustering by using WordNet lexical and conceptual relations. Information Retrieval, 10(6), 563– 579.

17. Salton, G., Yu, C. T.(1975). On the construction of effective vocabularies for information retrieval[J]. ACM Sigplan Notices, 9(3), 48-60.

18. Shraddha K. P., Pramod B. D.(2017). Vishakha A. M., Hierarchical document clustering based on cosine similarity measure.

