未來展望 - 結論與未來展望 - 基於語境特徵及分群模型之中文多義詞消歧

第五章結論與未來展望

5.2 未來展望

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第五章結論與未來展望 5.1 結論

而本研究主要有二特點，第一點為使用者所需提供的參考句數量少，於本實驗中各義項僅需使用者提供30 句相關句作為參考句；第二個特點為擷取代表句準確率高，於本研究中選擇的 9 組目標詞彙中，若透過方法 1 觀察擷取代表句的 accuracy，於同形異義中目標詞彙「小米」具有最高的 accuracy 達到 96.1%；而一詞多義中目標詞彙「東西」具有最高的 accuracy 達到 81.3%，而一詞多義中目標詞彙「出發」具有第二高的 accuracy 達到 80.7%。此外本研究根據多義詞的特性，觀察不同類型的多義詞是否會影響擷取代表句的準確率，而在研究中，

提出的方法能有效將同形異義(homonym)進行消歧，而一詞多義(polysemy)透過現有目標詞彙的語境資訊消歧的準確率較低。

根據本研究觀察，透過語境相關資訊擷取同形異義詞的代表句準確率較高，

因為同形異義中義項間語意範疇差距較大，如目標詞彙「蘋果」，各義項實際使用情景下周遭的詞彙以及語境差異較大，因此擷取代表句準確率較高；反之若僅透過語境相關資訊擷取一詞多義的代表句，準確率一般情況下無法如同形異義，

因為一詞多義中義項間語意範疇差距較小，如目標詞彙「壓力」，各義項實際使用情景下周遭的詞彙以及語境差異較小，因此擷取代表句準確率較同形異義擷取代表句的準確率低，因此應多加入額外資訊藉此提高一詞多義擷取代表句準確率。

除此之外，受限於多義詞的特性，研究中目標詞彙義項之間的比例仍有差距，

無法達到義項之間比例彼此均勻，因此會導致目標詞彙中所佔比例低的義項，無法透過現有的語境資訊，便能學習到該義項之特徵，藉此將其進行消歧。

5.2 未來展望

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

關於計算分群準確率的部分，目前研究中是透過人工標記作為標準答案，透過標準答案計算擷取代表句之準確率，而若要將此類型研究進行眾多且不同之詞彙，勢必無法蒐集到如此多的人工標記作為標準答案。因此於未來研究中，需增加不須人工標記之評估方式，作為衡量擷取代表句效果之方法，以及比較不須人工標記之評估方式擷取出之代表句以及藉由人工標記之評估方式擷取出之代表句有何差異。

關於尋找群集中心的方法要進行增進。因為於本研究視群集中心作為每一群集的代表，因為假定群集中心能有效表達目標詞彙於該群集中所代表的意思，之後藉由群集中的距離擷取代表句。透過實驗發現，群集中心無法有效表達標詞彙於該群集中所代表的意思，並不能僅僅夠透過將群集內所有相關句之向量取平均，

便可透過群集中心有效表達目標詞彙於該群集中所代表的義項。

最後，應加入語境外其他語言特徵，試圖透過分群模型將相同義項下的相關句再進行更明確的細分，輔助語言教學工作者尋找更多有趣的語言現象。

‧

[1] 中文維基百科。2007。中文維基百科。檢自：zhwiki-latest-pages-articles.xml.bz2。

[2] 肖航。2011。教材語料詞義分佈量化考察。第十二屆漢語詞彙語義學研討會。

[3] 吳美嫺。2010。《長阿含經》雙音詞研究。碩士論文。國立東華大學，花蓮縣，

臺灣。

[4] 林育增。2016。繁體版 Jieba。檢自：https：//github.com/ldkrsi/jieba-zh_TW。

[5] 林香薇。2016。閩南語歌仔冊中的多義詞「落 loh8」。師大學報，第 61 卷， Careful Seeding. In Proceedings of the 18th annual ACM-SIAM symposium on Discrete algorithms . SIAM, Philadelphia, PA, USA, 1027-1035.

[10]Pavel Berkhin. 2006. A Survey of Clustering Data Mining Techniques. Springer, Berlin, Heidelberg, 25-71.

[11]Yiu-Ming Cheung. 2003. K*-Means：A New Generalized K-means Clustering Algorithm. Pattern Recognition Letters, Volume 24, Issue 15. ELSEVIER, Amsterdam, Nederland, 2883-2893.

[12]Wilm Donath and Alan Hoffman. 1973. Lower Bounds for the Partitioning of Graphs. IBM Journal of Research and Development, Volume 17, Issue 5. IBM, Amonk, NY, USA, 420-425.

[13]Miroslav Fiedler. 1973. Algebraic Connectivity of Graphs. Czechoslovak Mathematical Journal, Volume 23. Matematický ústav, Nové Město, Česko, 298-305.

[14]Leonard Kaufman and Peter Rousseeuw. 1990. Finding Groups in Data ： An Introduction to Cluster Analysis. Wiley, New York, NY, USA.

[15]Shao-Hang Kao and Zhao-Ming Gao. 2007. Feature Selections in Word Sense Disambiguation. In Proceedings of the 19th Conference on Computational Linguistics and Speech Processing. ACLCLP, Taipei, Taiwan, 131-144.

[16]Cuong Anh Le and Akira Shimazu. 2004. High WSD Accuracy Using Naïve Bayesian Classifier with Rich Features. In Proceedings of the 18th Pacific Asia Conference on Language, Information and Computation. LLSJ, Tokyo, Japan,

‧

[17]Quoc Le and Tomas Mikolov. 2014. Distributed Representations of Sentences and Documents. In Proceedings of the 31st International Conference on International Conference on Machine Learning, Volume 32. JMLR, USA, 1188-1196.

[18]Michael Lesk. 1986. Automatic Sense Disambiguation Using Machine Readable Dictionaries：How to Tell a Pine Cone from an Ice Cream Cone. In Proceedings of the 5th Annual Conference on Systems Documentation. ACM, New York, NY, USA, 24–26.

[19]John Lyons. 1977. Semantics. Cambridg. Cambridge University Press.

[20]Wei-Yun Ma and Keh-Jiann Chen. 2003. Introduction to CKIP Chinese Word Segmentation System for the First International Chinese Word Segmentation Bakeoff. In Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing, Volume 17. ACL, Stroudsburg, PA, USA, 168-171.

[21]James MacQueen. 1967. Some Methods for Classification and Analysis of Multivariate Observations. In Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability, Volume 1. University of California Press, Oakland, CA, USA, 281-297.

[22]Christopher Manning, Prabhakar Raghavan and Hinrich Schütze. 2009. An Introduction to Information Retrieval. Cambridge University Press, Cambridge, Cambs, England.

[23]Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado and Jeffrey Dean. 2013.

Distributed Representations of Words and Phrases and Their Compositionality. In Proceedings of the 26th International Conference on Neural Information Processing Systems, Volume 2. Curran Associates, Red Hook, NY, USA, 3111-3119.

[24]Roberto Navigli. 2009. Word Sense Disambiguation：A Survey. ACM Computing Surveys, Volume 41, Issue 2. ACM, New York, NY, USA, 1-69.

[25]Andrew Ng, Michael Jordan, and Yair Weiss. 2001. On Spectral Clustering Analysis and an Algorithm. In Proceedings of the 14th International Conference on Neural Information Processing Systems. MIT Press, Cambridge, MA, USA, 849-856.

[26]Alessandro Raganato, Jose Camacho-Collados and Roberto Navigli. 2017.Word Sense Disambiguation ： A Unified Evaluation Framework and Empirical Comparison. In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics, Volume 1. ACL, Valencia, Spain, 99-110.

[27]Peter Rousseeuw. 1987. Silhouettes：A Graphical Aid to the Interpretation and Validation of Cluster Analysis. Computational and Applied Mathematics, Volume 20. ELSEVIER, Amsterdam, Nederland, 53-56.

[28]Jianbo Shi and Jitendra Malik. 2000. Normalized Cuts and Image Segmentation.

IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume 22, Issue 8. IEEE, Piscataway, NJ, USA, 888-905.

[29]Eve Sweetser. 1986. Polysemy vs. Abstraction ： Mutually Exclusive or Complementary? In Proceedings of the 12th Annual Meeting of the Berkeley Linguistics Society. BLS, Berkeley, CA, USA, 528-538.

[30]OpenCC, https：//github.com/BYVoid/OpenCC.

[31]WikiExtractor, https：//github.com/attardi/wikiextractor.

[32]Tian Zhang, Raghu Ramakrishnan and Miron Livny. 1996. BIRCH clustering：An Efficient Data Clustering Method for Very Large Databases. In Proceedings of the

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

1996 Association for Computing Machinery's Special Interest Group on Management of Data. ACM, New York, NY, USA, 103-114.

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

附錄一論文口試相關討論

於此紀錄口試期間，口委提出的問題，在此以書面的方式紀錄對於討論以及建議的修正結果。

1. 目標詞彙如何選擇

於本文 4.1.1 節中增加說明目標詞彙的如何選擇出 142 個目標詞彙，並藉由此 142 個詞彙再進行選擇，最後選擇出 9 組目標詞彙進行實驗。

2. 無提及進行分群時所使用的距離計算方式

於本研究中除階層式分群模型中 Ward’s linkage 採用歐氏距離外，其餘分群時所使用的距離計算方式為 cosine distance，本研究於 4.2 節中新增此說明。

3. 應將「相關句維度」以及「窗口大小」進行說明分別對應為 embedding 過程中之 embedding size 以及 embedding window。

本研究於 4.2 節中新增說明，於本研究中「相關句維度」即為 embedding size；

「窗口大小」即為 embedding window。

4. 結論中陳述為何不將「保證」以及「送」作為目標詞彙並不恰當。

已將此部分內容移至 4.1.3 節中，進行說明為何不將此二詞彙作為目標詞彙。

5. Purity 是重要的評估，應於第三章方法中進行說明。

本研究已於 3.6 節中新增 purity 的相關描述，用以介紹如何透過 purity 選擇分群模型。

6. 增加消歧相關文獻

已於 2.1 節中增加多義詞消歧相關文獻，包含 SemEval 評測以及 Senseval-3 中中文消歧比賽的特點和

7. 參考文獻順序需調整

已將參考文獻順序修正為依照內文提及之順序。

8. 原版研究目的中，將「減少人文學者逐一判讀相關句時間」列為目的之一。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在本論文當中，因為無量化實驗之進行時間以及對比人文學者將相關句進行標記之時間，所以無法說明是否有效減少人文學者逐一判讀相關句時間。因此將「減少人文學者逐一判讀相關句時間」此研究目的進行刪除。

9. 在研究中是如何使用 doc2vec

在研究中，透過 doc2vec 將每一句相關句轉換成向量，輸入以相關句為單位而非文檔。

10. 各目標詞彙分群錯誤的代表句需補充錯誤分析。

本研究已於 4.5 節各目標詞彙擷取代表句中新增相關內容，若有代表句分群錯誤便會針對分群錯誤的代表句加上粗斜體字進行標記以及初步的錯誤分析。

11. 應說明為何同形異義以及一詞多義擷取代表句準確率會有差異以及描述研究的二亮點，包含所需使用者提供的參考句數量少以及準確率高。

本研究已於 5.1 節說明為何同形異義以及一詞多義擷取代表句準確率會有差異，以及說明本研究的亮點。

12.

為何本研究中使用繁體版 Jieba 斷詞而非 CKIP

在研究中，透過隨機挑選 100 個例句經人工斷詞作為標準答案，選取與標準答案最相似的斷詞器作為研究中所使用的斷詞器，其中繁體版 Jieba 有與標準答案較高的相似度因此研究中使用繁體版 Jieba 作為實驗語料斷詞器。而於隨機挑選 100 個例句，CKIP 會將特定詞彙切割過細，如詞彙「一門」CKIP 會斷成「一門」，而於教育部重編國語辭典修訂本中「一門」為一字詞，根據此原則應斷成「一門」較合適，考量此些方面，研究中採用繁體版 Jieba 作為斷詞器。

‧

而在以下實驗中，將中文維基百科以及新聞語料進行 embedding，接者再根據此 embedding 的結果將擷取出目標詞彙的相關句以及使用者所提供之參考句向量化，並依據各目標詞彙表73 選擇分群模型擷取代表句，最後透過方法 1 擷取代表句準確率如所示，每一詞彙同形異義詞準確率降低至 4 成左右，而一詞多義準確率一般亦下降至 4 成左右，僅有目標詞彙「溫暖」擷取代表句準確率無明顯下降。

其中若透過將完整中文維基百科以及新聞語料進行 embedding，接者再根據此 embedding 的結果將擷取出目標詞彙的相關句以及使用者所提供之參考句向

目標詞彙 Macro average Weighted average Accuracy

總擷取

‧

(使用中文維基百科以及新聞語料 embedding)

每群

(使用中文維基百科以及新聞語料 embedding)

每群

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖38 蘋果方法 2、方法 3 擷取代表句並算準確率 (使用中文維基百科以及新聞語料 embedding)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖39 出發方法 2、方法 3 擷取代表句並算準確率 (使用中文維基百科以及新聞語料 embedding)

在文檔中基於語境特徵及分群模型之中文多義詞消歧 - 政大學術集成 (頁 155-165)

未來展望

第五章 結論與未來展望

5.2 未來展望

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第五章 結論與未來展望 5.1 結論

5.2 未來展望

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

附錄一 論文口試相關討論

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

11. 應說明為何同形異義以及一詞多義擷取代表句準確率會有差異以及描述研究 的二亮點，包含所需使用者提供的參考句數量少以及準確率高。

為何本研究中使用繁體版 Jieba 斷詞而非 CKIP

‧

‧

每群

每群

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第五章結論與未來展望

立政治大學

第五章結論與未來展望 5.1 結論

立政治大學

立政治大學

立政治大學

附錄一論文口試相關討論

立政治大學

11. 應說明為何同形異義以及一詞多義擷取代表句準確率會有差異以及描述研究的二亮點，包含所需使用者提供的參考句數量少以及準確率高。

立政治大學

立政治大學