總結與展望 - 應用於中文意見分析之詞內暨詞間語法結構自動擷取研究

於內容言，本研究主要貢獻可分為三部份：

(1) 語料標記

於詞內層次，本研究產生了一組質量均備之標記語料，可供分析及實驗之用；而於詞間層次，我們亦設計了一於語法分析樹上之標記方法，該標記結果可直接用於預測與計算，亦可轉換為依存關係。

(2) 語料分析

以標記完善之語料為基礎，我們進一步分析標記結果。於詞內構詞分佈方面，比較了本研究與其他研究團隊之標記異同，亦探討了本問題於標記者間之信度；而詞間結構方面，本研究經語料分析後證實了用於意見表達之結構有其特殊性，並仔細分析較常用於意見表達的依存關係種類。

(3) 結構預測

詞內層次方面，我們提出了一組特徵值，並以各種不同分類器進行分類實驗，得到五類平均 F 分數約為 0.6 的效能；而於詞間層次，本研究一方面指出了對意見分析較為有用之 14 種依存關係，另一方面亦就標記結果直接於語法分析樹上進預測，並得到高精確度、低回收率之預測結果。

意見分析問題上，本研究之主要貢獻在於：提出「以語法結構改善意見分析效能」之方法，並透過語料標記、分析、實驗，實際測試其效能。

未來展望方面，我們希望能更細節地使用語法結構資訊，並以加入語義資訊

之方式輔助意見結構擷取，以期能更大幅度地改善意見分析之效能。

本研究發表於 EMNLP 2009：Ku, Lun-Wei, Huang, Ting-Hao and Chen, Hsin-Hsi.

(2009). Using Morphological and Syntactic Structures for Chinese Opinion Analysis.

Proceedings of Conference on Empirical Methods in Natural Language Processing, Singapore.

7. 參考文獻

"MINIPAR Parse Visualization Tool." From

http://ai.stanford.edu/~rion/parsing/minipar_viz.html

CIRB040: "NTCIR-6 Test Collections: Documents." From http://research.nii.ac.jp/ntcir/ntcir-ws6/data-en.html

. "The Penn Treebank Project." from http://www.cis.upenn.edu/~treebank/.

. "The Stanford Parser: A statistical parser." From http://nlp.stanford.edu/software/lex-parser.shtml.

. "教育部重編國語辭典修訂本." from http://dict.revised.moe.edu.tw/.

(2007). CRF++: Yet Another CRF toolkit. From http://crfpp.sourceforge.net/

Chang, C.-C. and C.-J. Lin (2001). LIBSVM : a library for support vector machines.

Ku, L.-W., T.-H. Huang, et al. (2009). Using Morphological and Syntactic Structures for Chinese Opinion Analysis. Conference on Empirical Methods in Natural Language Processing, Singapore.

Ku, L.-W., Y.-T. Liang, et al. (2006). Opinion extraction, summarization and tracking

in news and blog Corpora. Proceedings of AAAI-2006 Spring Symposium on Computational Approaches to Analyzing Weblogs, AAAI Technical Report.

Ku, L.-W., Y.-S. Lo, et al. (2007). Test Collection Selection and Gold Standard Generation for a Multiply-Annotated Opinion Corpus. Proceedings of 45th Annual Meeting of Association for Computational Linguistics, Prague, Czech Republic.

Ku, L.-W., T.-H. Wu, et al. (2005). Construction of an Evaluation Corpus for Opinion Extraction. NTCIR 2005.

Lafferty, J., A. McCallum, et al. (2001). Conditional random fields: Probabilistic models for segmenting and labeling sequence data. ICML.

Lu, J. (2008). Chinese Synthetic Words Analysis. Department of Information Processing, Graduate School of Information Science Nara Institute of Science and Technology. master: 72.

Lu, J., M. Asahara, et al. (2008). Analyzing Chinese Synthetic Words with Tree-based Information and a Survey on Chinese Morphologically Derived Words. The Sixth SIGHAN Workshop on Chinese Language Processing.

McCallum, A. (1998). Rainbow.

Qiu, G., K. Liu, et al. (2007). Extracting opinion topics for Chinese opinions using dependence grammar. Proceedings of the 1st international workshop on Data mining and audience intelligence for advertising. San Jose, California, ACM.

Qiu, G., C. Wang, et al. (2008). Incorporate the Syntactic Knowledge in Opinion Mining in User-generated Content. NLPIX2008 (In conjunction with WWW'08).

Tseng, H. and K.-J. Chen (2002). Design of chinese morphological analyzer. the First SIGHAN Workshop on Chinese Language Processing.

Tseng, H., D. Jurafsky, et al. (2005). Morphological features help POS tagging of unknown words across language varieties. the Fourth SIGHAN Workshop on Chinese Language Processing.

亢世勇 (2001). "《現代漢語新詞語信息（電子）詞典》的開發與應用." 辭書研究 2001(2): 55-63.

亢世勇 (2001). "《現代漢語語法信息詞典》的特點與不足." 辭書研究 2001(6):

79-116.

亢世勇 (2002). "《現代漢語新詞語資訊電子詞典》的研究與實現." International Journal of Computational Linguistics & Chinese Language Processing 7(2): 89-100.

亢世勇 (2003). "《新詞語大詞典》的編纂." 辭書研究 2003(3): 12-20.

亢世勇, 徐豔華, et al. (2005). 基於語料庫的現代漢語新詞語構詞法統計研究.

International Conference on Chinese Computing, Singapore.

亢世勇, 許小星, et al. (2005). "現代漢語語義構詞規則初探." 漢語語言與計算學

報 15(2): 103-112.

王惠 and 朱學鋒 (1994). 《現代漢語語法電子詞典》的收詞原則. 中國計算機報:

79-83.

石秀雙 (2007). "現代漢語雙音復合詞結構關系考察——以 z 字母下雙音復合詞為例進行分析." 晉中學院學報 2007(6): 1-8.

朱學鋒, 俞士汶, et al. (1995). "現代漢語語法信息辭典的開發與應用." 中文與東方語言信息處理學會通訊 1995(2): 81-86.

朱學鋒, 俞士汶, et al. (1999). "漢語語素庫的構造及其同語法信息詞典的集成."

術語標準化與信息技術 1999(2): 36-40.

李普霞 and 劉雲 (2004). "新版《現代漢語語法信息詞典詳解》的貢獻." 辭書研究 2004(3): 64-70

俞士汶, 朱學鋒, et al. (2001). "《現代漢語語法信息詞典》的新進展." 中文信息學報 15(1): 59-65.

俞士汶, 朱學鋒, et al. (1999). "現代漢語語素庫的開發及應用." 世界漢語教學 1999(2): 38-45.

苑春法 and 黃昌寧 (1998). "基於語素數據庫的漢語語素及構詞研究." 語言文字應用 1998(3): 83-88.

傅建紅 (2009). "論《現代漢語詞典》Ｆ類雙音複合詞的結構關係." 現代語文 2009(3): 49-50.

傅愛平 (2003). "漢語信息處理中單字的構詞方式與合成詞的識別和理解." 語言文字應用 2003(4): 25-33.

程祥徽 and 田小琳 (1995). 現代漢語, 三聯書店香港.

劉雲, 俞士汶, et al. (2000). 現代漢語合成詞結構數據庫. 第二屆中文電化教學國際研討會, 廣西師範大學出版社.

穆克婭 (2008). "新雙音節複合動詞語素構詞規律研究." 現代語文 2008(12):

42-44.

8. 附錄 A：常用譯名對照表

英文本文主要譯詞別名或簡稱

4-fold cross-validation 4 疊交叉驗證 4 疊交叉效度、4 折交叉效度 character (中文)字

CRF 條件隨機域條件隨機場

data sparse 資料空缺資料稀疏

dependency relation 依存關係依賴關係、依靠關係 dependency tree 依存關係樹依存樹、依賴樹

feature 特徵值特徵

micro-average 微觀平均

morpheme 語素詞素

parsing 剖析語法剖析

Penn Treebank 賓州大學樹庫賓大樹庫 primary key 主鍵主索引值

sense 義項義條

SVM 支援向量機支撐向量機、支持向量機、支量機

word (中文)詞

9. 附錄 B：未使用之賓大樹庫句子清單

FID SID 原因

40 488 兩棵樹

112 1507 兩棵樹 139 1899 兩棵樹 307 3884 兩棵樹 307 3886 兩棵樹 437 4681 兩棵樹 672 6885 兩棵樹 733 7663 兩棵樹 787 8407 兩棵樹 792 8447 兩棵樹 793 8482 兩棵樹 794 8498 兩棵樹 828 9014 兩棵樹 845 9275 兩棵樹 855 9426 兩棵樹 877 9758 兩棵樹 877 9760 兩棵樹 1042 12973 兩棵樹 1048 13373 兩棵樹 1078 15129 兩棵樹

在文檔中應用於中文意見分析之詞內暨詞間語法結構自動擷取研究 (頁 92-101)