於內容言,本研究主要貢獻可分為三部份:
(1) 語料標記
於詞內層次,本研究產生了一組質量均備之標記語料,可供分析及實驗之 用;而於詞間層次,我們亦設計了一於語法分析樹上之標記方法,該標記 結果可直接用於預測與計算,亦可轉換為依存關係。
(2) 語料分析
以標記完善之語料為基礎,我們進一步分析標記結果。於詞內構詞分佈方 面,比較了本研究與其他研究團隊之標記異同,亦探討了本問題於標記者 間之信度;而詞間結構方面,本研究經語料分析後證實了用於意見表達之 結構有其特殊性,並仔細分析較常用於意見表達的依存關係種類。
(3) 結構預測
詞內層次方面,我們提出了一組特徵值,並以各種不同分類器進行分類實 驗,得到五類平均 F 分數約為 0.6 的效能;而於詞間層次,本研究一方面 指出了對意見分析較為有用之 14 種依存關係,另一方面亦就標記結果直 接於語法分析樹上進預測,並得到高精確度、低回收率之預測結果。
意見分析問題上,本研究之主要貢獻在於:提出「以語法結構改善意見分析 效能」之方法,並透過語料標記、分析、實驗,實際測試其效能。
未來展望方面,我們希望能更細節地使用語法結構資訊,並以加入語義資訊
之方式輔助意見結構擷取,以期能更大幅度地改善意見分析之效能。
本研究發表於 EMNLP 2009:Ku, Lun-Wei, Huang, Ting-Hao and Chen, Hsin-Hsi.
(2009). Using Morphological and Syntactic Structures for Chinese Opinion Analysis.
Proceedings of Conference on Empirical Methods in Natural Language Processing, Singapore.
7. 參考文獻
"MINIPAR Parse Visualization Tool." From
http://ai.stanford.edu/~rion/parsing/minipar_viz.html
CIRB040: "NTCIR-6 Test Collections: Documents." From http://research.nii.ac.jp/ntcir/ntcir-ws6/data-en.html
. "The Penn Treebank Project." from http://www.cis.upenn.edu/~treebank/.
. "The Stanford Parser: A statistical parser." From http://nlp.stanford.edu/software/lex-parser.shtml.
. "教育部重編國語辭典修訂本." from http://dict.revised.moe.edu.tw/.
(2007). CRF++: Yet Another CRF toolkit. From http://crfpp.sourceforge.net/
Chang, C.-C. and C.-J. Lin (2001). LIBSVM : a library for support vector machines.
Ku, L.-W., T.-H. Huang, et al. (2009). Using Morphological and Syntactic Structures for Chinese Opinion Analysis. Conference on Empirical Methods in Natural Language Processing, Singapore.
Ku, L.-W., Y.-T. Liang, et al. (2006). Opinion extraction, summarization and tracking
in news and blog Corpora. Proceedings of AAAI-2006 Spring Symposium on Computational Approaches to Analyzing Weblogs, AAAI Technical Report.
Ku, L.-W., Y.-S. Lo, et al. (2007). Test Collection Selection and Gold Standard Generation for a Multiply-Annotated Opinion Corpus. Proceedings of 45th Annual Meeting of Association for Computational Linguistics, Prague, Czech Republic.
Ku, L.-W., T.-H. Wu, et al. (2005). Construction of an Evaluation Corpus for Opinion Extraction. NTCIR 2005.
Lafferty, J., A. McCallum, et al. (2001). Conditional random fields: Probabilistic models for segmenting and labeling sequence data. ICML.
Lu, J. (2008). Chinese Synthetic Words Analysis. Department of Information Processing, Graduate School of Information Science Nara Institute of Science and Technology. master: 72.
Lu, J., M. Asahara, et al. (2008). Analyzing Chinese Synthetic Words with Tree-based Information and a Survey on Chinese Morphologically Derived Words. The Sixth SIGHAN Workshop on Chinese Language Processing.
McCallum, A. (1998). Rainbow.
Qiu, G., K. Liu, et al. (2007). Extracting opinion topics for Chinese opinions using dependence grammar. Proceedings of the 1st international workshop on Data mining and audience intelligence for advertising. San Jose, California, ACM.
Qiu, G., C. Wang, et al. (2008). Incorporate the Syntactic Knowledge in Opinion Mining in User-generated Content. NLPIX2008 (In conjunction with WWW'08).
Tseng, H. and K.-J. Chen (2002). Design of chinese morphological analyzer. the First SIGHAN Workshop on Chinese Language Processing.
Tseng, H., D. Jurafsky, et al. (2005). Morphological features help POS tagging of unknown words across language varieties. the Fourth SIGHAN Workshop on Chinese Language Processing.
亢世勇 (2001). "《現代漢語新詞語信息(電子)詞典》的開發與應用." 辭書研究 2001(2): 55-63.
亢世勇 (2001). "《現代漢語語法信息詞典》的特點與不足." 辭書研究 2001(6):
79-116.
亢世勇 (2002). "《現代漢語新詞語資訊電子詞典》的研究與實現." International Journal of Computational Linguistics & Chinese Language Processing 7(2): 89-100.
亢世勇 (2003). "《新詞語大詞典》的編纂." 辭書研究 2003(3): 12-20.
亢世勇, 徐豔華, et al. (2005). 基於語料庫的現代漢語新詞語構詞法統計研究.
International Conference on Chinese Computing, Singapore.
亢世勇, 許小星, et al. (2005). "現代漢語語義構詞規則初探." 漢語語言與計算學
報 15(2): 103-112.
王惠 and 朱學鋒 (1994). 《現代漢語語法電子詞典》的收詞原則. 中國計算機報:
79-83.
石秀雙 (2007). "現代漢語雙音復合詞結構關系考察——以 z 字母下雙音復合詞為 例進行分析." 晉中學院學報 2007(6): 1-8.
朱學鋒, 俞士汶, et al. (1995). "現代漢語語法信息辭典的開發與應用." 中文與東 方語言信息處理學會通訊 1995(2): 81-86.
朱學鋒, 俞士汶, et al. (1999). "漢語語素庫的構造及其同語法信息詞典的集成."
術語標準化與信息技術 1999(2): 36-40.
李普霞 and 劉雲 (2004). "新版《現代漢語語法信息詞典詳解》的貢獻." 辭書研 究 2004(3): 64-70
俞士汶, 朱學鋒, et al. (2001). "《現代漢語語法信息詞典》的新進展." 中文信息學 報 15(1): 59-65.
俞士汶, 朱學鋒, et al. (1999). "現代漢語語素庫的開發及應用." 世界漢語教學 1999(2): 38-45.
苑春法 and 黃昌寧 (1998). "基於語素數據庫的漢語語素及構詞研究." 語言文字 應用 1998(3): 83-88.
傅建紅 (2009). "論《現代漢語詞典》F類雙音複合詞的結構關係." 現代語文 2009(3): 49-50.
傅愛平 (2003). "漢語信息處理中單字的構詞方式與合成詞的識別和理解." 語言 文字應用 2003(4): 25-33.
程祥徽 and 田小琳 (1995). 現代漢語, 三聯書店 香港.
劉雲, 俞士汶, et al. (2000). 現代漢語合成詞結構數據庫. 第二屆中文電化教學國 際研討會, 廣西師範大學出版社.
穆克婭 (2008). "新雙音節複合動詞語素構詞規律研究." 現代語文 2008(12):
42-44.
8. 附錄 A:常用譯名對照表
英文 本文主要譯詞 別名或簡稱
4-fold cross-validation 4 疊交叉驗證 4 疊交叉效度、4 折交叉效度 character (中文)字
CRF 條件隨機域 條件隨機場
data sparse 資料空缺 資料稀疏
dependency relation 依存關係 依賴關係、依靠關係 dependency tree 依存關係樹 依存樹、依賴樹
feature 特徵值 特徵
micro-average 微觀平均
morpheme 語素 詞素
parsing 剖析 語法剖析
Penn Treebank 賓州大學樹庫 賓大樹庫 primary key 主鍵 主索引值
sense 義項 義條
SVM 支援向量機 支撐向量機、支持向量機、支量機
word (中文)詞
9. 附錄 B:未使用之賓大樹庫句子清單
FID SID 原因
40 488 兩棵樹
112 1507 兩棵樹 139 1899 兩棵樹 307 3884 兩棵樹 307 3886 兩棵樹 437 4681 兩棵樹 672 6885 兩棵樹 733 7663 兩棵樹 787 8407 兩棵樹 792 8447 兩棵樹 793 8482 兩棵樹 794 8498 兩棵樹 828 9014 兩棵樹 845 9275 兩棵樹 855 9426 兩棵樹 877 9758 兩棵樹 877 9760 兩棵樹 1042 12973 兩棵樹 1048 13373 兩棵樹 1078 15129 兩棵樹