6. 結論與研究方向
6.2. 未來展望
本研究雖然以盡全力的追求自動摘要的準確性與客觀評估方法,但難免有一些小 瑕疵,希望日後能針對這些不完整的地方,能有更近一步的改進。
改進地方:
(1) 類別關鍵詞庫內的關鍵詞篩選方法,要在加以修正,以免最後篩選出來的關鍵詞 都是較不句代表性的詞或是無意義的詞彙。
(2) 在關鍵詞權重與相似度的計算方法,可以詴著尋找更加適合的演算法來提升更加 精準的權重值與相似度。
(3) 尋找更客觀的評估方式,以尋求更精準與更客觀但又不失鑒別度的評估方法以及 尋找更適評估文章語意的評估方法,以達到真正的擬人評估。
56
參考文獻
[1] Aas, K. and Eikvil, L., ” Text Categorization: A Survey”, Technical report, Norwegian Computing Center, Junho, 1999
[2] Barzilay, R., Elhadad, M., ”Using Lexical Chains for Text Summarization”, In Processing of the Workshop on Intelligent Scalable Text Summarization, Madrid, Spain, August, 1997, pp. 10-17
[3] Brandow, R., Mitze, K., Rau, L.F., “Automatic Condensation of Electronic publications by Sentence Selection”, Information Processing &Management, vol. 31, No. 5, 1995, pp. 675-685
[4] Chang, T.M., Hsiao, W.F., ”A hybrid approach to automatic text summarization”, Proceedings of the 2008 8th IEEE International Conference on Computer and Information Technology, Sydney, NSW, 2008, pp. 65-70
[5] Charniak, E., ”Statistical Language Learning”, Massachusetts Institute of Technology , 1993
[6] Chen, F., Han, K., Chen, G., ” An Approach to Sentence-Selection-Based Text Summarization”, Proceedings of the IEEE Region 10 Conference on Computers, Communications, Control and Power Engineering, vol. 1, 2002, pp. 489-493
[7] Deerwester, S., Dumais, S.T., Furnas, G.W., Landauer, T.K, Harshman, R., ”Indexing by latent semantic analysis”, Journal of the American Society for Information Science, vol. 41, No. 6,1990, pp. 391-407
[8] Duboid, D., Prade, H.,” Fuzzy Sets and System:Theory and Application”, Academic Press Inc, 1980
[9] Edmundson, H.P., “New Method in Automatic Extracting”, Journal of the Association for Computing Machinery, vol. 16, pp. 264-289
57
[10] Geng, H., Zhou, P., Chen, E., Cai, Q., “A NOVEL AUTOMATIC TEXT SUMMARIZATION STUDY BASED ON TERM CO-OCCURRENCE”, Proceedings of 2006 5th IEEE International Conference on Cognitive Informatics, 2006, Beijing, pp. 601-606
[11] Gong, Y., Liu, X., “Generic text summarization using relevance measure and latent semantic analysis”, Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval(SIGIR ‘01), 2001, New Orleans Louisiana, pp.19-25
[12] Hirao, T., Suzuki, J., Isoaki, H., Maeda, E., ”Dependency-based sentence alignment for multiple document summarization”, Proceedings of the 20th international conference on Computational Linguistics, 2004
[13] http://www.keenage.com/zhiwang/c_zhiwang.html
[14] Hu, P., He, T., Ji, D., Wang, M., ”A study of Chinese text summarization using adaptive clustering of paragraphs”, Proceedings of the 4th International Conference on Computer and Information Technology, 2004, pp. 1159-1164
[15] Jiang, X.Y., ” Chinese Automatic Text Summarization Based on Keyword Extraction”, Proceedings of the 2009 1th International Workshop on Database Technology and Applications, 2009, pp. 225-228
[16] Katz, S.M., ” Distribution of content words and phrases in text and language modeling”, Natural Language Engineering, vol. 2, 1996, pp. 15-59xt summaries [17] Kupiec, J., Pedersen, J., Chen, F., “A Trainable Document Summarizer”, In SIGIR,
ACM, Seattle WA, USA, 1995
[18] Landauer, T.K, Foltz, P.W., Laham, D., ”An Introduction to Latent Semantic Analysis”, In Discourse Processes, vol. 25, 1998, pp. 259-284
[19] Liddy, E., D., “The discourse-level structure of empirical abstracts: an exploratory
58
study”, Proceedings of the Information Processing and Management: an International Journal, vol. 27, No.1,1991,Tarrytown, NY, USA, pp. 55-81
[20] Luhn, H.P., ”The Automatic creation of literature abstracts”, IBM Journal of Research and Development, vol. 2, No.2, 1985, pp.159-165
[21] Mani, I., Maybury, M., “Introduction”, Advances in automated Text Summarization, MIT Press, 1999, pp.10-15.
[22] Marcu, D., ”From discourse structures to text summaries”, Proceedings of the ACL Workshop on Intelligent Scalable Text Summarization, 1997, pp. 82-88
[23] McDonald, D., Chen, H., “Using sentence-selection heuristics to rank text segment in TXTRACTOR”, Proceedings of the second ACM/IEEE-CS joint conference on Digital libraries, 2002, Portland, Oregon, USA, pp.28-35
[24] Murray, G., Renals, S., Carletta, J., “Extractive Summarization of Meeting Recordings”, Proceedings of the 9th European Conference on Speech Communication and Technology, 2005, pp. 593-596
[25] Ng, C.C., Selamat, A., “Improved Letter Weighting Feature Selection on Arabic Script Language Identification”, Proceedings of the 1th Asian Conference on Intelligent Information and Database Systems, 2009, pp. 150-154
[26] Ono, K., Sumita, K., Miile, S., “Abstract generation based on rhetorical structure”, Proceedings of the 15th conference on Computational linguistics, vol. 1, 1994, Kyoto, Japan, pp. 344-348
[27] Paice, C.D., ”Constructing Literature Abstracts by Computer : Techniques and Prospects”, Information Processing & Management, vol. 26, No. 1, 1990, pp.
171-186
[28] Rush, J.E., Salvador, R., Zamora, A., ”Automatic abstracting and indexing. II.
Production of indicative abstracts by application of contextual inference and syntactic
59
coherence criteria”, Journal of the American Society for Information Science, vol. 22, No. 4, 1971, pp. 260-274
[29] Salton, G., Singhal, A., Mitra, M., Buckley, C., ”Automatic Text Structuring and Summarization”, Information Processing and Management: an International Journal, Vol. 33, No. 2, March 1997, pp.193-207
[30] Salton, G., ”Automatic Text Processing”, Addison-Wesley Longman Publishing Co., 1988, Inc. Boston, MA, USA
[31] Silla, Jr., C.N., Kaestner, C.A.A., Freitas, A.A., “A Non-Linear Topic Detection Method for Text Summarization Using Wordnet”, Workshop of Technology Information Language Human (TIL), 2003.
[32] Skorochod'ko, E.F., “Adaptive method of automatic abstracting and indexing”, Information Processing 71: Proceedings of the IFIP Congress 71, Amsterdam, North-Holland Publishing Company, 1972, pp. 1179-1182
[33] Steinberger, J. , Je ek, K., “Using latent semantic analysis in text summarization and summary evaluation”, in Proc. ISIM ’04, 2004, pp. 93-100
[34] Yang, W., Dai, R., Xia, C., “A Novel Chinese Text Summarization Approach Using Sentence Extraction Based on Kernel Words Recognition”, Proceedings of the 2008 5th International Conference on Fuzzy Systems and Knowledge Discovery, 2008, Jinan Shandong, pp. 134-139
[35] Yeh, J.Y., Ke, H.R., Yang, W.P., Meng, I.H., ”Text summarization using a trainable summarizer and latent semantic analysis”, Information Processing & Management, vol. 41, No. 1, 2005, pp. 75-95
[36] Yu, L., Ma, J., Ren, F., Kuroiwa, S., “Automatic Text Summarization Based on Lexical Chains and Structural Features”, Proceedings of the 8th ACIS International Conference on Software Engineering, Artificial Intelligence, Networking, and
60
Parallel/Distributed Computing, 2007, Qingdao, pp. 574-578
[37] Zadeh, L.A., ”Fuzzy sets”, Information and Control 8, 1965, pp. 338-353
[38] Zamanifar, A., Behrouz, M.B., Sharifi, M., ” A New Hybrid Farsi Text Summarization Technique Based on Term Co-Occurrence and Conceptual Property of the Text”, Proceedings of the 2008 9th ACIS International Conference on Software Engineering, Artificial Intelligence, Networking, and Parallel/Distributed Computing, 2008, pp. 635-639
[39] Zhang, J., Sun, L., Zhou, Q., ”A Cue-based Hub-Authority Approach for Multi-Document Text Summarization”, Proceedings of 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering, 2005, pp.
642-645
[40] 中央研究院詞庫小組 http://www.aclclp.org.tw/use_ced_c.php
[41] 中國生產力中心,FUZZY 實用化範例:用 C 語言,台北,全華科技圖書,民 80 年。
[42] 邱立豐,「互動式概念查詢應用於網路文件自動摘要之效益」,國立雲林科技大 學資訊管理研究所,碩士論文,2002。
[43] 袁立安,「混合式自動文件摘要方法」,國立中山大學資訊管理研究所,碩士論 文,2007。
[44] 陳道輝,「利用學位論文資訊萃取資訊領域相關研究主題關聯性」,國立中山大 學資訊管理研究所,碩士論文,2002。
[45] 曾元顯,「關鍵詞自動擷取技術之探討」,中國圖書館學會會訊,5 卷,3 期(106),
1997。
[46] 楊允言,「文件自動分類及其相似性排序」,國立清華大學資訊科學研究所,碩 士論文,1993。
61
[47] 葉鎮源,「文件自動化摘要方法之研究及其在中文文件的應用」, 國立交通大學 資訊科學研究所,碩士論文,1997。
62
附錄一
合成關係矩陣(NKS)
S1 S2 S3 S4 S5 S6 S7 S8 S9 S10
K
1 0.2 0 0 0 0 0 0.2 0 0 0K
2 0.2 0 0 0 0 0 0.2 0 0 0K
3 0.2 0 0 0 0 0 0.2 0 0 0K
4 0.2 0 0 0 0 0 0.2 0 0 0K
5 0 0.1 0 0 0 0 0 0 0 0K
6 0 0.1 0 0 0 0 0 0 0 0K
7 0 0.1 0 0 0 0 0 0 0 0K
8 0 0 0 0.1 0 0 0 0 0 0K
9 0 0 0 0.1 0 0 0 0 0 0K
10 0 0 0 0.1 0 0 0 0 0 0K
11 0 0 0 0 0.1 0 0 0 0 0K
12 0 0 0 0 0.1 0 0 0 0 0K
13 0 0 0 0 0.1 0 0 0 0 0K
14 0 0 0 0 0.1 0 0 0 0 0K
15 0 0 0 0 0 0.1 0 0 0 0K
16 0 0 0 0 0 0.1 0 0 0 0K
17 0 0 0 0 0 0.1 0 0 0 0K
18 0 0 0 0 0 0.1 0 0 0 0K
19 0 0 0 0 0 0.1 0 0 0 0K
20 0 0 0 0 0 0.1 0 0 0 0K
21 0.2 0 0 0 0 0 0.2 0 0 0K
22 0.2 0 0 0 0 0 0.2 0 0 0K
23 0.2 0 0 0 0 0 0.2 0 0 0K
24 0.2 0 0 0 0 0 0.2 0 0 0K
25 0 0 0 0 0 0 0 0.1 0 0K
26 0 0 0 0 0 0 0 0.1 0 0K
27 0 0 0 0 0 0 0 0.1 0 0K
28 0 0 0 0 0 0 0 0 0.1 0K
29 0 0 0 0 0 0 0 0 0.1 0K
30 0 0 0 0 0 0 0 0 0.1 0關鍵詞 語句
63
K
31 0 0 0 0 0 0 0 0 0.1 0K
32 0 0 0 0 0 0 0 0 0.1 0K
33 0 0 0 0 0 0 0 0 0 0.1K
34 0 0 0 0 0 0 0 0 0 0.1K
35 0 0 0 0 0 0 0 0 0 0.1K
36 0.2 0 0 0 0 0 0.2 0 0 0K
37 0 0 0 0.1 0 0 0 0 0 0K
38 0 0 0 0 0 0.1 0 0 0 0K
39 0 0 0 0 0 0 0 0 0.1 064
附錄二
合成運算範例一(詞彙間關聯度小、語句間關聯度小)
合成運算範例二(詞彙間關聯度大、語句間關聯度大)
合成運算範例三(詞彙間關聯度小、語句間關聯度大)
合成運算範例四(詞彙間關聯度大、語句間關聯度小)
65
附錄三
範例文章之關鍵詞
編號
K
1K
2 K 3K
4 K 5 K 6 K 7 K 8 K 9 K 10 關鍵詞 製作 作人 男友 分手 但是 神情 落寞 堅信 絕無 介入編號
K
11K
12 K 13K
14 K 15 K 16 K 17 K 18 K 19 K 20 關鍵詞 未來 好好 打拚 事業 甜甜 代言 北海 海道 道觀 頗有編號
K
21K
22 K 23K
24 K 25 K 26 K 27 K 28 K 29 K 30 關鍵詞 觀光 有私 私交 存疑 認為 只是 吵架 男生 散布 單身編號 K 31 K 32 K 33 K 34 K 35 K 36 K 37 K 38 K 39 關鍵詞 訊息 這件 女生 當然 生氣 製作人 第三者 北海道 這件事
範例文章之語句
編號 語句
S1 小薰與製作人男友小明分手
S
2 小薰 12 日錄九大《但是又何奈》時神情落寞S
3 她說淚已哭乾S4 但堅信絕無第三者介入
S
5 未來她會好好打拚事業S
6 7 月與小咪代言北海道觀光S
7 與小明頗有私交的小康對兩人分手之事存疑S
8 認為應只是吵架S
9 男生想散布單身訊息這件事S
10 女生當然會生氣66
附錄四
範例文章 2 之原始文章
《倚天屠龍記》是「射鵰」三部曲的第三部。這三部書的男主角性格完全不 同。郭靖誠樸質實,楊過深情狂放,張無忌的個性卻比較複雜,也是比較軟 弱。他較少英雄氣概,個性中固然頗有優點,缺點也很多,或許和我們普通 人更加相似些。楊過是絕對主動性的。郭靖在大關節上把持得很定,小事要 黃蓉來推動一下。張無忌的一生卻總是受到別人的影響,被環境所支配,無 法解脫束縛。在愛情上,楊過對小龍女至死靡他,視社會規範如無物;郭靖 在黃蓉與華箏公主之間搖擺,純粹是出於道德價值,在愛情上絕不猶疑。張 無忌卻始終拖泥帶水,對於周芷若、趙敏、殷離、小昭這四個姑娘,似乎他 對趙敏愛得最深,最後對周芷若也這般說了,但在他內心深處,到底愛哪一 個姑娘更加多些?恐怕他自己也不知道。作者也不知道,既然他的個性已寫 成了這樣子,一切發展全得憑他的性格而定,作者也無法干預了。
像張無忌這樣的人,任他武功再高,終究是不能做政治上的大領袖。當然他 自己根本不想做,就算勉強做了,最後也必定失敗。中國三千年的政治史,
早就將結論明確地擺在那裡。中國成功的政治領袖,第一個條件是「忍」,包 括克制自己之忍、容人之忍、以及對付政敵的殘忍。第二個條件是「決斷明 快」。第三是極強的權力慾。張無忌半個條件也沒有。周芷若和趙敏卻都有政 治才能,因此這兩個姑娘雖然美麗,卻不可愛。
我自己心中,最愛小昭。只可惜不能讓她跟張無忌在一起,想起來常常有些 惆悵。所以這部書中的愛情故事是不大美麗的,雖然現實性可能更加強些。
張無忌不是好領袖,但可以做我們的好朋友。事實上這部書情感的重點不在 男女之間的愛情,而是男子與男子間的情義,武當七俠兄弟般的感情,張三 豐對張翠山、謝遜對張無忌父子般的摯愛。
然而張三豐見到張翠山自刎時的悲痛,謝遜聽到張無忌死訊時的傷心,書中 寫得太也膚淺了,真實人生中不是這樣的。
67
範例文章 2 之語句
編號 語句
S
1 這三部書的男主角性格完全不同 S2 郭靖誠樸質實S
3 楊過深情狂放S
4 張無忌的個性卻比較複雜S
5 也是比較軟弱S
6 他較少英雄氣概S
7 個性中固然頗有優點S
8 缺點也很多S
9 或許和我們普通人更加相似些S
10 楊過是絕對主動性的S
11 郭靖在大關節上把持得很定S
12 小事要黃蓉來推動一下S
13 張無忌的一生卻總是受到別人的影響 S14 被環境所支配S
15 無法解脫束縛S
16 在愛情上S
17 楊過對小龍女至死靡他S
18 視社會規範如無物S
19 郭靖在黃蓉與華箏公主之間搖擺S
20 純粹是出於道德價值S
21 在愛情上絕不猶疑S
22 武當七俠兄弟般的感情S
23 張無忌卻始終拖泥帶水S
24 對於周芷若、趙敏、殷離、小昭這四個姑娘S
25 似乎他對趙敏愛得最深S
26 最後對周芷若也這般說了S
27 但在他內心深處S
28 最後也必定失敗S
29 所以這部書中的愛情故事是不大美麗的S
30 作者也不知道S
31 中國三千年的政治史S
32 第三是極強的權力慾S
33 最愛小昭S
34 《倚天屠龍記》是「射鵰」三部曲的第三部68
S
35 第一個條件是「忍」S
36 因此這兩個姑娘雖然美麗S
37 張無忌半個條件也沒有S
38 一切發展全得憑他的性格而定S
39 第二個條件是「決斷明快」S
40 早就將結論明確地擺在那裡S
41 我自己心中S
42 中國成功的政治領袖S
43 周芷若和趙敏卻都有政治才能S
44 然而張三豐見到張翠山自刎時的悲痛S
45 像張無忌這樣的人S
46 當然他自己根本不想做S
47 想起來常常有些惆悵S
48 事實上這部書情感的重點不在男女之間的愛情S
49 張無忌不是好領袖S
50 真實人生中不是這樣的S
51 但可以做我們的好朋友S
52 只可惜不能讓她跟張無忌在一起S
53 雖然現實性可能更加強些S
34 任他武功再高S
55 終究是不能做政治上的大領袖S
56 既然他的個性已寫成了這樣子S
57 到底愛哪一個姑娘更加多些?恐怕他自己也不知道S
58 作者也無法干預了S
59 卻不可愛S
60 張三豐對張翠山、謝遜對張無忌父子般的摯愛S
61 而是男子與男子間的情義S
62 就算勉強做了S
63 包括克制自己之忍、容人之忍、以及對付政敵的殘忍S
64 謝遜聽到張無忌死訊時的傷心S
65 書中寫得太也膚淺了69
範例文章 2 之摘要句(壓縮率 20%)
S
2 郭靖誠樸質實S
3 楊過深情狂放S4 張無忌的個性卻比較複雜
S
5 也是比較軟弱S
6 他較少英雄氣概S
7 個性中固然頗有優點S
8 缺點也很多S
9 或許和我們普通人更加相似些S
10 楊過是絕對主動性的S
11 郭靖在大關節上把持得很定S
12 小事要黃蓉來推動一下S
13 張無忌的一生卻總是受到別人的影響S
14 被環境所支配範例文章 2 之摘要句(壓縮率 30%) S2 郭靖誠樸質實