第四章、 結果與討論
4.4 未來研究方向
(1)降低 HCV 的維度:在計算 hcv 時,隨機抽樣出 10 篇文章進行實驗,所需時間約 2 小時 20 分左右,計算一篇文章相似度的平均時間約 14 分 左右,未來研究可朝向如何在不影響分類成效的前提下,降
57
低 hcv 的維度,以提昇分類效率。
(2)敵意文章組成方式:本研究並未對會形成敵意文章的二連字詞進行研究,僅在附 錄中列出出現次數高於 10 次的二連字詞,未來可研究敵意 文章中某些特別語詞是否出現頻率較高,以深入了解敵意文 章組成。
(3)自動取得最佳門檻值:本研究是以半自動的方式取得門檻值,需要先進行門檻值 實驗,求出第一次最佳門檻值後,在真實環境中進行實驗,
觀察分類結果,並進一步調整較佳門檻值,未來可研究將門 檻值設定程序自動化的方法,降低人為誤差,以提昇分類成 效。
(4)敵意文章的定義:本研究為敵意文章分級系統初探,在進行文章分級時,僅透過 敵意的外顯行為,也就是論戰,來將敵意與非敵意文章進行 初步分類,未來可研究針對敵意文章進行直接的定義或是給 定操作型定義,以便針對敵意文章,做進一步的分級。
(5)不同主題所造成 hcv 的差異:本研究僅利用統計方法,證明不同主題所形成的 hcv 具有差異,但並未針對造成差異的原因,進行質化研究,未 來可研究造成不同主題 hcv 產生差異的原因,以便找出較能 代表敵意文章的 hcv。
(6)心理敵意與敵意文章之關聯:敵意是人類心理的狀態,而敵意文章則是敵意的外 顯行為,未來可研究兩者之間的關聯性,也就是個體在具有 敵意的狀態下,是如何產生敵意文章,以及敵意文章是如何 使個體產生敵意,來釐清敵意與非敵意文章之間的關聯性。
(7)減少敵意文章之機制:大量的敵意文章,常會造成網管人員的困擾,也會提高個 體產生衝突的可能性,因此一般的管理模式,僅能被動的找 出敵意文章後,將其刪除,但其負面影響通常已產生,未來 可研究敵意文章自動消除的機制,在敵意文章出現之初即由 系統進行消除的動作,以減少負面影響。
58
參考文獻
01. 江玉婷 (民 89)。中文資訊檢索測試集之設計與製作。資訊傳播與圖書館學,6 卷,
3 期,61-80。
02. 黃雲龍 (民 86)。中文全文文件群集索引理論研究--向量空間模型(Vector-Space Model) 的建構。國立台灣大學商學研究所博士論文。
03. 曾元顯 (民 91)。文件主題自動分類成效因素探討。中國圖書館學會會報,68 期,
62-83。
04. 楊允言 (民82)。文件自動分類及其相似性排序。國立清華大學資訊科學研究所碩士 論文。
05. 楊允言、陳淑美、陳克健、謝清俊 (民88)。中文文件自動分類之探討。大漢學報第 13期,241-256。
06. 謝清俊、林晰 (民86)。「中央研究院古籍全文資料庫的發展概要」,台北:中央研究 院資訊科學研究所文獻處理實驗室技術報告,2-3。
07. Belkin. (1992). Information Filtering and Information Retrieval. Communications of the ACM. 35(12).
08. Buss, A., J. Fischer, & A. Simmons. (1968). Aggression and hostility in psychiatric patients. Journal of Consulting and Clinical Psychology 32: 21.
09. Cook, W., & Medley, D. (1954). Proposed hostility and pharisaic-virtue for the MMPI.
Journal of Applied Psychology, 38, 414-418.
10. Ellen M. Voorhees. (1998). Variations in Relevance Judgments and the Measurement of Retrieval Effectiveness. In Proceedings of the 21st ACM-SIGIR International Conference on Research and Development in Information Retrieval, Melbourne, 315-323.
11. Foo, S., & Li, H. (2001). Chinese Word Segmentation Accuracy and Its Effects on Information Retrieval. TEXT Technology.
12. Fred Annexstein. (2002). Indexing and Representation:The Vector Space Model Retrieved, December 25, 2003, from the World Wide Web:
http://www.ececs.uc.edu/~annexste/Courses/cs690/Indexing%20and%20Representation.p pt
13. Jane Reid and Stefano Mizzaro. (1998). On the Consensus between Relevance Judges in a Multi-media Context. In Proceeding of the 6th Mira Workshop, Dublin, October 20-30, http://www.dcs.gla.ac.uk/mira/workshops/dublin/procs/mr.pdf.
14. Jason D. M.Rennie, & Ryan Rifkin. (2001). Improving Multiclass Text Classification with the Support Vector Machine, Massachusetts Institute of Technology. AI
MemoAIM-2001-026. http://www.ai.mit.edu/~jrennie/papers/aimemo2001.ps.gz
59
15. Jhy-Jong Tsay, & Jing-Doo Wang. (2000). Improving Automatic Chinese Text
Categorization by Error Correction, Proceedings of the 5th International Workshop on Information Retrieval with Asian Languages, pp. 1-8.
16. Karan Sparck Jones, & C. J. van Rijsber-gen. (1976). Information Retrieval Test Collections. Journal of Documentation 32 : 63-73.
17. Karan Sparck Jones. (1981). The Cranfield Tests. In Information Retrieval Experiment. ed.
Karan Sparck Jones London; Boston: Butteerworths.
18. Leah S. Larkey, & W. Bruce Croft. (1996). Combining Classifiers in Text Categorization.
Proceedings of the 19th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval. pp. 289-297.
19. Marc Damashek. (1995). Gauging Similarity with N-grams: Language-Independent Categoriza-tion of Text. Science 267, pp.843-848.
20. Pia Borlund, & Peter Ingwersen. (1997). The Development of a Method for the
Evaluation of Interactive Information Retrieval Systems. Journal of Documentation 53.
no. 3: 226.
21. Reid, E. (1995). Virtual worlds:culture and imagination. From Jones, S. G.(Ed.).
Cybersociey:Computer-Mediated Communication and Community, California:Sage Publications, Inc.
22. Ricardo, B.Y., & Berthier, R. N. (1999). Modern Information Retrieval. Don Mills. New York: ACM PRESS.
23. Robert N. Oddy. (1981). Laboratory Tests: Automatic Systems. In Information Retrieval Experiment. ed. Karan Sparck Jones. London: Boston, Butterworths. 161.
24. Salton, G., & Buckley, C. (1988). Term-weighting approaches in automatic retrieval.
Information Processing and Management. pp.323-328.
25. Salton, G., & Buckley, C. (1988). On the use of spreading activation methods in
automatic information retrieval. In Proceedings of the 11th International Conference on Research and Development in Information Retrieval, pp. 147-160.
26. Tefko Saracevic. (1975). Relevance: A Review of and a Framwork for the Thinking on the Notion in Information Science. Jurnal of the American Society for Information Science 26. 341-342.
27. Thompsen, P. A. & Foulger, D. A. (1996). Effects of pictographs and quoting on flaming in Electronic mail. Computers in Human Behavior, 12(2)pp.225-243.
28. Thorsten Joachims. (2001). A Statistical Learning Model of Text Classification for Support Vector Machines. Proceedings of the 23rd Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, pp. 128-136.
29. Yiming Yang, and Xin Liu. (2001). A Study on Thresholding Strategies for Text
Categorization, Proceedings of the 23rd Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval (2001), pp. 137-145.
60
30. Yang, Y., & Liu, X. (1999). A Re-Examination of Text Categorization Methods, Proceedings of the 22nd Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, pp. 42-49.
31. Wai Lam, and Chao Yang Ho. (1998). Using a Generalized Instance Set for Automatic Text Categorization, Proceedings of the 21st Annual International ACM-SIGIR
Conference on Research and Development in Information Retrieval, pp. 81-89.
32. Robert W.P. Luk & K.L. Kwok (2002). A Comparison of Chinese Document Indexing Strategies and Retrieval Models. ACM Transactions on Asian Language Information Processing, Vol. 1, No. 3, pp. 225-268.
61
62
63
64
65
66
67
68
69
70
71
72
附錄二 系統執行畫面 (1/5)
圖 1 子功能列表
圖 2 手動選擇訓練文章
73
附錄二 系統執行畫面 (2/5)
圖 3 隨機選擇訓練文章
圖 4 訓練文章斷詞
74
附錄二 系統執行畫面 (3/5)
圖 5 計算訓練文章權重
圖 6 計算敵意文章中心向量(hcv)
75
附錄二 系統執行畫面 (4/5)
圖 7 隨機選擇實際文章
圖 8 計算實際文章向量
76
附錄二 系統執行畫面 (5/5)
圖 9 計算實際文章與 hcv 的相似度
77
78
附錄三 討論篇數大於十篇之主題 (2/2)
序號 群組 篇數
41 Re: AMD Opteron 64 出了嗎?? 14
42 Re: 如何讓 3DMark2001 的分數破萬?? 14
43 Re: 請推薦一張適合我的顯示卡.... 13
44 Re: 請問 1.44 磁片.哪家的最好啊.!? 13
45 Re: 請問現在 SDRAM 和 DDR 哪個貴? 13
46 Re: 請問 35000 這樣配好咩? 13
47 Re: 請問 ATA100 跟 ATA133 效能會差很多嗎?? 13
48 Re: 請問怎麼更改顯示卡的頻率????? 13
49 Re: 請問 MX440SE 是不是比 MX440 效能差阿? 13
50 Re: 現在的顯示卡 13
51 Re: 矽統子公司圖誠科技取得 Trident 繪圖晶片設計團?… 13 52 Re: [問題]請問一下 MX480E,9000 PRO,FX5200 那塊好 13 53 Re: 請問 866 的 cpu 配上 ti4200 的顯示卡會太浪費嗎? 12
54 Re: 請問以購買下哪一款燒錄機較好? 12
55 Re: 請問我 xp1800 直接超到 166*11.5 會不會太冒險??? 12 56 Re: 19 吋 CRT 還是 17 吋 LCD? 12 57 Re: 用過 BenQ FP767 的人請進(很急..HELP~) 12
58 Re: 今天的地震有沒有人壞硬碟啊?! 12
59 Re: 三千元以內的顯示卡 12
60 Re: [問題] 想組台電腦 請問大家的意見 12
61 Re: 問個 LCD.. 12
62 Re:請推薦一台拋棄式的印表機!謝 11
63 Re: SCSI 的春天在那裡? 11
64 Re: [問題]電腦輻射 11
65 Re: 請推薦噴墨印表機... 10
66 Re: Asus P4P Deluxe 出貨了嗎?? 10
67 Re: 雙 cpu 的問題 10
68 Re: BIOS 錯誤訊息...求救 10
69 Re: 二千元到三千元 cpu+mb ?? 10
70 Re: Ti-4200 跑 3DMark2003 的分數應該多少? 10
79
附錄四 台灣學術網路 BBS 站管理使用公約 (1/2)
86.04.22 第一次修定 BBS(Bulletin Board System)具有訊息交換、線上交談、問題解答、經驗交流等多項功 能,舉凡校園資訊、圖書館服務、學術活動、交通資訊都盡在其中,為學校學生之最愛,
在台灣學術網路上甚為流行,因此為使網路資訊品質不流於浮濫,擬定以下規範做為 BBS 站管理者及使用者遵守之依據。各學校應為其 BBS 站負起督導責任,而各站管理 者需能配合督導其站內使用品質。
一、 管理方面
(一) 各學校應盡告知本公約之義務,並應為其 BBS 站等各類網路服務負起督導責任。
(二) 必須記錄遠端主機 ( remote host)及遠端使用者( remote username)以便追蹤問題來 源。
(三) 版面名稱必須定義清楚俾利使用者選擇適合的討論區。
(四) 討論區之設立與刪除由各站自行決定辦法。
(五) 版主(Board Manager)之產生、任期、罷免或辭職等辦法由各站自行決定。
(六) 各站之管理人與相關版主須為其版內之文章發佈做適切地選擇,促使使用者確實 針對討論區主題參予討論,必要時得刪除不適切的文章並於適當時機說明理由。
(七) 除有完善管理能力之單位建議不要使用 BBSnet 的功能。
(八) 各單位依據本公約,自訂管理辦法,並提報學校或機關之權責單位核備後公佈之。
二、 使用方面
(一) 使用者不得使用他人帳號,並且只有註冊者才能張貼文章,使用者應為自己所張 貼的每一篇文章負責,並遵守下列五點要求:
禁止利用 BBS 做為傳送或發表具威脅性、猥褻性、攻擊性的資料及文章。
禁止利用 BBS 做為傳送未經各站之管理單位核准之商業性資料。
禁止利用 BBS 做為傳送耗用大量傳送頻寬及儲存空間之資料。
禁止利用 BBS 做為干擾或破壞網路上其他使用者或節點之硬軟體系統,例如散佈電腦病 毒、嘗試侵入未經授權之電腦系統、或其他類似之情形者,皆在禁止範圍內。
避免在公眾討論區討論私人事務,發佈文章時,請尊重他人的權益及隱私。
(二) 註冊時,使用者必須註冊完全,必須告之〝真實姓名〞、〝地址〞與〝電子郵件地 址 (e-mail address)〞,註冊不全或違規使用者,系統管理者(SYSOP)有權清除其帳號。
三、其他
80
附錄四 台灣學術網路 BBS 站管理使用公約 (1/2)
(一) 各站的使用者所公開發表之著作,如涉嫌侵害他人之權利時,自負民事與刑事責 任,必要時各站可主動依法處理。
(二) 本公約之修訂需經台灣學術網路(TANet)管理委員會通過後施行。
81
附錄五 台灣學術網路使用規範 (1/1)
台灣學術網路之目的,係為支援台灣地區學校及研究機構間之教學研究活動,以相 互分享資源並相互提供合作機會。本使用規範主要敘述 TANet 資料傳輸使用之可接受性 範圍,若資料傳輸跨越其它網路時,TANet 之使用者仍有義務遵守其它網路之使用規範。
所有 TANet 使用者皆必須遵守及履行下列事項:
一、所有使用必須符合 TANet 之目的。
二、禁止使用 TANet 做為傳送具威脅性的、猥褻性的、不友善性的資料。為愛惜使用網 路頻寬,未得 TANet 骨幹網路相關節點的合作允許,禁止大量傳送及登載與原設立 目的不符的資訊。
三、商業性的合法資訊或軟體,若原創者或智慧財產權擁有者願意免費或優惠方式供 TANet 使用者使用,但必須由該節點之學校與資訊提供單位訂定相關合作事宜,方 得放置於 TANet 之節點上,必要時得提 TANet 管理委員會協調處理。
四、禁止使用 TANet 做為干擾或破壞網路上其它使用者或節點之硬軟體系統,此種干擾 與破壞如散佈電腦病毒、嘗試侵入未經授權之電腦系統、或其它類似之情形者皆在
四、禁止使用 TANet 做為干擾或破壞網路上其它使用者或節點之硬軟體系統,此種干擾 與破壞如散佈電腦病毒、嘗試侵入未經授權之電腦系統、或其它類似之情形者皆在