未來研究方向

第四章、結果與討論

4.4 未來研究方向

(1)降低 HCV 的維度：在計算 hcv 時，隨機抽樣出 10 篇文章進行實驗，所需時間約 2 小時 20 分左右，計算一篇文章相似度的平均時間約 14 分左右，未來研究可朝向如何在不影響分類成效的前提下，降

５７

低 hcv 的維度，以提昇分類效率。

(2)敵意文章組成方式：本研究並未對會形成敵意文章的二連字詞進行研究，僅在附錄中列出出現次數高於 10 次的二連字詞，未來可研究敵意文章中某些特別語詞是否出現頻率較高，以深入了解敵意文章組成。

(3)自動取得最佳門檻值：本研究是以半自動的方式取得門檻值，需要先進行門檻值實驗，求出第一次最佳門檻值後，在真實環境中進行實驗，

觀察分類結果，並進一步調整較佳門檻值，未來可研究將門檻值設定程序自動化的方法，降低人為誤差，以提昇分類成效。

(4)敵意文章的定義：本研究為敵意文章分級系統初探，在進行文章分級時，僅透過敵意的外顯行為，也就是論戰，來將敵意與非敵意文章進行初步分類，未來可研究針對敵意文章進行直接的定義或是給定操作型定義，以便針對敵意文章，做進一步的分級。

(5)不同主題所造成 hcv 的差異：本研究僅利用統計方法，證明不同主題所形成的 hcv 具有差異，但並未針對造成差異的原因，進行質化研究，未來可研究造成不同主題 hcv 產生差異的原因，以便找出較能代表敵意文章的 hcv。

(6)心理敵意與敵意文章之關聯：敵意是人類心理的狀態，而敵意文章則是敵意的外顯行為，未來可研究兩者之間的關聯性，也就是個體在具有敵意的狀態下，是如何產生敵意文章，以及敵意文章是如何使個體產生敵意，來釐清敵意與非敵意文章之間的關聯性。

(7)減少敵意文章之機制：大量的敵意文章，常會造成網管人員的困擾，也會提高個體產生衝突的可能性，因此一般的管理模式，僅能被動的找出敵意文章後，將其刪除，但其負面影響通常已產生，未來可研究敵意文章自動消除的機制，在敵意文章出現之初即由系統進行消除的動作，以減少負面影響。

５８

參考文獻

01. 江玉婷 (民 89)。中文資訊檢索測試集之設計與製作。資訊傳播與圖書館學，6 卷，

3 期，61-80。

02. 黃雲龍 (民 86)。中文全文文件群集索引理論研究--向量空間模型(Vector-Space Model) 的建構。國立台灣大學商學研究所博士論文。

03. 曾元顯 (民 91)。文件主題自動分類成效因素探討。中國圖書館學會會報，68 期，

62-83。

04. 楊允言 (民82)。文件自動分類及其相似性排序。國立清華大學資訊科學研究所碩士論文。

05. 楊允言、陳淑美、陳克健、謝清俊 (民88)。中文文件自動分類之探討。大漢學報第 13期，241-256。

06. 謝清俊、林晰 (民86)。「中央研究院古籍全文資料庫的發展概要」，台北：中央研究院資訊科學研究所文獻處理實驗室技術報告，2-3。

07. Belkin. (1992). Information Filtering and Information Retrieval. Communications of the ACM. 35(12).

08. Buss, A., J. Fischer, & A. Simmons. (1968). Aggression and hostility in psychiatric patients. Journal of Consulting and Clinical Psychology 32: 21.

09. Cook, W., & Medley, D. (1954). Proposed hostility and pharisaic-virtue for the MMPI.

Journal of Applied Psychology, 38, 414-418.

10. Ellen M. Voorhees. (1998). Variations in Relevance Judgments and the Measurement of Retrieval Effectiveness. In Proceedings of the 21^st ACM-SIGIR International Conference on Research and Development in Information Retrieval, Melbourne, 315-323.

11. Foo, S., & Li, H. (2001). Chinese Word Segmentation Accuracy and Its Effects on Information Retrieval. TEXT Technology.

12. Fred Annexstein. (2002). Indexing and Representation:The Vector Space Model Retrieved, December 25, 2003, from the World Wide Web:

http://www.ececs.uc.edu/~annexste/Courses/cs690/Indexing%20and%20Representation.p pt

13. Jane Reid and Stefano Mizzaro. (1998). On the Consensus between Relevance Judges in a Multi-media Context. In Proceeding of the 6^th Mira Workshop, Dublin, October 20-30, http://www.dcs.gla.ac.uk/mira/workshops/dublin/procs/mr.pdf.

14. Jason D. M.Rennie, & Ryan Rifkin. (2001). Improving Multiclass Text Classification with the Support Vector Machine, Massachusetts Institute of Technology. AI

MemoAIM-2001-026. http://www.ai.mit.edu/~jrennie/papers/aimemo2001.ps.gz

５９

15. Jhy-Jong Tsay, & Jing-Doo Wang. (2000). Improving Automatic Chinese Text

Categorization by Error Correction, Proceedings of the 5^th International Workshop on Information Retrieval with Asian Languages, pp. 1-8.

16. Karan Sparck Jones, & C. J. van Rijsber-gen. (1976). Information Retrieval Test Collections. Journal of Documentation 32 : 63-73.

17. Karan Sparck Jones. (1981). The Cranfield Tests. In Information Retrieval Experiment. ed.

Karan Sparck Jones London; Boston: Butteerworths.

18. Leah S. Larkey, & W. Bruce Croft. (1996). Combining Classifiers in Text Categorization.

Proceedings of the 19^th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval. pp. 289-297.

19. Marc Damashek. (1995). Gauging Similarity with N-grams: Language-Independent Categoriza-tion of Text. Science 267， pp.843-848.

20. Pia Borlund, & Peter Ingwersen. (1997). The Development of a Method for the

Evaluation of Interactive Information Retrieval Systems. Journal of Documentation 53.

no. 3: 226.

21. Reid, E. (1995). Virtual worlds：culture and imagination. From Jones, S. G.（Ed.）.

Cybersociey：Computer-Mediated Communication and Community, California：Sage Publications, Inc.

22. Ricardo, B.Y., & Berthier, R. N. (1999). Modern Information Retrieval. Don Mills. New York: ACM PRESS.

23. Robert N. Oddy. (1981). Laboratory Tests: Automatic Systems. In Information Retrieval Experiment. ed. Karan Sparck Jones. London: Boston, Butterworths. 161.

24. Salton, G., & Buckley, C. (1988). Term-weighting approaches in automatic retrieval.

Information Processing and Management. pp.323-328.

25. Salton, G., & Buckley, C. (1988). On the use of spreading activation methods in

automatic information retrieval. In Proceedings of the 11th International Conference on Research and Development in Information Retrieval, pp. 147-160.

26. Tefko Saracevic. (1975). Relevance: A Review of and a Framwork for the Thinking on the Notion in Information Science. Jurnal of the American Society for Information Science 26. 341-342.

27. Thompsen, P. A. & Foulger, D. A. (1996). Effects of pictographs and quoting on flaming in Electronic mail. Computers in Human Behavior, 12（2）pp.225-243.

28. Thorsten Joachims. (2001). A Statistical Learning Model of Text Classification for Support Vector Machines. Proceedings of the 23^rd Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, pp. 128-136.

29. Yiming Yang, and Xin Liu. (2001). A Study on Thresholding Strategies for Text

Categorization, Proceedings of the 23^rd Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval (2001)， pp. 137-145.

６０

30. Yang, Y., & Liu, X. (1999). A Re-Examination of Text Categorization Methods, Proceedings of the 22^nd Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, pp. 42-49.

31. Wai Lam, and Chao Yang Ho. (1998). Using a Generalized Instance Set for Automatic Text Categorization, Proceedings of the 21^st Annual International ACM-SIGIR

Conference on Research and Development in Information Retrieval, pp. 81-89.

32. Robert W.P. Luk & K.L. Kwok (2002). A Comparison of Chinese Document Indexing Strategies and Retrieval Models. ACM Transactions on Asian Language Information Processing, Vol. 1, No. 3, pp. 225-268.

６１

６２

６３

６４

６５

６６

６７

６８

６９

７０

７１

７２

附錄二系統執行畫面 (1/5)

圖 1 子功能列表

圖 2 手動選擇訓練文章

７３

附錄二系統執行畫面 (2/5)

圖 3 隨機選擇訓練文章

圖 4 訓練文章斷詞

７４

附錄二系統執行畫面 (3/5)

圖 5 計算訓練文章權重

圖 6 計算敵意文章中心向量(hcv)

７５

附錄二系統執行畫面 (4/5)

圖 7 隨機選擇實際文章

圖 8 計算實際文章向量

７６

附錄二系統執行畫面 (5/5)

圖 9 計算實際文章與 hcv 的相似度

７７

７８

附錄三討論篇數大於十篇之主題 (2/2)

序號群組篇數

41 Re: AMD Opteron 64 出了嗎?? 14

42 Re: 如何讓 3DMark2001 的分數破萬?? 14

43 Re: 請推薦一張適合我的顯示卡.... 13

44 Re: 請問 1.44 磁片.哪家的最好啊.!? 13

45 Re: 請問現在 SDRAM 和 DDR 哪個貴? 13

46 Re: 請問 35000 這樣配好咩? 13

47 Re: 請問 ATA100 跟 ATA133 效能會差很多嗎?? 13

48 Re: 請問怎麼更改顯示卡的頻率????? 13

49 Re: 請問 MX440SE 是不是比 MX440 效能差阿? 13

50 Re: 現在的顯示卡 13

51 Re: 矽統子公司圖誠科技取得 Trident 繪圖晶片設計團?… 13 52 Re: [問題]請問一下 MX480E,9000 PRO,FX5200 那塊好 13 53 Re: 請問 866 的 cpu 配上 ti4200 的顯示卡會太浪費嗎？ 12

54 Re: 請問以購買下哪一款燒錄機較好？ 12

55 Re: 請問我 xp1800 直接超到 166*11.5 會不會太冒險??? 12 56 Re: 19 吋 CRT 還是 17 吋 LCD? 12 57 Re: 用過 BenQ FP767 的人請進(很急..HELP~) 12

58 Re: 今天的地震有沒有人壞硬碟啊?! 12

59 Re: 三千元以內的顯示卡 12

60 Re: [問題] 想組台電腦請問大家的意見 12

61 Re: 問個 LCD.. 12

62 Re:請推薦一台拋棄式的印表機！謝 11

63 Re: SCSI 的春天在那裡? 11

64 Re: [問題]電腦輻射 11

65 Re: 請推薦噴墨印表機... 10

66 Re: Asus P4P Deluxe 出貨了嗎?? 10

67 Re: 雙 cpu 的問題 10

68 Re: BIOS 錯誤訊息...求救 10

69 Re: 二千元到三千元 cpu+mb ?? 10

70 Re: Ti-4200 跑 3DMark2003 的分數應該多少? 10

７９

附錄四台灣學術網路 BBS 站管理使用公約 (1/2)

86.04.22 第一次修定 BBS(Bulletin Board System)具有訊息交換、線上交談、問題解答、經驗交流等多項功能，舉凡校園資訊、圖書館服務、學術活動、交通資訊都盡在其中，為學校學生之最愛，

在台灣學術網路上甚為流行，因此為使網路資訊品質不流於浮濫，擬定以下規範做為 BBS 站管理者及使用者遵守之依據。各學校應為其 BBS 站負起督導責任，而各站管理者需能配合督導其站內使用品質。

一、管理方面

(一) 各學校應盡告知本公約之義務，並應為其 BBS 站等各類網路服務負起督導責任。

(二) 必須記錄遠端主機 ( remote host)及遠端使用者( remote username)以便追蹤問題來源。

(三) 版面名稱必須定義清楚俾利使用者選擇適合的討論區。

(四) 討論區之設立與刪除由各站自行決定辦法。

(五) 版主(Board Manager)之產生、任期、罷免或辭職等辦法由各站自行決定。

(六) 各站之管理人與相關版主須為其版內之文章發佈做適切地選擇，促使使用者確實針對討論區主題參予討論，必要時得刪除不適切的文章並於適當時機說明理由。

(七) 除有完善管理能力之單位建議不要使用 BBSnet 的功能。

(八) 各單位依據本公約，自訂管理辦法，並提報學校或機關之權責單位核備後公佈之。

二、使用方面

(一) 使用者不得使用他人帳號，並且只有註冊者才能張貼文章，使用者應為自己所張貼的每一篇文章負責，並遵守下列五點要求：

禁止利用 BBS 做為傳送或發表具威脅性、猥褻性、攻擊性的資料及文章。

禁止利用 BBS 做為傳送未經各站之管理單位核准之商業性資料。

禁止利用 BBS 做為傳送耗用大量傳送頻寬及儲存空間之資料。

禁止利用 BBS 做為干擾或破壞網路上其他使用者或節點之硬軟體系統，例如散佈電腦病毒、嘗試侵入未經授權之電腦系統、或其他類似之情形者，皆在禁止範圍內。

避免在公眾討論區討論私人事務，發佈文章時，請尊重他人的權益及隱私。

(二) 註冊時，使用者必須註冊完全，必須告之〝真實姓名〞、〝地址〞與〝電子郵件地址 (e-mail address)〞，註冊不全或違規使用者，系統管理者(SYSOP)有權清除其帳號。

三、其他

８０

附錄四台灣學術網路 BBS 站管理使用公約 (1/2)

(一) 各站的使用者所公開發表之著作，如涉嫌侵害他人之權利時，自負民事與刑事責任，必要時各站可主動依法處理。

(二) 本公約之修訂需經台灣學術網路(TANet)管理委員會通過後施行。

８１

附錄五台灣學術網路使用規範 (1/1)

台灣學術網路之目的，係為支援台灣地區學校及研究機構間之教學研究活動，以相互分享資源並相互提供合作機會。本使用規範主要敘述 TANet 資料傳輸使用之可接受性範圍，若資料傳輸跨越其它網路時，TANet 之使用者仍有義務遵守其它網路之使用規範。

所有 TANet 使用者皆必須遵守及履行下列事項：

一、所有使用必須符合 TANet 之目的。

二、禁止使用 TANet 做為傳送具威脅性的、猥褻性的、不友善性的資料。為愛惜使用網路頻寬，未得 TANet 骨幹網路相關節點的合作允許，禁止大量傳送及登載與原設立目的不符的資訊。

三、商業性的合法資訊或軟體，若原創者或智慧財產權擁有者願意免費或優惠方式供 TANet 使用者使用，但必須由該節點之學校與資訊提供單位訂定相關合作事宜，方得放置於 TANet 之節點上，必要時得提 TANet 管理委員會協調處理。

四、禁止使用 TANet 做為干擾或破壞網路上其它使用者或節點之硬軟體系統，此種干擾與破壞如散佈電腦病毒、嘗試侵入未經授權之電腦系統、或其它類似之情形者皆在

在文檔中自動化文章敵意分級系統之初探研究 (頁 56-84)

第四章、 結果與討論

4.4 未來研究方向

第四章、結果與討論