• 沒有找到結果。

第五章 結論與建議

5.1 結論

本研究之主要目的在於利用社會性標籤及其標記的網頁內容,藉由時間序列 分群,發掘出主題概念,並檢視不同時間區間社會性標籤的變化趨勢。本研究首 先收集黑米共享書籤網站裡的標籤,根據其所標記之網頁內容轉換為時間序列的 形式,找出在同一時間區間擁有相似走勢的標籤群聚,形成主題概念;接著計算 不同時間區間所形成之群聚的相似度,以萃取出所有時間區間中擁有相似主題概 念的群聚和包含於內的標籤;此外,對於同一標籤,分析其在各時間區間的變化 趨勢,以及相關連的標籤和網頁。最後,透過開發之雛型介面將前述研究成果整 合。經實驗與分析,本研究的結果整理如下:

一、 本研究透過時間序列化的標籤,利用餘弦相似度比對和階層式分群 演算法找出在特定時間區間擁有相同走勢的標籤組合。在蒐集2008 年HEMiDEMi中的部分資料,共計有3,629個網頁,以兩個星期為一 單位,將一年分為26個時間區間,使用2707個不重複標籤,共產生 1225群。

二、 本研究利用計算群的內聚力、分離度和整體分群品質來評斷分群的 品質,經實驗結果發現,使用時間序列與否的分群結果在前述三項 指標上並無太大差異。

三、 本研究將2008年以兩個星期為一單位分成26個時間區間,藉由視覺 化的介面,讓使用者檢視同一標籤在不同時間區間的主題概念變化 情形,如4.2.2的電影標籤之變化趨勢。

四、 本研究利用餘弦相似度計算不同時間區間中所構成之標籤群聚的

60

61

英文對照的問題,例如:是pixnet還是痞客邦。若能產生權威控制(Authority Control)資料庫或知識本體(Ontology)來表示同一概念的不同用詞,便可增加 後續分群結果的準確性。

IV. 書籤分類

本研究在蒐集黑米書籤時,並沒有進行如圖 31的書籤分類動作。若能 在一開始蒐集資料時,就先將書籤分類,則在後續分群結果上,可以更精確 地觀看不同類別隨時間變化的標籤應用趨勢。例如:在運動類別裡,就可以 看不同主題(籃球、棒球、網球)在不同時間區間的相關標籤。

圖 31 HEMiDEMi書籤分類

62

參考資料

[1] Agrawal, R., Lin, K. I., Sawhney, H. S., and Shim, K., "Fast Similarity Search in the Presence of Noise, Scaling, and Translation in Time-Series Databases," In Proc.

the 21st Int'l Conf. on Very Large Data Bases, Zurich, Switzerland, pp. 490-501,

Sept. 1995.

[2] A. K. Jain, M. N. Murty, & P. J. Flynn, "Data clustering: A review, " ACM

Computing Surveys, vol. 31, pp. 264-323, 1999.

[3] B. Bollobás, G. Das, D. Gunopulos and H. Mannila, "Time-series similarity problems and well-separated geometric sets," in SCG '97: Proceedings of the

Thirteenth Annual Symposium on Computational Geometry, 1997, pp. 454-456.

[4] D. Goldin and P. Kanellakis, "On similarity queries for time-series data:

Constraint specification and implementation," Principles and Practice of

Constraint Programming — CP '95, pp. 137-153, 1995.

[5] D. Koller and M. Sahami, "Hierarchically classifying documents using very few words," Stanford InfoLab, 1997.

[6] E. M. Voorhees, "Implementing agglomerative hierarchical clustering algorithms for use in document retrieval," Information Processing & Management, vol. 22, pp.

465-476, 1986.

[7] T. Hammond, T. Hannay, B. Lund, and J. Scott, "Social bookmarking tool (1) – A general review," D-Lib Magazine, vol.11, 4, Retrieved June 1, 2009, from

http://www.dlib.org/dlib/april05/hammond/04hammond.h

[8] Han J., Kamber M., " Data Mining: Concepts and Techniques, " Morgan Kaufmann, San Francisco. pp. 346–389, 2001.

[9] Hsi-Cheng Chang and Chiun-Chieh Hsu, "Using topic keyword clusters for automatic document clustering," Information Technology and Applications, 2005.

63

ICITA 2005. Third International Conference on, vol. 1, pp. 419-424 vol.1, 2005.

[10] S. Salvador and P. Chan, "Toward accurate dynamic time warping in linear time and space," Intelligent Data Analysis, vol. 11, pp. 561-580, 01/01. 2007.

[11] Smith Gene, "Tagging: Emerging Trends, "

http://www.asis.org/Bulletin/Aug-08/AugSep08_Smith.html , August/September 2008

[12] J. J. Van Wijk and E. R. Van Selow, "Cluster and calendar based visualization of time series data," Information Visualization, 1999. (Info Vis '99) Proceedings.

1999 IEEE Symposium on, pp. 4-9, 140, 1999.

[13] J. MacQueen, "Some methods for classification and analysis of multivariate observations, " in Proc. 5th Berkeley Symp., vol. 1, 1967, pp. 281-297.

[14] L. Kauffman and P. Rousseeuw, Finding Groups in Data: An Introduction to

Cluster Analysis. J. Wiley & Sons, 1990.

[15] T. O'Reilly, " What Is Web 2.0: Design Patterns and Business Models for the Next Generation of Software," COMMUNICATIONS & STRATEGIES, no. 65, p.

17, 1st quarter 2007.

[16] T. W. Wal, "folksonomy,"Online Information Conference 2005 in London, Retrieved June 3, 2009, from

http://vanderwal.net/essays/051130/folksonomy.pdf

[17] Warren, "Clustering of time series data--a survey," Pattern Recognition, vol. 38, pp. 1857-1874, 11. 2005.

[18] Wu, Ji He, Ah-hwee Tan,Chew-lim Tan,W., "On Quantitative Evaluation of Clustering Systems," 09/04. 2002.

[19] Z. Xu, Y. Fu, J. Mao and D. Su, "Towards the semantic web: Collaborative tag suggestions," in WWW2006: Proceedings of the Collaborative Web Tagging

64

Workshop, 2006.

[20] Kappa Statistics - http://www.dmi.columbia.edu/homepages/chuangj/kappa [21]Orcale Text Reference-

http://download.oracle.com/docs/cd/B19306_01/text.102/b14218/astopsup.htm#st href2545

[22] Wikipedia, "Time series", Retrieved June 7, 2009, from http://en.wikipedia.org/wiki/Time_series

[23] 卜小蝶, "淺談社會性標記之意涵與應用",論文發表於淡江大學圖書館舉辦 之「Web 2.0 與圖書館」研討會,臺北市,2006年12 月。

[24] 卜小蝶 , "使用者導向之網路資源組織與檢索",2007年.

[25] 中文斷詞系統簡介說明,http://ckipsvr.iis.sinica.edu.tw/

[26] 中央研究院平衡語料庫詞集及詞頻統計, http://www.aclclp.org.tw/doc/wlawf_abstract.pdf

[27] 黑米共享書籤HEMiDEMi,http://www.HEMiDEMi.com/home.

[28] 資策會, "2008年12月底止台灣上網人口", Retrieved June 3,2009, from http://www.find.org.tw/find/home.aspx?page=many&id=219

[29] 陳建誌 , "Web 3.0 時代來臨 是好是壞?",電子商務時報, Retrieved June 3, 2009, from http://www.ectimes.org.tw/shownews.aspx?id=081012153724 , 2008 年

[30] 鄧兆旻, "Social Tagging火紅新網路商機逐漸成形",數位時代,Retrieved June 3, 2009, from http://www.bnext.com.tw/LocalityView_7648 , 2006年。

65

VH VH11,12,13,14,15,17,VH21 /*狀態不及物動詞*/

VHC VH16, VH22 /*狀態使動動詞/

1 斜體詞類,表示在技術報告#93-05中沒有定義,即後來增列的。

66

VI VI1,2,3 /*狀態類及物動詞*/

VJ VJ1,2,3 /*狀態及物動詞*/

VK VK1,2 /*狀態句賓動詞*/

VL VL1,2,3,4 /*狀態謂賓動詞*/

V_2 V_2 /*有*/

DE /*的, 之, 得, 地*/

SHI /*是*/

FW /*外文標記*/

相關文件