緒論 - 運用時間序列分群於社會性標籤之研究

第一章緒論

1.1 研究背景與動機

隨著網際網路的普及化，民眾平均上網時間年年升高。根據資策會FIND統計，截至2008/12/31年底，國人經常上網人口為1,046萬人，網際網路連網應用普及率為45% [28]；時報周刊也統計，台灣人一週的平均上網時數為12.6小時

[29]，占日常生活各項作息時間之比重愈來愈大。由此可知網路已經變成生活的一部分。

網際網路的使用型態與經營模式，自2000年網路泡沫化後，邁向了另一個新階段，在2004年O'Reilly提出Web 2.0的概念後[15]，更朝著使用者導向的服務模式發展。想要在網路上打響名氣，沒有集合大眾智慧、讓使用者有展現自我的平台，是很難成功的。舉凡自網路泡沫化存活下來的Amazon、eBay，及現在變成人們生活一部分的Wikipedia、flickr、del.icio.us、facebook、無名小站、YouTube、

HEMiDEMi…等，這些網站都是以人為基礎，且由大量使用者摒棄利己小我的精神，各自提供少量的資訊，最後形成利他大我龐大的資料庫。這種「分享式」的行為模型與「參與式」的軟體架構已成為Web 2.0的核心價值[15]。

在Web 2.0各種應用中，從del.cio.us的網路書籤共享推出後，再加上YouTube 影音分享，還有flickr的圖片共享…等網站的鼓舞下，使用者能夠恣意地將他們喜愛的網站、影音、照片、甚至學術性質的文章…等，用自己的方式進行分類、

標記關鍵字，這些標記的關鍵字通常稱為標籤(Tag)，使用者可以分享彼此的標籤，甚至再把標註相同標籤的物件集合起來成為一個新的組織分類。因此，可以說這些社會性標籤(Social Tagging)是Web 2.0網站的重要辨別特徵[24]。

社會性標籤是一種運用集體力量收藏和分享標籤的機制，就像長尾理論

中，尾巴「聚少成多」的力量得以發揮最大的效益，眾多小人物的智慧是不可被低估和忽略的。社會性標籤也是一種不同於傳統由內容作者自行下關鍵字，

或是由分類學專家來對內容加以分類的方式。

如此讓社會性標籤蔚為盛行的原因，其實不是標籤本身，而是其背後社交 (Social)的特質，是一種促進社會對話的標記行為。具體而言，即是希望一群人，

不論主動或被動、刻意或自然，透過標籤來產生對話或互動。而社交特質最重要的目的即是產生有意義的關聯，以便使用者搜尋及發掘資訊，例如找到志同道合的人就是一種頗有價值的關聯[23]。社會性標籤因為將分類的權力下放給每位網友，每位網友可以天馬行空對文章、圖片、影音等進行標記，從這些標籤可以學習到許多趨勢上的變化及社會、文化現象上的脈動，例如在不同的時空環境下，

使用者使用「很囧」這標籤時，所表示的事件不一定相同；在同樣的時空環境中，

亦能透過標籤找出具有類似概念的網路資源，同時得知來自四面八方的使用者對這些資源的看法描述。網路使用者如何多樣化地描述各式網路內容，就是讓社會性標籤的價值得以彰顯的原因。

本研究以社會性標籤的社會性特質為出發點，藉著時間序列分群(Time Series Clustering)方式，更精細地檢視社會性標籤隨時間變化的趨勢。就以下例子作說明：

假設「奧運」、「中國」、「北京」、「政治」、「台灣」這五個標籤出現在

p 、

p 等五個時間點的次數為表

_m 1。若以整個時間區間來看，

傳統不考慮時間序列的分群法會將中國和奧運分在同一群，因為其字詞出現總頻率較接近。但換用時間點檢視(如圖 1)，會發現和中國、政治、台灣等三個標籤的時間序列曲線最為相似，因此，中國、政治、台灣所表示的事件其關連度應該比中國、奧運來得緊密。

表 1 標籤次數表

p

_m 總數奧運 40 20 0 2 0 62 中國 15 15 15 15 15 75 北京 10 11 0 6 8 35 政治 5 10 20 10 8 53 台灣 6 9 19 8 10 52

圖 1 標籤時間序列圖

1.2 研究目的

本研究之目的在於將時間序列分群運用於社會性標籤上，並希望藉此挖掘出不同的主題概念，再檢視不同時間區間社會性標籤的變化趨勢，瞭解社會現象的脈動。透過檢視社會性標籤在每個時間點出現情形的變化，社會性標籤的時間序列分群以標籤的時間序列走勢做為判斷不同標籤相似與否的依據。

本研究利用時間序列的分群演算法，處理網路使用者的社會性標籤和被標記的網頁內容，擷取出具有時間概念的主題，進而推薦給使用者。整體的研究方向如下：

一、透過時間序列化的標籤，讓使用者瞭解在特定時間區間擁有相同走勢的標籤組合。

二、針對單一標籤的搜尋結果，觀察與此標籤相關之標籤在不同時間區間的變化情形。

三、計算不同時間區間的群聚相似度，推薦其他時間區間擁有相似主題概念的標籤給使用者。

1.3 論文架構

本論文在第二章將進行社會性標籤、時間序列分析、分群方式等三大主題的文獻回顧。第三章則詳細描述本研究如何進行文章前置處理作業，進而產生時間序列；如何運用產生的時間序列進行分群演算法，形成最後的分群結果推薦給使用者。第四章介紹本研究所開發之雛形系統，並透過質化與量化分析方式比較有無使用時間序列分群結果的差異。第五章總結本研究，並說明未來發展方向。論文整體架構如圖 2所示。

圖 2 論文整體架構

在文檔中運用時間序列分群於社會性標籤之研究 (頁 13-18)

緒論

第一章 緒論

1.1 研究背景與動機

p 、

p 、

p 、

p 、

p 等五個時間點的次數為表

p

p

p

p

p

1.2 研究目的

1.3 論文架構

第一章緒論