• 沒有找到結果。

第一章 緒論

1.1 研究背景與動機

隨著網際網路的普及化,民眾平均上網時間年年升高。根據資策會FIND統 計,截至2008/12/31年底,國人經常上網人口為1,046萬人,網際網路連網應用普 及率為45% [28];時報周刊也統計,台灣人一週的平均上網時數為12.6小時

[29],占日常生活各項作息時間之比重愈來愈大。由此可知網路已經變成生 活的一部分。

網際網路的使用型態與經營模式,自2000年網路泡沫化後,邁向了另一個新 階段,在2004年O'Reilly提出Web 2.0的概念後[15],更朝著使用者導向的服務模 式發展。想要在網路上打響名氣,沒有集合大眾智慧、讓使用者有展現自我的平 台,是很難成功的。舉凡自網路泡沫化存活下來的Amazon、eBay,及現在變成 人們生活一部分的Wikipedia、flickr、del.icio.us、facebook、無名小站、YouTube、

HEMiDEMi…等,這些網站都是以人為基礎,且由大量使用者摒棄利己小我的精 神,各自提供少量的資訊,最後形成利他大我龐大的資料庫。這種「分享式」的 行為模型與「參與式」的軟體架構已成為Web 2.0的核心價值[15]。

在Web 2.0各種應用中,從del.cio.us的網路書籤共享推出後,再加上YouTube 影音分享,還有flickr的圖片共享…等網站的鼓舞下,使用者能夠恣意地將他們 喜愛的網站、影音、照片、甚至學術性質的文章…等,用自己的方式進行分類、

標記關鍵字,這些標記的關鍵字通常稱為標籤(Tag),使用者可以分享彼此的標 籤,甚至再把標註相同標籤的物件集合起來成為一個新的組織分類。因此,可 以說這些社會性標籤(Social Tagging)是Web 2.0網站的重要辨別特徵[24]。

社會性標籤是一種運用集體力量收藏和分享標籤的機制,就像長尾理論

2

中,尾巴「聚少成多」的力量得以發揮最大的效益,眾多小人物的智慧是不可 被低估和忽略的。社會性標籤也是一種不同於傳統由內容作者自行下關鍵字,

或是由分類學專家來對內容加以分類的方式。

如此讓社會性標籤蔚為盛行的原因,其實不是標籤本身,而是其背後社交 (Social)的特質,是一種促進社會對話的標記行為。具體而言,即是希望一群人,

不論主動或被動、刻意或自然,透過標籤來產生對話或互動。而社交特質最重要 的目的即是產生有意義的關聯,以便使用者搜尋及發掘資訊,例如找到志同道合 的人就是一種頗有價值的關聯[23]。社會性標籤因為將分類的權力下放給每位網 友,每位網友可以天馬行空對文章、圖片、影音等進行標記,從這些標籤可以學 習到許多趨勢上的變化及社會、文化現象上的脈動,例如在不同的時空環境下,

使用者使用「很囧」這標籤時,所表示的事件不一定相同;在同樣的時空環境中,

亦能透過標籤找出具有類似概念的網路資源,同時得知來自四面八方的使用者對 這些資源的看法描述。網路使用者如何多樣化地描述各式網路內容,就是讓社會 性標籤的價值得以彰顯的原因。

本研究以社會性標籤的社會性特質為出發點,藉著時間序列分群(Time Series Clustering)方式,更精細地檢視社會性標籤隨時間變化的趨勢。就以下例子作說 明:

假設「奧運」、「中國」、「北京」、「政治」、「台灣」這五個標籤出現 在

p 、

i

p 、

j

p 、

k

p 、

l

p 等五個時間點的次數為表

m 1。若以整個時間區間來看,

傳統不考慮時間序列的分群法會將中國和奧運分在同一群,因為其字詞出現總頻 率較接近。但換用時間點檢視(如圖 1),會發現和中國、政治、台灣等三個標籤 的時間序列曲線最為相似,因此,中國、政治、台灣所表示的事件其關連度應該 比中國、奧運來得緊密。

3

表 1 標籤次數表

p

i

p

j

p

k

p

l

p

m 總數 奧運 40 20 0 2 0 62 中國 15 15 15 15 15 75 北京 10 11 0 6 8 35 政治 5 10 20 10 8 53 台灣 6 9 19 8 10 52

圖 1 標籤時間序列圖

4

1.2 研究目的

本研究之目的在於將時間序列分群運用於社會性標籤上,並希望藉此挖掘出 不同的主題概念,再檢視不同時間區間社會性標籤的變化趨勢,瞭解社會現象的 脈動。透過檢視社會性標籤在每個時間點出現情形的變化,社會性標籤的時間序 列分群以標籤的時間序列走勢做為判斷不同標籤相似與否的依據。

本研究利用時間序列的分群演算法,處理網路使用者的社會性標籤和被標記 的網頁內容,擷取出具有時間概念的主題,進而推薦給使用者。整體的研究方向 如下:

一、 透過時間序列化的標籤,讓使用者瞭解在特定時間區間擁有相同走 勢的標籤組合。

二、 針對單一標籤的搜尋結果,觀察與此標籤相關之標籤在不同時間區 間的變化情形。

三、 計算不同時間區間的群聚相似度,推薦其他時間區間擁有相似主題 概念的標籤給使用者。

5

1.3 論文架構

本論文在第二章將進行社會性標籤、時間序列分析、分群方式等三大主題的 文獻回顧。第三章則詳細描述本研究如何進行文章前置處理作業,進而產生時間 序列;如何運用產生的時間序列進行分群演算法,形成最後的分群結果推薦給使 用者。第四章介紹本研究所開發之雛形系統,並透過質化與量化分析方式比較有 無使用時間序列分群結果的差異。第五章總結本研究,並說明未來發展方向。論 文整體架構如圖 2所示。

圖 2 論文整體架構

6

相關文件