• 沒有找到結果。

第四章 系統發展與結果分析

4.4 討論與分析

本研究的分群結果中,有些群聚十分匪夷所思,探究其可能原因涵蓋了多面 向,以下就幾個案例探討之:

I. 案例一:因重複標籤而被分在同一群

圖 28為某時間區間,性/別人權、全球化、女性、奧運、kmt…等隸屬 同一群。

圖 28 案例一分群結果

仔細檢視與這一群聚最相關的網頁,如表 23,若僅觀察網頁標題,尚無法 理解北京奧運和女性間的關聯性。然而,觀察使用者使用的標籤,發現原來二者 間的共通點都是「bbc」,原來這三個網頁都來自於bbc新聞。從圖 29可以清楚 看到標籤bbc將奧運、女性、中國…等標籤串接起來。

55

表 23 案例一相關網頁和使用標籤

網頁標題 使用標籤

北京奧運將首次准許運動員寫博客2008 年02月16日

bbc 奧運 中國 blog 公民新聞 言論自由 新媒體 數位媒體 網際網路

BBC 中文網 中國報導 人權觀察年度報 告批評中國人權狀況2008年01月31日

bbc 人權 奧運 中國 社會關懷 全球化

台灣來鴻:馬英九的女人們2008年02月21 日

bbc 觀點 女性 選舉 馬英九 世代 性別 kmt 性/別人權 詮釋權

圖 29 案例一分群結果連結

受使用者在主題差別甚大之網頁中標記相同標籤的影響,使得在計算相似度 時,這些不是很相關的網頁有了某種程度的關聯;這種情況發生在使用者想辨別 所標記的書籤是何種類型,例如:是一則新聞或一篇部落格文章;或定義較模糊 不清的標籤上,例如:地名、心情類的標籤。因此在進行分群時,容易使得原本

56

分離的兩群,合併在一起。容易造成分群結果整體而言不是很相關,但細看卻又 似乎有點關連性。當要評斷分群結果良窳時,會不知怎麼拿捏這樣的分群結果。

但上述分群結果也跟分群時使用的距離演算法有關,因本研究使用的是平均 連結聚合方式,為計算不同群聚間各點與各點間距離總和的平均。方法不夠嚴 謹,使得有些點和點間彼此是沒有關連的,以表 1表 24標籤奧運與標籤女性及 標籤kmt 彼此之間的相似度為零,而有些卻有高度關連,標籤 bbc 與標籤奧運及 標籤女性、標籤kmt,彼此平均後,造成整體而言經過計算後是有相關連進而分 在同一群聚中。假設換用完整連結聚合方式計算群聚間的距離為不同群聚中最遠 兩點間的距離,以這例子而言,標籤女性與標籤奧運就不會分在同一群聚,因為 不同群聚中最遠的兩點相似度為零。

表 24 案例一標籤相似度

標籤 標籤 相似度

bbc 奧運 0.107142857142857 bbc 女性 0.0714285714285714 bbc kmt 0.0714285714285714 奧運 女性 0

奧運 kmt 0

在上述的例子中,也發現標籤blog、公民新聞、言論自由、新媒體、 數位 媒體、網際網路、 社會關懷、選舉、馬英九等標籤不屬於這一群聚。這牽涉到 這時間區間其他標記的網頁也重複使用這些標籤,使得這些標籤和其他標籤相似 度較高。且本研究使用階層式分群法,在進行分群時相似度高的標籤組合就會先 合併,等輪到和此範例的群聚時,相似度已沒有當初來得相關,故無法分在同一 群聚。

57

II. 案例二:標籤間沒有重複卻被分在同一群

有些分群結果會發現,被標記的網頁間並沒有相關聯的標籤,以圖 30 的標籤為例:紅襪隊、四川地震,以及涼麵分在同一群聚,然而檢視這些標 籤所標記的網頁(如表 25),卻未發現有重複的標籤。

圖 30 案例二分群結果 表 25 案例二標籤標記網頁

網頁標題 使用標籤

I'm Vlog-涼麵不是簡簡單單就可以吃的 portnoy 涼麵 鄭龜 I'm Vlog-Manny Ramirez 耍寶集 manny ramirez 紅襪 I'm Vlog-【失敗的教育】遼寧少女痛罵地震災

民〈繁體字幕〉

四川地震

再看標籤間的相似度表 26,卻發現兩兩標籤間的相似度竟都大於零。

表 26 案例二標籤相似度

標籤 標籤 相似度

四川地震 manny 0.0366

portnoy 涼麵 0.0357

manny portnoy 0.0251

紅襪 涼麵 0.0251

因這幾個標記的網頁都來自同一個網站─I’m Vlog。I’m Vlog是一個影音網站,

當在蒐集此網頁資料時,影音內的資料是無法被收集起來的,只能收集到該影音

58

檔的標題或使用者的敘述,以及其網頁架構的資料。這些網頁架構的資料幾乎不 會隨著網頁內容的不同而有所變更,因此在產生標籤的向量時,就會有相同的詞 彙,即使使用者使用的標籤不同,也會因而產生關聯,造成案例二這種分群結果。

換個方式來看,此現象可延伸到,假設有概念相同的網頁,可能都是在敘述 同一主題,則一定會頻繁地使用某些關鍵詞彙,因此即使使用者下的標籤可能是 跨語言或跨領域…等,但標籤所產生的維度一定會有所重複,使得它們有機會被 分在同一群。如此可以看到來自四面八方不同性質的使用者,利用社會性標籤產 生的社會互動。

59

相關文件