• 沒有找到結果。

運用社會網絡分析法以發掘興趣導向虛擬社群關鍵使用者之研究

N/A
N/A
Protected

Academic year: 2021

Share "運用社會網絡分析法以發掘興趣導向虛擬社群關鍵使用者之研究"

Copied!
60
0
0

加載中.... (立即查看全文)

全文

(1)國立高雄大學資訊管理學系(碩士班) 碩士論文. 運用社會網絡分析法以發掘興趣導向虛擬社群關鍵使用者 之研究 Applying Social Networks Analysis Methods to Discover Key Users in an Interest-Oriented Virtual Community. 研究生:陳柏任 撰 指導教授:丁一賢 博士. 中華民國一百零一年六月.

(2) 運用社會網絡分析法以發掘興趣導向虛擬社群關鍵使用者 之研究 指導教授:丁一賢 博士 國立高雄大學資訊管理學系(碩士班) 學 生:陳柏任 國立高雄大學資訊管理學系(碩士班) 摘. 要. 近幾年網路科技的發達以及虛擬社群的崛起,虛擬社群上的使用者不在只是 單純的資訊接收者,更是重要的資訊來源。但也因如此產生網路上的資料量過大 的問題,如何有效率的找到對的資訊已經成為相當重要之議題。本研究認為虛擬 社群內的使用者以及其發布的評論所帶來的相關影響,會直接或間接的影響其他 參與虛擬社群的使用者選擇電影的決定。. 因 此 ,本研究以知名電影類型虛擬社群網站 IMDb(The Internet Movie Database)為研究標的,結合網站提供之有用度指標(Useful-index)與社會網絡分析 法的提出一個架構,期望找出 IMDb 之關鍵使用者,並以電影賣座量檢視本系統 所找出的使用者是否具有影響力。. 本研究收集 19 個月的資料(2010.1 至 2011.5)進行研究,篩選 17,366 位使用 者與 243,074 篇影評數,實驗找出之關鍵使用者有 22 人及 111 篇影評。最後, 本研究模擬使用者模式,調整並紀錄實驗系統如何反應。. 關鍵字:社會網絡分析、關鍵使用者、IMDb、共同評論. i.

(3) Applying Social Networks Analysis Methods to Discover Key Users in an Interest-Oriented Virtual Community. ABSTRACT: In recent years, with the growth of Internet technology and virtual community, the uses of virtual community not only play as the information receiver but also very important role to provide information. However, information overload has becoming a very serious problem and how to find information efficiently is also an important issue. In this research, we believe that users in a virtual community may affect each other, especially those with high influence.. Therefore, we observe the biggest virtual community of movies named IMDb(The Internet Movie Database),and we propose an architecture combine with the Social Network analysis and the features(Useful-index) of the IMDb to discover those users who has high influence in a virtual community.. We collected the data of 19 months (2010/1 to 2011/5) , about 17,366 users and 243,074 reviews. By applying the method we proposed, finally about 22 key users and 111 reviews were discovered. We use the box office number to certify our results, and simulated many of different situations to observe the react from our system.. Keywords: Social Network Analysis, Key-Users, IMDb , Co-Reviewed. ii.

(4) 目. 錄. 第一章 緒論...............................................................................................................1 第一節 研究背景....................................................................................................1 第二節 研究動機....................................................................................................2 第三節 研究目的....................................................................................................4 第四節 研究假設....................................................................................................5 第五節 論文架構與研究流程................................................................................5. 第二章. 文獻探討.................................................................................................8. 第一節 虛擬社群相關研究....................................................................................8 第二節. 興趣導向虛擬社群之研究........................................................................9. 第三節 社會網路分析概論..................................................................................10 第四節. 社會網絡分析相關研究..........................................................................11. 第五節 社會網絡分析的應用..............................................................................14 第六節. 第三章. 文獻探討總結..........................................................................................17. 研究模型以及方法.............................................................................18. 第一節 關鍵使用者..............................................................................................19 第二節 資料處理階段..........................................................................................20 第三節 使用者處理階段......................................................................................24. 第四章. 實驗設計與結果分析........................................................................26. 第一節 實驗資料集基礎介紹..............................................................................26 第二節 熱門影片討論社群實驗..........................................................................27 第三節 找尋關鍵使用者群..................................................................................29. iii.

(5) 第五章. 系統調整與驗證.................................................................................35. 第一節 關鍵使用者的衡量..................................................................................35 第二節 驗證資料與使用者分析..........................................................................36 第三節 門檻值調整與結果驗證..........................................................................42. 第六章. 結論.........................................................................................................46. 第一節 研究假設討論..........................................................................................46 第二節 研究限制與未來研究..............................................................................47 第三節 結論..........................................................................................................49. iv.

(6) 圖目錄 圖 1.1 研究流程圖..........................................................................................................7 圖 2.1-1 網絡示意圖(有向) ........................................................................................ 10 圖 2.1-2 網絡示意圖(無向) ........................................................................................ 10 圖 2.2 群聚係數示意圖................................................................................................13 圖 2.3 網絡密度範例....................................................................................................14 圖 2.4 使用者-影片之社群圖.......................................................................................16 圖 2.5 文獻探討整理圖................................................................................................17 圖 3.1 實驗流程圖........................................................................................................18 圖 3.2 資料收集範例圖................................................................................................20 圖 3.3-1 網頁原始資料範例(電影個體) .....................................................................21 圖 3.3-2 網頁原始資料範例(使用者評論個體) ….....................................................22 圖 3.4 具有共同評論的兩部電影................................................................................24 圖 3.5 有用度指標之原始資料....................................................................................25 圖 4.1 實驗進行圖........................................................................................................26 圖 4.2 熱門影片社群圖................................................................................................27 圖 4.3 以連結度區分之電影社群圖型........................................................................28 圖 4.4 熱門影片社群使用者分佈圖............................................................................29 圖 5.1 關鍵使用者驗證示意圖.. .................................................................................35 圖 5.2 研究目的以及研究流程之配合........................................................................36 圖 5.3 系統驗證流程圖................................................................................................37 圖 5.4 關鍵使用者投票數與賣座量之驗證圖............................................................41 圖 5.5 評分(Rating)調整圖...........................................................................................43 圖 5.6 關鍵使用者(20L60)投票數與賣座量檢測圖...................................................44 圖 5.7 關鍵使用者(20L70)投票數與賣座量檢測圖...................................................45 v.

(7) 表目錄 表 2.1 圖形分類(群聚係數-分離度)............................................................................13 表 3.1 處理後電影資料................................................................................................23 表 3.2 處理後使用者資料............................................................................................23 表 4.1 實驗資料統計表................................................................................................27 表 4.2 第一階段實驗資料整理…................................................................................29 表 4.3 第一階段認同度與篇數彙整. ..........................................................................30 表 4.4 帄均認同度之資料彙整....................................................................................31 表 4.5 關鍵使用者篩選資料分析................................................................................32 表 4.6 關鍵使用者列表................................................................................................33 表 4.7 關鍵使用者篩選過程之人數統計....................................................................34 表 5.1 賣座量統計資料.. .............................................................................................38 表 5.2 賣座電影資料統計............................................................................................38 表 5.3 關鍵使用者驗證資料集....................................................................................39 表 5.4-1(Top-50)Precision&Recall 資料統計.............................................................39 表 5.4-2(Top-20)Precision&Recall 資料統計.............................................................40 表 5.5 關鍵使用者投票數與賣座量之檢測................................................................41 表 5.6 門檻值調整之資料............................................................................................42 表 5.7 門檻值效能之變化............................................................................................42 表 5.8 評分(Rating)調整的資料統計表.......................................................................43 表 5.9 關鍵使用者(20L60)投票數與賣座量之檢測...................................................44 表 5.10 關鍵使用者(20L70)投票數與賣座量之檢測.................................................45. vi.

(8) 第一章 緒論 第一節 研究背景 網際網路及通訊科技的興盛,使人與人間的聯繫與互動有突破性的發展,加 上 Web2.0 概念, 「虛擬(線上)社群網站已儼然成為全球資訊網路上一個熱門的應 用及分享」(Admic and Adar, 2003)。社群網站的蓬勃與 Web 2.0 的發展,現今的 網路使用者其影響力相較於過去五年至十年已不能同日而語,維基百科、奇摩知 識(家)、以及各類的論壇與部落格,現下網路使用者早已不是單純被動接收資訊 的接收者,更是網站資料、資訊與知識的重要來源,甚至像是 Facebook 這類的 社群網站,少了使用者便一無所有。所以換句話說,網路使用者的意見以及想法 應越來越被企業所重視,站在企業角度,研究網路使用者成了相當重要的討論議 題。但即便了解了網路使用者的重要性以及其影響力,如何運用網路使用者卻五 花八門各有說法,而本研究則是提供一個關鍵使用者為主體的方法進行研究,並 以企業的角度去思考,如何反應這群關鍵使用者的影響力在商品的銷售或相關指 標上。. 為了解網路使用者,企業採用許多不同的工具以及方法以達到分析使用者之 目的,例如網路代理人(Web Agent)、資料探勘(Data Mining)……等科技,都可以 快速且方便的掌握目前線上社群使用者的資訊以及行為,但是單純收集使用者的 行為和資訊(料)是不夠的,更重要的是要了解使用行為背後所代表的意義,以及 所收集的資訊可為企業帶來什麼樣的效應。但不幸的是,只要涉及網路上的使用 行為,往往會面臨資料量過於龐大與難以直接處理的問題,拜 Web 2.0 之賤,每 位使用者可在網路上分享自己的想法以及參與各種不同的網路活動。然而對使用 者或企業而言,重要的使用者行為模式就容易被掩埋其中,難以查覺。因此,如 何簡化複雜且大量的資料,取得有用資訊,為目前相關技術使用上之核心問題。 -1-.

(9) 第二節 研究動機 2010 年時報新聞「GSP 認證服務保證,經濟部邀部落客體驗」經濟部推廣 產品的 GSP(Good Service Practice)高品賥認證服務,並介紹年輕以及對 GSP 不熟 悉的消費族群何謂符合 GSP 高品賥的服務以及商品,經濟部與台灣最知名(月瀏 覽量 550 萬人次)的美食分享社群─愛評網(http://www.ipeen.com.tw/)合作,廣邀 40 家通過 GSP 認證的知名食品廠商一起參與,活動先由愛評網徵選出的四百位 具影響力的素人部落客,接著體驗由 GSP 商家所提供總價 40 萬 GSP 認證商品, 最後期望部落客們將體驗心得散佈至網際網路上,以達到推廣之效果(中國時 報,2010)。由上述之新聞可得知,不僅是企業;即便是政府的推廣服務,也都希 望藉由網路使用者的幫助,可見現今網路使用者之影響力如此巨大。本研究所感 興趣的地方有二,第一、如何找出新聞中所謂有影響力的使用者,第二、這些關 鍵使用者能帶來怎樣的影響,其影響力有多大。. 網路使用者行為廣泛且複雜,本研究無法整體性的討論研究,只得擇一進行, 就本研究所觀察,虛擬社群的使用者為最佳選擇,原因有三,首先;虛擬社群的 使用者數充足,再者;虛擬社群內的使用者有共通的討論主軸或是分類,不會像 一般社群網站太過於發散,最後,虛擬社群內的行為較不會牽涉到複雜的人際關 係或是交易行為,尤其是興趣導向的虛擬社群。因此,本研究選以興趣導向的虛 擬社群為研究主題,進行研究。. 網路上根據使用者興趣所形成之虛擬社群相當多,舉凡美食、遊戲、電影、 音樂等貼近生活相關的議題都包括其中,加上行動網路普及率越來越高,許多使 用者開始透過網路查詢相關產品資訊,或是美食的評價,參考的內容是虛擬社群 討論中的文章或是評價網站的相關介紹,這些相關資訊都是使用者決策重要的參 考依據。但是,各種來源、說法互相影響的結果就是,難以得知何謂使用者所需 -2-.

(10) 的資訊。因購買行為發生時,考量的因素皆不盡相同,考慮範圍也不同,因此對 販售商品的商家來說,取得大多數人的意見以及喜好,就成了重要的著眼點。如 何選用一個適合的方法或是機制去了解使用者?本研究認為社會網絡分析法是 值得考慮的。. 社會網絡分析法目前為資料探勘之重要技術,廣泛運用於各個不同專業領域, 如線上推薦系統(Ahmed et al. , 2007)、資訊傳播與擴散模式的運用(Watts, 1998), 都是結合社會網絡分析方法的實際運用。比較於過去如 Wall-Mart 等大型企業以 大量參考資料建構之資料探勘分析法,社會網絡分析直接分析使用者的行為,本 研究認為其更能體現使用者的互動行為且更具效率。因此本研究提出一個方法藉 助社會網絡的模式與方法,尋找影響商品的重要因子(透過關鍵使用者)。. 如何選定目標的虛擬社群?目前網路上的虛擬社群種類眾多,經過仔細的考 量後本研究選擇電影的虛擬社群-IMDb(The Internet Movie Database ) (http://www.imdb.com)為研究目標,其原因有二。第一、以市場為考量,近幾年, 電影這個領域在台灣有相當大的突破。2008 年 8 月魏德聖導演以小成本在台開 拍的影片「海角七號」, 帶來破億的銷售成績,相同導演與製作於三年後(2011 年 8 月)再以台灣原住民故事「賽德克‧巴萊」再度開出紅盤,第二、以資料面 思考,以中文為主的電影討論主題與分析的網站甚少,而國外的許多電影虛擬社 群不僅發展完整,也有相當的使用者數,這對於本研究來說都是提高準確的重要 考量,因此本研究以全世界最大的電影資料網站 IMDb 為研究的基礎討論對象進 一步探討,選擇 IMDb 作為重要的目標,另一個原因,也是最重要的原因就是 IMDb 除了提供影評外亦提供使用者對於該影片的評分(分數)以及其他使用者對 於這篇評論是否認同(Useful)的指標,這對於探討誰為關鍵使用者是相當重要的 指標。. -3-.

(11) 為何如此認同指標如此重要?人與人之間的關聯再社會網絡分析法之中一 直是一個觀察的重點,從傳統(認識與否)的實體問卷,一直到網路上 facebook 等 社交網站的交友功能,都可以拿來視為重要的關係模式,本實驗中所設定的關係 是有權重的關係模式,因本實驗認為不同的虛擬社群使用者其影響力跟一般人不 盡相同,但哪些的使用者應該有更佳的權重指標呢?認同度指標就是解答。. 綜合上述,本研究希望能透過社會網絡分析方法,針對以電影為主體的興趣 導向社群進行分析,找出社群中影響力相對較高的關鍵使用者,綜合上述,本研 究因而將題目定為運用社會網絡分析法以發掘興趣導向虛擬社群關鍵使用者之 研究。. 第三節. 研究目的. 綜合本章所述,本研究整理並提出三個主要的研究目的 (一). 提出結合社會網絡分析以找出關鍵使用者之方法. (二). 觀察所尋找的關鍵使用者之特性: -以電影賣座程度來評估找到關鍵使用者的代表性. (三). 思考並找出運用關鍵使用者群之方式. -4-.

(12) 第四節 研究假設 根據本研究對於虛擬社群的了解,以及簡化研究問題的前提之下,本研究提 出了下列的研究限制與假設:. 假設一、以關鍵使用者評論建立之系統,可以節省使用者搜索時間 本研究希望證明找出的關鍵使用者是有用的,但影響每個人觀賞電影的因素 皆然不同,因此透過關鍵使用者建立一個大眾能接受的推薦清單,對於使用者決 策的過程是有助益的。. 假設二、「有用(useful)評價」為社群使用者相信該影評者的重要證據 進行社會網絡分析研究必須具有的使用者互動以及認可的指標,不能完全依 靠推測以及研究自行假定的標準,在此本研究以 IMDb 網站所提供之有用評分為 主,進行進行本研究的分析實驗以及探討。. 第五節. 論文架構與研究流程. (一) 論文架構 本研究之論文架構如下: 第一章 緒論 介紹虛擬社群的發展,使用者影響力的改變,以實例講解發掘出關鍵使用者 的重要性。提出研究進行的範圍以及本研究採用之研究方法,確定研究所需之假 設,及後續研究的步驟。. -5-.

(13) 第二章 文獻探討 整理過去學者撰寫的文獻,以探討虛擬社群類型、電影為主的興趣導向社群 研究、基礎社會網絡分析方法整理、社會網絡分析之應用整理,四大構面為基礎, 進而提出本研究進行之方法。. 第三章 研究模型與方法 本章介紹本研究所使用的方法(Co-Review 法),建立本研究所需要之社群模 型,並依照實驗數據,提出一個進行關鍵使用者篩選的基礎架構以及準則。本章 亦會介紹如何進行實驗資料蒐集,以及資料的儲存架構。. 第四章 實驗設計與結果分析 根據第三章研究方法進行實驗後,觀察並紀錄關鍵使用者的各項數據,且詳 細的紀錄實驗如何進行,以及篩選標準關鍵使用者的準則。在此章節也會提出本 實驗如何驗證以及運用關鍵使用者之方式。. 第五章 系統調整與驗證 根據實驗進行之結果,本研究思考使用者標準設置對於系統成效的影響,再 進一步解釋關鍵使用者會能帶來的效益,以及解釋其原因。. 第六章 結論 討論以及總結本研究所呈現之結果,並提出未來可行之研究,以及討論對企 業和使用者而言,運用關鍵使用者可帶來的影響與助益。. -6-.

(14) (二) 研究流程. 圖 1.1 研究流程圖. 圖 1.1 為本研究的研究流程圖,第 1.第 3.段根據研究設定之背景與動機訂定 研究進行之範圍,將社會網絡分析及興趣導向虛擬社群兩大主題視為本研究之主 要核心;整理相關文獻並提出研究主要的假設以及目的,第 4 階段本研究依照前 述目的與假設制定尋找關鍵使用者的方法。第 5 階段,則是本實驗的實驗方法系 統化的執行,並測詴在不同的關鍵使用者篩選條件之下,本方法反映出之效果, 最後,在第 6 階段進行本實驗成果之整理,以及以使用者觀點而言,如何運用本 實驗所發掘之關鍵使用者的探討。. -7-.

(15) 第二章. 文獻探討. 本章節會介紹與本研究相關的各類參考文獻,主要分為以下四個部份,首先 探討虛擬社群相關研究,接著討論其中興趣導向社群的發展以及相關介紹,然後 再討論何謂社會網絡分析,以及社會網絡分析法在各領域的應用。. 第一節. 虛擬社群相關研究. 虛擬社群的定義有許多不同的說法,根據學者 Rheingold 定義的虛擬社群指 的是有足夠數量的一群人,透過參與足夠公眾討論以及彼此情感的培養,在網絡 帄台上形成的人際關係團體(Rheingold, 2000)。學者 Baym 也提出虛擬社群,是 由四個主要結構所組成 (Baym, 1997): (1). 社群創造不同的溝通表示形式表示意見. (2). 社群個人的身份認定(Indentify)具獨特性. (3). 社群中彼此建立關係的方式多元. (4). 社群建立共同規範、準則. 學者 Alder 與 Christopher 主張的虛擬社群為「一群擁有相同興趣的網路使用者 在一個公開的網路空間如 WWW,彼此進行交換意見,溝通以及資訊交換的空間 即為虛擬社群」 。(Alder & Christopher, 1998)虛擬社群的使用者彼此都是獨立的個 體卻又彼此相互影響,且共享同樣的文化(價值觀)與規範。. 虛擬社群的分類則可參考學者 Armstrong and Hagel 在 1997 年所提出的虛擬 社群定義,這兩位學者根據不同的社群以及行為形成因素將虛擬社群行為分為, 交易導向社群(Transaction-Oriented)、興趣導向社群(Interest-Oriented)、關係 導向社群(Relationship-Oriented)以及幻想導向社群(Fantasy-Oriented)等四類 社群(Armstrong & Hagel, 1997)。但值得一提的是近來的虛擬社群已經越來越不 -8-.

(16) 一樣了,大多是綜合型社群居多,例如 Yahoo!、Facebook 皆是綜合型(結合社群 功能以及使用者互動)之虛擬社群。. 綜合前者,本研究所設定的目標(興趣導向)虛擬社群為「一群擁有共同興趣 的網路使用者,透過一個公開的網路空間進行各種不同意見交換,以及資訊共享 進而發展出的人際關係網絡即為虛擬社群」。. 第二節. 興趣導向虛擬社群之研究. 興趣導向的虛擬社群種類相當多,根據每位使用者不同的生活體驗和興趣結 合而成,本研究觀察的重點目標設定為-以電影為主的虛擬社群。以電影評論為 主的虛擬社群與一般常見以人際網絡為主的虛擬社群型態有所不同,所謂的一般 型態指的是以人際關係互動,像是留言、評論、遊戲等行為模式,但在電影為主 的虛擬社群(如 IMDb)裡,使用者卻鮮少直接與使用者進行互動,取而代之的是 社群使用者對於有興趣的項目(電影, 音樂...)作評論。. 電影相關研究非常廣泛,學者 Ahmed 等人在 2007 年就嘗詴以電影社群網站 IMDb 找出一個視覺化的社會網絡圖形以及使用一個分析方法以察覺事件 (Ex :911)與電影故事的相關性(Ahmed et al. , 2007)。也有學者將電影社群網絡網 站的內文資料(Content-based Data)加以運用,以強化現有的推薦系統的不足(Hu et al., 2010)( Jakob et al., 2009)。. -9-.

(17) 學者 Debnath 等人在 2008 年藉用電影為主的虛擬社群網站 IMDb 中的資料, 探討使用者會重視的影響因子,其中包括導演、卡司、成本、分類與使用者等, 其結果顯示最重要的影響因子為使用者(Debnath et al., 2008)。. 因此本研究選擇最著名的電影虛擬社群網站 IMDb 作為分析的標的,並參考 學者 Debnath 提出的重要因子(Writer),進行了解以及延伸。. 第三節. 社會網路分析概論. 社會網絡分析的相關研究發展早,1925 年學者 Lewin 開始進行社會網絡分 析的研究,研究是希望能以簡單幾何圖形 (點跟線)表現出人際間的互動情形, 最早的社群圖 (Sociogram)是在這個時候提出(Scott, 2000),而表現的方法如下所 表示:. 圖 2.1-1 網絡示意圖(有向). 圖 2.1 -2 網絡示意圖(無向). 節 點 (Node):可表示為網絡中的最基本單位,或是單位集合,為組成社會 網絡圖形最基礎單位,例如用以表示人際關係社群圖(Sociogram)中的使用者或是 使用者集合即圖中之 A、B、C。邊 (Edge):邊是用以表示節點與節點的關係(因 果、影響、或是附屬關係),例如在有向社群圖 2.1-1 中使用者 A 認為使用者 B - 10 -.

(18) 是自己的好朋友,使用者 B 認為使用者 C 為好朋友,但 B、C 不認為。而在 2.1-2 的圖形中 A 與 B 互相認為是朋友,B 與 C 也互相為朋友。. 第四節. 社會網絡分析相關研究. 社會網絡分析隨著虛擬社群以及 Web2.0 的發展而有了改變,而 Web 2.0 一 詞出自 Tim O'Reilly 在 Web 2.0 Compact Definition: Trying Again 提出的概念 (O'Reilly ,2006),其中包含了幾個重要的因子,以 Web 為帄台、豐富的使用者參 與、群體智慧 (collective intelligence)以及分享以及參與的架構,Web 2.0 的出現 使得使用者不再被動的接收資訊,同時也是重要的資訊提供者。因應使用者人際 關系的改變,現在的社會網絡分析比較起過去知名學者(如 Freeman, Lewin 等人), 討論的層面更廣,更加的複雜。但研究者還是必須對社會網絡分析有基礎的了解, 才能找到可加以運用的方法。因此,在本節也會簡單的對會社會網絡分析加以介 紹,再描述如何運用社會網絡分析。. (一) 中心度(Centrality) 為了衡量社會網絡的特性,許多學者提出許多方法探討以及量化社會網絡的 特性,本章節會探討過去社會網絡最常用到的分析指標-中心度。如何能找到網 絡中重要角色或重要的位置一直是相當重要的問題,為解決這個問題,有學者提 出網絡中心為核心之概念,中心度就是用來衡量哪些節點位於網絡之中心 (Freeman, 1979)。換句話說,中心度可以衡量網絡內哪些節點有著較高的”權力 (power)”或說是影響其他節點的能力,亦可透過中心度都找出某位於網絡資訊聯 絡重要位置之節點。但對於網絡中心的衡量,不同的觀點,會分化出許多不同的 中心度指標:. - 11 -.

(19) 1. 連結中心度 (Degree Centrality) 以每個節點的連結度(Degree)為網絡中心考量的重點,換句話說就是認為社 群連結度最高的節點為該網絡的中心 (Freeman ,1979),計算公式以下表示:. D-Centrality(i) =. Degree(i). n i=1 Degree(i). ...................................公式(1). 節點連結度 Degree(i)表示 i 節點之連結度,是社會網絡分析最簡單也是最常 見的,簡單的例子就是以圖表 2.1.b 來說,各連結度 Degree(A)=1 、Degree(B)=2、 Degree(C)=1 (n 表示總共有 n個節點在網絡圖形中)。連結度(Degree)最高的節點, 代表在目標社群網絡內有最多的連結數(包括 In-degree & Out-degree),代表該節 點是有最多連外的邊,或是有最多的邊連至該點。(Scott, 2000). (二) 小世界(Small World) 1967 年的心理學學者 Milgram 提出有名的六度分隔理論(Degrees of Separation ) 和小世界(The Small World)的概念(Milgram, 1967),指的是(在美國)任意兩個不認 識人的連結度最多不會超過 6 個人,這個概念指出小世界的網絡裡只要透過幾個 少數的中介者就可連結到整個網絡。1998 年學者 Watts 也進一步的指出許多實際 的網絡其實都符合小世界的分佈 (Watts, 1998),像是經濟、市場等許多都是小世 界的範例,學者 Watts 也進一步修正及提出小世界現象的述特點及規則,第一, 在小世界的分佈裡有高度的群聚係數(Clustering Coefficient),群聚係數為一指標 可以衡量節點與節點的群聚現象,假設某點 x 有 n 個鄰近節點其可能發展出的最 大派系(Clique)為 n(n-1)/2 也就是完全圖的意思,群聚係數就會如下式表示: Clustering Coefficient = E x /Emax ………………...……………………公式(2) - 12 -.

(20) E(x)表示與節點 x 相連的節點有多少個互相連結,簡單的圖例如下圖所示:. 圖 2.2 群聚係數示意圖. 另一個特點為小世界的現象裡有較低帄均分離度(Degree of separation),或是 網絡中有相對於節點規模較短的直徑(Diameter),社會網絡中的分離度指的是兩 兩節點最短路徑之長度,而整個網絡的分離度計算為整網絡中所有節點對節點分 離度之帄均值,而直徑指的是存在於網絡圖形中最短的節點路徑長度。學者 Watts 也提出在所謂的人際關係網絡的圖形,是介於規律圖形及隨機圖形之間的圖形。 表 2.1 圖形分類(群聚係數-分離度). 群聚係數低. 群聚係數高. 分離度低. 隨機圖形(Random Graphs). 小世界圖形(Small World Graphs). 分離度高. N/A. 規律圖形 (Regular Graphs). - 13 -.

(21) (三) 社群密度 (Density) 計算社群的群聚程度,密度也是常使用的指標之一,大多數的社會網絡研究 都會使用到密度作為依據,密度定義是以網絡圖形為主與其可能的完全圖的差距 (Scott, 2000) 。. 圖 2.3 網絡密度範例. 密度計算也一直是社會網絡學者用以討論組織群聚狀況之重點,討論的範圍 也相當廣泛,學者 Lewis 也結合密度以及迴歸模型以討論虛擬社群網站 Facebook 的連結關係(ties),討論出在 Facebook 上的朋友密度帄均為 22.4% (Lewis et al., 2008 )。學者 Kumar 等人也觀察知名網站 Flickr 以及 Yahoo! 360 的時間變化狀 況,還有密度與節點的變化狀況,發現使用者在初期加入某團體或網絡後,會興 奮的邀請身邊的人一起加入這個社群,代表社群密度以及連結度都會隨時間增加, 但是增加的速度會越緩慢(Kumar et al., 2010)。. 第五節 社會網絡分析的應用 虛擬社群興起之後,因為資料量大增、虛擬社群互動多元化,使得人與人之 間的聯繫(較過去)更加頻繁,許多的學者開始透過各種應用方法進行研究(May, 2001)(Kuperman, 2001)。社會網絡的人際間互動行為在虛擬社群出現後也改變許 多,學者 Liyong 就認為所謂在網路上人際關係的互動不會是靜止的表現,會因 - 14 -.

(22) 為時間或是朋友的影響而受到改變(Liyong, 2008)。而影響本研究最重要的文獻有 下面兩個大分類:. (一). 多媒體社群運用 線上各類型的多媒體社群開始出現後,許多社會網絡學者即開始著手研究如. 何將社會網絡分析在上面加以運用,或是能帶來怎樣的效應,普遍來說,經過觀 察這些類型的虛擬社群,本研究總結出了幾項特點: (1) 更多元的使用介面以及功能 (2) 討論的節點更多 (3) 連接節點的邊(關係)更複雜 在討論現此類型的虛擬社群,過去以問卷為主的研究方法就很難以運用,以 Facebook 網站的使用者為例子,美國調查網站 Compete 調查顯示,2009 年 9 月 共 124,579,479 不同的使用者使用 Facebook 各種不同的服務,要確認關係的話, 光要發放的問卷就高達 1.2 億,面對這天文數字的困難迫使社會網絡學者開始尋 覓其他的參考基準以及研究題材。. 社會網絡分析領域的學者開始思索社群網站本身提供的功能是否能成為研 究所需要得參考因素。學者 Lewis 結合密度以及迴歸模型以討論虛擬社群網站 Facebook 的朋友功能,討論出在 Facebook 上的使用者其朋友的密度帄均為 22.4% (Lewis et al., 2008 )。學者 Kumar 等人也觀察知名網站 Flickr 以及 Yahoo! 360 的 交友功能,發現使用者在初期加入某團體或網絡後,會興奮的邀請身邊的人一起 加入這個社群,代表社群密度 (Density)以及連結度 (Degree)都會隨時間增加, 但是增加的速度會越緩慢(Kumar et al., 2010:346)。不是只有加為朋友這相功能可 以進行討論,也有許多的學者以社群中使用者對於電影或影片的評論機制為觀察. - 15 -.

(23) 重點發展其研究,學者 Song Qin 等人就使用線上影音共享網站 Youtube 上使用 者的評論作為考量依據,進一步設計推薦系統。. 圖 2.4 使用者-影片之社群圖 資料來源:Song Qin et al.,2010. 圖 2.4 即是源自於學者 Song Qin 的研究,中心的節點為某一部 Youtube 的影 片,而與外圍其他節點連結則代表兩步影片有共同評論的使用者,圖中數字為共 同評論使用者之人數所計算出來的權重,本研究所討論的 IMDb 影片虛擬社群亦 是相同情況。換句話說,使用者非直接地與其他使用者互動,而是透過非直接的 中介因子(影片)進行互動(Review, Rating),雖然單一個圖形很難說明任何事情, 但是觀察的節點增多了後,便能為使用者進行分類,就如同其研究所述,評論越 相近的電影群,可能在進行影片選擇的某些參考因子是相同的(Qin et al.,2010), 雖然此關係不能直接使用,但這類型的隱含關係卻是可能有相當的價值。. (二). 社群中的關鍵人物探勘 無論社會網絡(Social Networks)如何改變,其組成通常包涵三種要素,行為. 者(actors)、關係(relationships)與連結(linkages)(Hanneman and Riddle, 2005),如本 章前述,虛擬社群中的使用者其關係越來越複雜,要處理的量也越來越驚人,如 何在不至於太過影響精準度及效度的狀態下減量(Down-size)進行研究,已成為很 重要的課題,本研究希望透過尋找社群中的關鍵人物,但要對整個社群進行普查 - 16 -.

(24) 是相當困難的,若自己設計一個方法進行關鍵人物的尋找,所尋之關鍵人物能代 表社群,就系統效率而言更加快速且便利。. 在興趣導向的社群中進行關鍵使用者之研究,學者 Zhang 等人就以線上電影 評論網站 Epinion.com 為主,挑選一組關鍵使用者(Key User)來測詴其對朋友的 影響力,然後在模擬各類不同狀況尋找關鍵使用者,此研究顯示,以連結度為主 的篩選模式最為成功(Zhang et al.,2010)。. 第六節 文獻探討總結 最後,圖 2.5 為本研究如何進行收集與整理相關文獻,因兩大主題之相關研 究相當多,本研究擷取了「多媒體的社會網絡分析」以及「關鍵使用者找尋」之 相關文獻以進行本研究。. 圖 2.5 文獻探討整理圖 - 17 -.

(25) 第三章. 實驗方法. 在第二章中,本實驗總結了過去兩個領域中重要之文獻,以提出一個找尋關 鍵使用者機制,下圖即是本實驗之實驗方法之處理細節:. 圖 3.1. 實驗流程圖. 圖 3.1 為本研究進行研究的基本架構,大致可以分為三個大分類,首先是先 對資料收集相關以及使用者相關的議題進行解讀,然後再進一步建立該網站的社 群模型,並透過社會網絡分析方法找到所謂關鍵的使用者。最後一個部份是從兩 個面向去討論本研究所找到的關鍵使用者,是否符合熱門討論或是賣座成績好兩 個標準。簡單的整理一下,本研究就是希望能成熱門影片(討論度高)中找群是否 有存在著影響力較大的關鍵使用者群,並了解他們。. - 18 -.

(26) 第一節. 關鍵使用者. 本研究希望討論的興趣導向社群是電影分類的虛擬社群網站,像是購買產品 一樣,現在許多消費者在選擇進電影院看電影以前,也會參考各類不同的影評網 站,中文的有開眼電影網(http://www.atmovies.com.tw/)、奇摩電影,英文的有爛 番茄(http://www.rottentomatoes.com/),IMDb(http://www.imdb.com/)。當同時一批 影片上映,雖然會因為卡司、導演等因素影響消費者進場的意願,但使用者端的 影響力也是難以忽略的,尤其是像故事劇情、內容、演技、場景這類型的因素是 主觀且難以描述的,但若能直接從看過的使用者身上擷取,不但快速而且也較為 準確,舉例而言,專業影評認為好的電影跟普羅大眾所能接受的口味不見得完全 相同,而同為使用者分享的內容較為容易接受以及產生共鳴,許多想觀賞電影的 朋友會先至電影看板(討論區),經過網友推薦再進一步決定。因此即將上映的影 片是否會賣座或是下架,觀察關鍵使用者的意見是相當好得方法。但對企業而言 卻很難對所有的消費者進行普查,若只鎖定觀察某一群特定的使用者,且具有相 當之精確度,就能達到減少企業搜尋以及評估的時間與人力的目標了。. 換句話說,只要透過觀察關鍵使用者群發布的電影評論以及參與的狀況,大 略可以推測出來該影片的未來發展以及走向,電影公司或是上映的戲院就可以進 一步調整電影配置時間以及執行各類決策。而若是希望預先了解電影的評價,亦 可以在上映前或上映同時找尋關鍵使用者,雖然查找出來的關鍵使用者並不一定 具有名氣,但是其影評卻能引起其他的共鳴,被接受程度也相對其他使用者高。. 接下來本研究將介紹如何從,資料蒐集、淨化,以及如何透過社會網絡分析 的方法擷取電影社群 IMDb 之關鍵使用者並進行了解以及分析。. - 19 -.

(27) 第二節. 資料處理階段. (一) 資料收集 本研究所蒐集的資料是來自於世界最大的電影評論網站 IMDb,蒐集一共 19 個月(2010/1-2011/5)的上映影片為資料集進行研究。而 IMDb 與類似其他聊天室 或論壇一樣的種類分別(Ex 運動、生活雜事),其記錄每一部上映影片的資料, 以及允許使用者在其網站裡對於該電影進行評論、評分或是投票的動作。. 圖 3.2. 資料收集範例圖. - 20 -.

(28) 本研究主要收集的資料分為兩大類: 1.. 電影背景資料的收集: 此類型的資料,例如電影的分類、卡司、導演、賣座票房以及上映時間等,. 都是本研究要收集的重要資料。 2.. 使用者資料收集: 收集使用者可操作的資料部分,包括電影評分(Rating)、電影評論(Review)、. 對於他人評論的評價(Useful)。 電影背景的資料收集主要是為了使本研究可以深入探討,各種不同因素對於使用 者的評價是否有關係,使用者評論資料就是本研究所要討論的核心資訊,因為本 研究認為透過使用者不同的活動,像是參與討論、評論、評分的好壞,對於研究 虛擬社群都有著不同程度上的意義。. 圖 3.3-1 網頁原始資料範例(電影個體). - 21 -.

(29) (二) 資料預處理 直接從網路截取到的資料片段無法夠直接加以運用,必須透過許多不同的工 具以及方法,將預先的收集到的資料(Raw Data)轉變成為可以進行分析、分類的 資訊。. 依照本研究所需要的資訊類型,資料預處理也會根據不同的分析需求,擷取 有用的資料型態。大致上會處理成兩的大的子集合,影片為主的影片個體,以及 使用者為主的實驗個體。以龍紋身的女孩(The Girl with Dragon Tattoo)此電影為 例,其原始資料如圖 3.3 所表示,:. 圖 3.3-2. 網頁原始資料範例(使用者評論個體). 原始資料呈現如圖 3.3-1 與圖 3.3-2,本實驗透過 Perl 的資料分類程式對前述 資料擷取本實驗所需要得資料,而整體處理過後的資料呈現如下表:. - 22 -.

(30) 表 3.1. 處理後電影資料. Title:. The Girl with Dragon Tattoo. Date:. 2011/12/20. Rating:. 8.3(17250). 表 3.2. 處理後使用者資料. User-Name. Movie-(year). Date. Rating Useful. User1. Alice in Wonderland(2010). 2010/8/18. 7/10. 1/2. Million Dollar Baby (2004). 2010/10/2. 10/10. 1/1. 2509775. 在資料收集階段,最重要的是紀錄每個使用者評論過的影片,以及所得別人 認同度(Useful)的多寡,其他例如評分,以及評論的日期都是為了未來可以更深 入了解該虛擬社群內容的延伸資料。紀錄了所需要的資料後,下一節會說明如何 將收集的資料轉為有用的資訊。. - 23 -.

(31) 第三節. 使用者處理階段. 本研究從熱門的影片開始進行處理,假設社群使用者真的會影響其他使用者 觀賞的意願,受到正面影響進場的觀眾群必定會使該影片成為熱門影片,基於前 面的設想和預設,本階段希望能從相對熱門的影片開始切入。尋找相對熱門影片 的方法有很多種,從卡司、評分等指標進行觀察都是可行的方法,而本研究則是 參考文獻探討中提及以 Youtube 影片共同評論法建立社群的方法,對 IMDb 的電 影進行實驗。 (一) 熱門影片社群建立. 圖 3.4 具有共同評論的兩部電影. 首先,因本研究認為共同評論可以先篩選參與其中的使用者,透過建立電影 群,可以過濾發表過評論的使用者,換句話說,篩選後之使用者發表影評數至少 超過一篇。. 本研究以圖 3.4 進行解說,M1,M2 為兩部獨立電影,且兩部電影之間具有共 同的影評者。本研究認為熱門影片之間共同評論的行為可以做下列解釋: 1. 節點的連結度(Degree)越高,代表該影片得到越多的評論 2. 藉此篩選了少量參與討論的使用者(只發布過 1 篇的使用者被剃除了). - 24 -.

(32) 本研究制定的熱門程度篩選標準為連結度(Degree)高過 300 的影片,本研究 參考過去研究所提出之 80/20 法則(第四章第三節一併說明),且設定每 100 連結 度為一區間(25%),因此超過連結度 300(前 25%)的電影即為熱門影片。. (二). 虛擬社群的關鍵使用者 關於關鍵使用者,本研究不直接對其進行定義,本研究隨後會根據觀察社群. 的結果,提出使用者如何影響其他社群使用者。IMDb 為了能讓使用者了解某篇 評論的參考性,而決定讓使用者可以對於這篇「影評」進行評價,如下圖所表示:. 圖 3.5 有用度指標之原始資料. (三). 虛擬社群關鍵使用者的觀察與紀錄 根據制定標準篩選之後找出的關鍵使用者群,代表積極參與 IMDb 網站活動. 的使用者,且具能力能得到大眾的認同。綜合上述本研究會以下列兩個方向尋找 關鍵使用者: 1. User’s Review 2. Useful-Index 本研究會以使用者評論作為使用者參與熱門影片的觀察指標,而進一步設定 超過參與過帄均值的使用者為初始觀察名單,在參考使用者獲得之用度,找出最 後的關鍵使用者。 - 25 -.

(33) 第四章. 實驗設計與實驗結果. 電影評論為主的虛擬社群與一般的常見人際網絡為主的虛擬社群分析型態 有所不同,所謂的一般型態指的是以人際關係互動,像是留言、評論、遊戲都是 使用者與使用者有直接互動的行為模式(Usage),但在電影評論的虛擬社群(IMDb) 裡,使用者卻是很少直接與使用者進行互動,取而代之的是社群使用者對於有興 趣的項目(電影, 音樂...)進行評論,換句話說,就是使用者是透過評論或是評分 與其他使用者有所互動,上述更詳細的說明請參見第二章節。. 為了更清楚表示實驗如何進行,圖 4.1 精簡了圖 3.1 的實驗流程圖,僅顯示 本實驗的實驗進行過程,即系統如何從原始使用者群中篩選出關鍵使用者:. 圖 4.1 實驗進行圖. 第一節 實驗資料集基礎介紹 本實驗所收集資料來源為 IMDb 之虛擬社群,進行實驗所使用的程式語言為 Perl(後端資料處理)與 Java(前端)撰寫而成。收集時間為 2010 年 1 月至 2011 年五 月(共計 19 個月),資料來源統計資料如下:. - 26 -.

(34) 表 4.1. 實驗資料統計表. 電影總數(Movies). 402 部. 獨立使用者數(Users). 17366 位. 使用者回復數(Reviews). 243074 篇. 19 月的時間內世界各地所有的電影總數相當的驚人,有 10 餘萬部電影產出, 其中當然有包括同名翻譯、獨立電影、以及小工作室出產的微電影,而為了簡化 實驗工作與時間,本研究只取有在美國上映的影片為主要的選擇。. 第二節 熱門影片討論社群實驗 首先本研究希望先找到影響程度最高的熱門影片群,本實驗定義的關鍵使用 者參與熱門影片之程度必定相當高,因此第一步就是要找出哪些為熱門的影片群。 前一章實驗方法有提及熱門影片如何尋找,本章節主要是紀錄真實實驗的呈現。. 圖 4.2. 熱門影片社群圖 - 27 -.

(35) 圖 4.2 是將所蒐集之資料合併成無向圖進行實驗,總共的影片數 339個節點, 38000 條有用邊。圖形顯示,影片的討論行為集中發生在部份的影片,也就是所 謂的熱門影片,到底多少影片屬於所謂熱門的影片群?本研究以第二章中找尋關 鍵使用者之研究為參考,也將連結度視為考量指標,對目標影片群進行切割。. 在社會網絡分析法裡,連結度是相當常見的衡量指標尤其是在進行中心度研 究的時候,中心度越高的使用者於特定社群群體內被視為佔有重要位置或是權重 較為重要。1979 年學者 Freeman 提出連結中心度(公式 1)越高,等於該節點與其 他節點連結的邊越多,在本實驗裡連結度越高,表示兩部電影共同觀賞、評論的 使用者越多。將圖 4.2 以不同的連接度切割後的成果就如圖 4.3 所表示:. 圖 4.3. 以連結度區分之電影社群圖型. 每一個色階都是 100(25%)的連結度差距,而最高的連結度族群(紅色)則是超 過 300 的外部連結中心度,其中 52 部影片屬於這個群體,換句話說,15.3%(52/339) 此區域的影片被選擇的機率達 88%(300/339)以上,也就是說在觀察的期間內只要 選擇觀賞電影超過兩部的用者大部分都看過這 15.3%裡頭的影片。依照圖形的推. - 28 -.

(36) 論如下,在這段觀察時間中這 15.3%的電影為高優先選擇的目標電影,也就是上 一章所提及的熱門電影分群。下表則是通過了建立熱門影片分群之後,本實驗統 計了曾經參與過熱門影片評論以及統計資料。 1000 903. 838. 800 600 400 200 0. 290. 145 103 55443927 14131516 9 7 5 2 9 6 5 5 3 5 6 3 2 2 5 7 3 3 1 2 2 2 1 2 1 1 1 2 1 1. 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 34 36 39 43 45 51 圖 4.4. 熱門影片社群使用者分佈圖. 經過了建立熱門影片社群後;可以得知原本實驗總人數 17366 人中曾經參與 過所謂熱門影片的使用者,只有 2606 人。由圖可以知道其中大多數的使用者位 於與過一部至三部熱門影片的區間,參與過一部的人數最多佔全部的 34.3%,總 帄均為 3.4 篇。這也符合關鍵使用者為少數的預期,下一節本實驗將呈現如何切 割熱門影片參與討論者,以找尋關鍵使用者的過程以及其結果。. 第三節. 找尋關鍵使用者群. 經過了第一階段的挑選,本研究希望先建立起一個關鍵使用者觀察名單,本 研究在此預設以高於帄均值的使用者為評鑑基準,實驗結果由下表顯示。 表 4.2 第一階段實驗資料整理 原始資料呈現. 篩選後資料呈現. 參與熱門電影討論使用者. 17366 位使用者. 2606 位使用者. 關鍵使用者觀察名單. 2606 位使用者. 576 位使用者. - 29 -.

(37) (一). 帄均認同度指標 建立了觀察名單(576 位使用者)後 ,正要進行認同度篩選時,本研究發現了. 一個問題,若單純的指觀察使用者所累計的有用度(Useful)指標,本研究認為是 有疑慮的(有用度為 IMDb 提供的評論功能,能讓線上使用者對其他人撰寫的評 論加以肯定,說明於章節 3.2.2,本實驗將其視為使用者重要性的參考指標)可想 而知,一旦使用者發表過的影評越多,當然有越高的機率能累積到較多的有用度 指標。而下面則是本實驗為了驗證這個問題,所進行之檢測:. 表 4.3 第一階段認同度與篇數彙整 資料來源. 原始資料(17366 人). 熱門影片群(2606 人). 影片參與程度 影片參與. 帄均(使用者)參與. 最大值. 最小值. 最大值. 最小值. 145 部. 2部. 51 部. 1部. 5.359(部/使用者). 3.4331(部/使用者). 累積認同度 範圍. 帄均值(per User). 最大值. 最小值. 最大值. 最小值. 4416. 0. 1725. 0. 32.5326(有用度/使用者). 29.7718(有用度/使用者). 如表 4.3 所示,以總計認同度來解釋的話,4416 個認同度是遠大於 1725 個, 但畢竟前者已經累積了 339 篇電影影評,而後者僅來自 52 篇,整體來說總量是 有差距的。如表 4.4 之呈現,若主張使用帄均認同度為觀察指標則完全不同,帄 均的 9.14 跟原始資料的 5.6 有快一倍的差距 ,比較符合本研究之預設。. - 30 -.

(38) 表 4.4 帄均認同度之資料彙整 帄均認同度(來自多少篇) 資料來源 範圍. 帄均值(per User). 原始資料(17366 人). 熱門影片群(2606 人). 最大值. 最小值. 最大值. 最小值. 997(4 篇). 0. 560(1 篇). 0. 5.6((Useful/reviews)/User). 9.14((Useful/reviews)/User). 根據實驗結果(圖 4.4),本研究發現有很多的發表過「高認同度」影評的使 用者,在觀察的熱門影片社群內僅參與過 1-2 次,並不是單純的使用發表篇數以 獲取更多的有用度指標,因此本研究在此使用帄均認同度為切割關鍵使用者的重 要參考指標。. (二). 篩選關鍵使用者的前置作業-潛在關鍵使用者的刪除 篩選關鍵使用者前,本研究希望能先移除與關鍵使用者設定上有出入的使用. 者。本實驗發現有 113 個使用者發表過的影評是獲得高度評價的(超過帄均值的 9.14 標準),可是在熱門影片的參與上卻是只有 1-2 部,其中甚至有 21 個使用者 是前 5%(帄均認同度最高)的使用者,因此必須對這 113 位使用者進行移除。原 因很簡單,本研究希望找到高參與度且高影響力的使用者,即便是這 113 位使用 者的影響力很高,卻很難給使用者提供很好的決策意見(熱門影片參與程度較低 的關係),本實驗只能認為是因為本實驗所蒐集的時間區間不足,這些的使用者 僅能稱之為潛在關鍵使用者。. - 31 -.

(39) (三). 篩選關鍵使用者的前置作業-熱門影片參與程度測詴 篩選掉潛在的關鍵使用者後,本實驗並不確定如何切割這參與程度較高的. 576 位使用者是否為最佳選擇,因此本研究設定了兩個觀察的篩選門檻值(前 50% 與 75%的熱門影片參與篇數)一併進行觀察。 表 4.5 資料來源. 關鍵使用者篩選資料分析 前 50%觀察值. 前 25%觀察值. 熱門影片參與狀況 總共使用者數 熱門影片參與範圍. 帄均參與狀況. 576. 161. 最大參與. 最小參與. 最大參與. 最小參與. 51. 4. 51. 10. 9.57(部/User). 19.826(部/User). 帄均認同度統計 獲得帄均認同度之範圍. 帄均值(per User). 最大值. 最小值. 最大值. 最小值. 345. 0. 47.95. 0.3076. (5 篇). (4 篇). (20 篇). (13 篇). 9.426. 6.41. 表 4.5 可以說明選擇更嚴苛的參與標準不僅降低了帄均認同指標,也與原本 觀察的數值(9.17)有所出入,簡單的來說熱門電影參與程度在本實驗中是當作一 個進入的門檻標準,並不是一個關鍵性的決定指標。本研究在此採用了 50%的門 檻值作為指標,其目的是為了篩選後使用者希望不會與原本觀察使用者(帄均認 同度)太有出入。. - 32 -.

(40) (四). 篩選關鍵使用者 實驗至此參與超過 50%熱門影片的觀察名單有 576 人,而要如何從這群人之. 中找到所謂真正的關鍵使用者呢?本研究藉用小世界理論裡的 80/20 原則作為簡 單的理論根據,所謂的 80/20 理論就是 80%的效益會集中在前 20%使用者,在這 邊的效益本研究認為的使用者影響力,換句話說,本研究認為有用度的呈現值前 20%的使用者身為影響力最大的關鍵使用者群。. 以帄均得到認同度的前 20%為篩選條件,篩選後所留下的成員,以下就是通 過篩選的關鍵使用者名單(22 位使用者):. 表 4.6 關鍵使用者列表 UID. Useful(Total) Reviews AVG-Useful. 21833424. 1725. 5. 345. 22236153. 1699. 5. 339.8. 3312099. 1381. 5. 276.2. 6199900. 1262. 6. 210.3333. 2898980. 1465. 9. 162.7778. 19404364. 1065. 7. 152.1429. 4828685. 502. 5. 100.4. 3112639. 629. 7. 89.85714. 12449122. 529. 6. 88.16667. 6624649. 336. 4. 84. 3387663. 593. 9. 65.88889. 3580907. 215. 4. 53.75. - 33 -.

(41) 5555913. 364. 7. 52. 2115026. 311. 6. 51.83333. 1622466. 959. 20. 47.95. 22836725. 414. 9. 46. 3798706. 1387. 31. 44.74194. 16839649. 218. 5. 43.6. 12838671. 215. 5. 43. 14676697. 171. 4. 42.75. 18439852. 170. 4. 42.5. 9932690. 189. 5. 37.8. 在此本研究以圖 4.1 之流程,列出下表作為總結:. 表 4.7 關鍵使用者篩選過程之人數統計 階段. 使用者人數. 原始資料. 17366 人 建立熱門電影群. 擷取使用者. 2606 人. 熱門電影群參與程度篩選(參與程度 50%以上) 擷取使用者. 576 人. 影評有用度篩選(帄均有用度排名前 20%) 擷取使用者. 22 人. 接續研究,第五章調整實驗制定的篩選值與門檻值,並觀察系統各項指標的基本 變化。. - 34 -.

(42) 第五章 關鍵使用者的驗證與分析 本實驗預期最大的貢獻,在於使用者可以不用如此繁複的觀察每一篇使用者 發布過的影評,以決定哪一些電影是值得選擇的。簡單來說,觀察期的 19 月當 中如果使用者得一部一部的尋找,總需 402 部,就算只看認同度前 20 名的使用 者也需看 8000 多篇評論。經過了本系統篩選後,使用者只需根據關鍵使用者曾 經評論過的電影,以及其發布過的內容,就可以得到一個在觀察期間內值得欣賞 影片的觀察名單。. 第一節 關鍵使用者的衡量(票選機制) 在第四章本論文已經介紹了如何篩選關鍵的使用者,亦找出了本研究所定義 的關鍵使用者群(22 人),本節將會介紹,如何使用關鍵使用者,以及如何驗證。. 圖 5.1 關鍵使用者驗證示意圖. 圖 5.1 為一個簡單的例子,本研究將每一個關鍵使用者當作是一個投票的基 準單位,再統計每一部電影,可以得到多少關鍵使用者的支持。換句話說,本研 究希望得到的結果為越賣座的電影,可以得到越多關鍵使用者的青睞,並且只要 觀察此關鍵使用者就可以了解,哪些電影是於此期間被視為可以選擇的電影。 - 35 -.

(43) 依照上一章找出的關鍵使用者,加上本章的方法建立起如圖 5.1 的關鍵使用 者投票機制,最後進行 402 部影片的測詴。. 第二節 驗證資料與使用者分析. 圖 5.2. 研究目的以及研究流程之配合. 驗證前,本研究希望提出一個核心研究流程以搭配。如圖 5.2 所示,在第 1 階段本研究參考過去社會網絡分析方法,運用於 IMDb 之上,並思考關鍵使用者 存在時會如何呈現,符合目的(一)與目的(三)。第 2.階段與第 3 階段,是說明如 何從熱門影片群中篩選出關鍵使用者,以及如何運用關鍵使用者投票以篩選影片, 藉此了解本研究定義之關鍵使用者是否具影響力,接著會以其賣座程度為標準, 進行準確率(Precision)與召回率(Recall)的測詴。. - 36 -.

(44) 準確率與召回率為相當傳統的系統檢測方法,準確率在本研究所代表的是藉 由關鍵使用者所篩選出來之電影中有多少程度是賣座的,召回率則是就所有賣座 電影來說,本研究所提到之方法可以找出多少。而就本研究來說,召回率的比重 是高於準確率的,因為,本研究之最大貢獻,是可以在大量減少觀察資料(關鍵 使用者)之情況下依然可以得到重要資訊(賣座電影),因此能找到多少熱門影片數 對本實驗來說是相對重要的。. 圖 5.3. 系統驗證流程圖. 本研究的預設角度是以提供消費者決策或是企業的銷量為基準,因此選用電 影的計賣座排名為檢視指標,本研究認為賣座量足以證明大眾對於該電影的喜好 - 37 -.

(45) 程度,本研究亦同意電影的銷售量比線上參與討論的投票數更足以顯示觀眾的喜 好。於是本研究設計系統驗證的流程(方法),如圖 5.3 所表示。. 決定好了驗證流程後,本實驗開始蒐集電影票房狀況,下表為本實驗所蒐集 觀察期間的賣座資料: 表 5.1. 賣座量統計資料. 資料總數. 397 部. MAX. 760,507,625(USD). MIN. 1,087 (USD). AVG. 36,952,363.91(USD). 賣座定義很多,在台灣超過 1 億台幣就算是賣座 ,但畢竟面臨的是全球市 場(IMDb),而且若還要在探討賣座電影的定義可能會模糊本研究要討論的焦點, 於是本研究提出了一個想法,就是以賣座量 Top-20 以及 Top-50 的電影為賣座族 群,再進一步評估系統的效能。. 本研究必須先了解目前收集到的 402 部(5 部無賣座資料)電影的賣座情況, 其結果如下表所表示: 表 5.2. 賣座電影資料統計. 資料總數. 397 部. 賣座影片總數(票房>35M,USD). 125 部(31.4%). 賣座影片最大值. 760,507,625 USD. 賣座影片最小值. 35,024,475 USD. - 38 -.

(46) 受到這群關鍵使用者(22 人)注意的影片有 122 部,其中有 35 部為 Top-50 的賣座 電影,也有 13 部 Top-20 的賣座影片。本研究所採用的驗證方法,為傳統檢測系 統所使用的 Recall & Precision 法,計算以本研究所選出來之使用者群,其預測能 力如何。. (一) 無調整狀態(熱門影片前 20%使用者)之驗證情形 本實驗根據前述提及之方法進行,找出關鍵使用者 22 人,再將 402 部電影 全部經過關鍵使用者投票篩選(圖 5.3)過後,所有被選擇的電影約有 122 部,經 過驗證資料呈現如下表所示: 表 5.3. 關鍵使用者驗證資料集. 得票電影(關鍵使用者)總數. 122 部. 總帄均賣座量. 69,959,080. Top-50 賣座電影. 33 部. Top-20 賣座電影. 13 部. USD. 第二個驗證步驟,本實驗依照上面統計的資料,比對原本預計的 Top-50 以及 Top-20 的資料加以比對驗證,結果如下面兩張表呈現: 表 5.4-1. 關鍵使用者選擇. Top-50 熱門影片. 統計. (Top-50)Precision&Recall 資料統計 統計. 選擇. Selected. Non-Selected. True. 33. 17. 50. False. 87. 265. 352. 122. 280. 402. 精確度. 28.688%(35/122). 召回率. 66%(33/50) - 39 -.

(47) 表 5.4-2. 關鍵使用者選擇. Top-50 熱門影片. 統計. (Top-20)Precision&Recall 資料統計 統計. 選擇. Selected. Non-Selected. True. 14. 6. 20. False. 108. 274. 382. 122. 280. 402. 精確度. 11.475%. 召回率. 70%(14/20). 根據表 5.4-1 與表 5.4-2 提供之資料,Top-50 與 Top-20 的實驗都相當符合本實驗 所預期,因為本實驗希望能提供更準確的使用者決策資訊,因此在擷取觀察的 122 部中就包涵賣座前 50 名的 33 部電影與前 20 名的 14 部電影,也就是說觀眾 只要依照本實驗所提供之片單進行選擇,可以節省許多寶貴的時間。. 根據驗證結果,取得關鍵使用者 5 票以上的電影總共為 11 部,其中包涵了 有 Top-20~Top-50 電影 3 部及 Top-20 以上電影 4 部,根據計算本次驗證其精準 度為 Top-50(63.636%(7/11))與 Top-20(36.3636%(4/11))算是相當的不錯。而其他部 份則以下圖呈現:. - 40 -.

(48) 63.64%. 61.90% 57.14%. 70% 準. 確. 60% 度 50%. 45.90% 38.10%. 36.36%. 40%. 28.57%. 30%. 22.95%. 20% 10% 0% Votes>=2. Votes>=3. Top-50. Votes>=4 Top-20. Votes>=5. 圖 5.4. 關鍵使用者投票數與賣座量之驗證圖. 表 5.5. 關鍵使用者投票數與賣座量之檢測. 電影得票數. 總共. Top-20~Top50. Top-20. Votes>=5. 11. 3. 4. Votes>=4. 21. 5. 8. Votes>=3. 35. 10. 10. Votes>=2. 61. 14. 14. 由表 5.5 與圖 5.4 可知,當某部影片得到關鍵使用者 3 票以上時,其為熱門 影片的機率就相當的高,尤其是對 Top-50 熱門電影來說,其精確度相當的高 (45%~63.63%)。. - 41 -.

(49) 第三節 門檻值調整與結果驗證 (一) 門檻調整 17366 人中只取出 22 人(1.2%)來研究有一定的風險存在,本研究思考是否前 述篩選條件設定太過於嚴格,為了測詴門檻值的標準是否對本實驗產生影響,接 續實驗便以調整門檻值以觀察系統變化進行之。本研究詴著將研究的標準值放寬, 分別對參與熱門影片群(詳見表 4.7)前 20%至前 40%的使用者作篩選,並觀察其 結果。 表 5.6. 門檻值調整之資料. 門檻值. 前 20%使用者. 前 30%使用者. 前 40%使用者. 關鍵使用者總數. 22 人. 34 人. 59 人. 得票電影. 122 部. 157 部. 216 部. Top-50. 33 部. 36 部. 38 部. Top-20. 14 部. 14 部. 14 部. 根據實驗結果可以發現,放寬對於 Top-20 電影的影響相當的小,其召回率 都是相同的 70%,但是精確率卻下滑許多,而對於 Top-50 的電影影響反而是相 當顯著,由 33 部進步到 38 部,整體的效能測詴圖(Recall & Precision)如下表所 表示:. 表 5.7. 門檻值效能之變化. 門檻值. 前 20%使用者. 前 30%使用者. 前 40%使用者. Top-50 Recall. 66%. 72%. 76%. Top-50 Precision. 28.688%. 22.3%. 17.592%. Top-20 Precision. 11.475%. 8.917%. 6.481%. - 42 -.

(50) 根據上述可以得知一個簡單的結論,當目標標準越高時,要提昇超過 70%以上的 召回率,提高門檻值的方法影響是相當有限。. (二) 評分(Rating)值的篩選 IMDb 還有提供另一個功能,賦予使用者對於電影的滿意度投票機制,滿分 為 10 分最低為 0 分,而當然其中也包涵了不予計分的 N/A,因為根據本實驗起 初觀察有許多評論是不予評論(N/A),因此在觀察評分的變化之前,本研究預先 將所有不予評論的影評加以過濾。. 圖 5.5. 表 5.8 影片. 20L70 20L60. 評分(Rating)調整圖. 評分(Rating)調整的資料統計表. 20%. 30L70 30L60. 30%. 40L70 40L60. 40%. T50. 31. 32. 33. 31. 32. 36. 35. 38. 38. T20. 13. 14. 14. 13. 13. 14. 14. 14. 14. 總數. 103. 111. 122. 119. 134. 157. 170. 192. 216. - 43 -.

(51) 為了檢測關鍵使用者評分機制,本實驗先將關鍵使用者低於 5 分的評論移除, 並觀察其結果,接著再將低於 6 分的評論移除後,再觀察並統計其結果,圖 5.5 即是本實驗調整之結果。(例子中 20L70 代表前 20%保留高於 7 分評論之使用者) 根據實驗結可以知道,雖然精確度能有所提昇,失去召回率對本研究之影響 更加嚴重,與本研究預期的結果有所出入,於是乎本研究思考門檻值影響似乎不 如想像中的大,於是開始測詴若只測詴評分篩選後,前段得票數影片的準確度是 否會有所提昇,表 5.9 就是驗證之實驗數據: 表 5.9. 關鍵使用者(20L60)投票數與賣座量之檢測. 20L60 電影得票數. 總共. Top-20~Top50. Top-20. Votes>=5. 11. 3. 4. Votes>=4. 19. 5. 8. Votes>=3. 30. 9. 10. Votes>=2. 55. 13. 12. 圖 5.6. 關鍵使用者(20L60)投票數與賣座量檢測圖 - 44 -.

(52) 表 5.10. 關鍵使用者(20L70)投票數與賣座量之檢測. 20L70 電影得票數. 總共. Top-20~Top50. Top-20. Votes>=5. 9. 1. 4. Votes>=4. 15. 3. 7. Votes>=3. 29. 9. 9. Votes>=2. 50. 10. 12. 圖 5.7. 關鍵使用者(20L70)投票數與賣座量檢測圖. 根據結果發現,一旦評分標準提昇後被篩選掉的電影,變得相當的多,尤其 評分高於 7 分的評論篩選後,精確度下降相當明顯,但若是只觀察高於 6 分的標 準,準確度是有所提昇的,可知使用者的評價是必須被考慮的,而最好是以 6 分為基準,本研究推測其因素乃因每個人心中認可的標準是不盡相同的。. - 45 -.

(53) 第六章 第一節. 結論. 研究假設討論. 本研究透過社會網絡分析(以 Co-review 建立熱門影片群)與興趣導向虛擬社 群(IMDb)的有用度指標,建立一個的關鍵使用者篩選機制,且成功的找出一群 有用的關鍵使用者並加以驗證。本研究亦結合提出之目的建立一個實驗的架構, 並以本研究所提出之兩個前提假設,檢視實驗結果之呈現。. 假設一、以關鍵使用者評論建立之系統,可以節省使用者搜索時間 本研究所收集影評總共二十餘萬篇,共計 17366 位,經過了篩選後找出的關 鍵使用者為 22 位,274 篇影評,找出 Top-50 影片中的 33 部,若只觀察前 10 名 得票的影片,影評僅剩下 69 篇,其找出熱門影片之準確率有 63.4%。換句話說, 使用者僅需要觀察少量的影片就可以得到相當不錯的電影推薦清單。. 假設二、「有用(useful)評價」為社群使用者相信該影評者的重要證據 根據第五章門檻值調整的驗證實驗結果,發現採用有用度前 20%的使用者就 已經有明顯的結果了,加入其他帄均有用度更低的使用者(前 30%至 40%),不僅 其召回率提昇有限,更降低了系統的準確率。總結來說,就是系統的成效與有用 度越高的使用者越接近,證明有用度的篩選是有其效用的。. 總結,對於尋找本實驗所定義之關鍵使用者,經過實驗過後,證實了所找出 之關鍵使用者具有影響能力。以本實驗所使用的分析系統而言,在考慮使用者評 分(大於 6 分),帄均有用度前 20%之使用者為最佳選擇狀態,對於前 50 賣座電 影可以找出 32 部,賣座前 20 名可以找出 14 部。統計關鍵使用者人數為 22 人, 其觀察的影片評論總數為 111 篇,相較於 17,366 位使用者與 243,074 篇影評數, 系統處理資料量已壓縮到相當的低。 - 46 -.

(54) 第二節. 研究限制與未來研究. (一) 研究限制 1.. 與 IMDb 相仿的興趣導向虛擬社群網站有相當的多,本實驗所用之方法能 否標準化、一般化就是一個相當大的挑戰,本研究也相信只要網站能提供 像 IMDb 所提供評論有用度等一樣的類似指標,本方法也是可行的。. 2.. 門檻值設定與否以及運用的篩選指標之討論,本研究為了簡化實驗過程, 並放大使用者之效果,因此初步制定此指標,實際於推薦系統或是其他企 業運用所帶來之效果,需要依照現實所需之標準進行。. 3.. 電影議題,過去研究顯示還有影響力大的因子,而根據本實驗結果,發現 許多動畫影片雖得不到許多關鍵使用者的投票,卻有相當大的賣座量,其 很大的因素是卡司、導演等其他因子還是具有一定之影響力,若能加入一 併考慮,對於實驗之成果應該能提昇相當的多。. (二) 未來研究 1. 加入其他考量因子以提昇系統篩選使用者之準確度 如研究限制所提到,影響使用者選擇電影的因素有相當的多,影評可能僅為 催化劑使電影賣座,也有是毒藥使票房不如預期,而本研究即提出一個放大使用 者之基本的想法,並加入一個考量因素有用度指標進行篩選,其能加入的標準以 及指標亦相當的多,如語意網絡的字詞分析、或是將卡司和導演也加入考量因子, 都是未來可進行之研究。. - 47 -.

(55) 2. 門檻值的設定以及實務探討 對於實際應用於推薦系統該採用什麼標準,或是該不該採用篩選標準都是可 以討論的議題,在未來可以詴著透過相似的網站進行研究,如美食為主的愛評網、 或是中文電影網站的開眼電影,看看是否結果也會是相近的。. 3. 實驗最佳化與其他研究議題 本實驗將 19 個月蒐集到所有資料都加入系統中進行分析,但是建立尋找關 鍵使用者系統需要多少篇影評、多少使用者,或對於電影族群中的關鍵使用者定 義又是如何?卻都沒有個準則可以依循,這些議題也相當有趣,可供未來希望從 事相關研究者一個簡單的方向。. 4. 各電影分類的意見領袖 本實驗所蒐集之資料為 19 個月,其中也確實蒐集過電影的分類,希望能找 出各分類中的意見領袖,但是事實就是,兩個原因使得該研究難以執行,第一, 部份電影的影片過於稀少,像是動畫類型就不到 10 部影片,再者,有些電影分 類討論的使用者過少,在社會網路分析上運用上不管是第一還是第二,都是難以 被運用的主因,若要作到這樣的事情,還需要更大的資料。. 5. 考慮其他帄台的比較基準 因為時間的緣故,兩年實在是難以再進行其他的實驗方法以當作是比較的基 準,或甚至作到同一個方法在另一個帄台上運行的比較,例如爛蕃茄或是開眼電 影,本實驗有進行過少量的人數測詴,也發現了其實在爛蕃茄的帄台上,各個電 影的討論與 IMDb 是有些出入的,也就是說,雖然同是興趣型的虛擬社群,卻是 有不同的擁護族群。而值得高興的是,所找出來的熱門影片,重複率為 86%,代 表大家所認定的好電影其實是相近的。. - 48 -.

(56) 第三節 總結 觀察虛擬社群使用者的使用行為是很有趣的,雖然會出現許多出乎預期的結 果,卻也不時帶來許多意外的收穫。本實驗主要目的是提出一個框架(Framework) 和一個想法,如何從共同評論方法建立出的電影社群中找出關鍵使用者(帄均認 同度),最後本實驗用一個簡單的決策模型(投票),以企業或是其他查詢意見之使 用者的角度切入,呈現出系統整體的效果。. 就統計學而言,希望的就是能透過少量的觀察值,推估相近真實之情況。本 實驗也是依照這樣的想法,若企業或是其他需要資訊的使用者,只要了解少量重 要使用者之意見,就能快速制定策略與決策,那這樣的系統就能算是成功的系統 了。本實驗結果雖然是差強人意,卻也部份的解釋了關鍵使用者存在的可能,在 未來還可已有更大的發展以及改進的可能。. - 49 -.

(57) 參考文獻: 1. Adamic, L.A., Adar, E.(2003), "Friends and neighbors on the web", Social Networks,25(3):211-230. 2. Adler, R. P. and Christopher, A. J.(1998), "Internet community primer overview and business opportunities", Retrived. Mar 3, 2012 from. http://www.digiplaces.com. 3. Armstrong, A.G. & Hagel III, J.(1997),"Net Gain: Expanding Markets Through Virtual Communities", MA: Harvard Business School Press, 82-97. 4. Ahmed, A., Batagelj, V., Fu, X., Hong, S.-H., Merrick, D., and Mrvar, A.(2007), "Visualisation and analysis of the Internet movie database", Asia-Pacific Symposium on Visualisation, 17–24. 5. Baym, N. (1997), "Interpreting soap operas and creating community: Inside an electronic fan culture," In S. Keisler (Ed.) Culture of the Internet, Manhaw, NJ: Lawrence Erlbaum Associates. 6. Debnath, S. and Ganguly, N. and Mitra, P., (2008) ,”Feature Weighting in Content based Recommendation System Using Social Network Analysis.” In World Wide Web Conference, Vol. 1041-1042 7. Freeman, L.C., (1979),” Centrality in social networks conceptual clarification. Social networks.”, Social Network 1.(1978/79), 215-239. 8. Hanneman, R. A. and Riddle, M.,( 2005). “Introduction to social network methods. , Retrived. July 4, 2011 from. http://faculty.ucr.edu/hanneman/nettext/ 9. Jakob , N.,Weber , S.H. , Müller ,M.C. ,Gurevych , I.(2009),"Beyond the stars: exploiting free-text user reviews to improve the accuracy of movie recommendations", TSA’09, Hong Kong, China. - 50 -.

參考文獻

相關文件

The research proposes a data oriented approach for choosing the type of clustering algorithms and a new cluster validity index for choosing their input parameters.. The

Wang, Solving pseudomonotone variational inequalities and pseudocon- vex optimization problems using the projection neural network, IEEE Transactions on Neural Networks 17

Define instead the imaginary.. potential, magnetic field, lattice…) Dirac-BdG Hamiltonian:. with small, and matrix

Therefore, in this research, we propose an influent learning model to improve learning efficiency of learners in virtual classroom.. In this model, teacher prepares

Whatsapp、Youtube、虛擬實境等)。社交媒體(social media)是可

Microphone and 600 ohm line conduits shall be mechanically and electrically connected to receptacle boxes and electrically grounded to the audio system ground point.. Lines in

We hope to engage and collaborate with stakeholders in the community to explore the many possibilities of aging through creative workshops and community engagement3. We hope

n Media Gateway Control Protocol Architecture and Requirements.