文獻探討總結

第二章文獻探討

第六節文獻探討總結

最後，圖 2.5 為本研究如何進行收集與整理相關文獻，因兩大主題之相關研究相當多，本研究擷取了「多媒體的社會網絡分析」以及「關鍵使用者找尋」之相關文獻以進行本研究。

圖 2.5 文獻探討整理圖

- 18 -

第三章實驗方法

在第二章中，本實驗總結了過去兩個領域中重要之文獻，以提出一個找尋關鍵使用者機制，下圖即是本實驗之實驗方法之處理細節：

圖 3.1. 實驗流程圖

圖 3.1 為本研究進行研究的基本架構，大致可以分為三個大分類，首先是先對資料收集相關以及使用者相關的議題進行解讀，然後再進一步建立該網站的社群模型，並透過社會網絡分析方法找到所謂關鍵的使用者。最後一個部份是從兩個面向去討論本研究所找到的關鍵使用者，是否符合熱門討論或是賣座成績好兩個標準。簡單的整理一下，本研究就是希望能成熱門影片(討論度高)中找群是否有存在著影響力較大的關鍵使用者群，並了解他們。

- 19 -

- 20 -

第二節資料處理階段

(一) 資料收集

本研究所蒐集的資料是來自於世界最大的電影評論網站 IMDb，蒐集一共 19 個月(2010/1-2011/5)的上映影片為資料集進行研究。而 IMDb 與類似其他聊天室或論壇一樣的種類分別(Ex 運動、生活雜事)，其記錄每一部上映影片的資料，

以及允許使用者在其網站裡對於該電影進行評論、評分或是投票的動作。

圖 3.2 資料收集範例圖

- 21 -

本研究主要收集的資料分為兩大類：

1. 電影背景資料的收集：

此類型的資料，例如電影的分類、卡司、導演、賣座票房以及上映時間等，

都是本研究要收集的重要資料。

2. 使用者資料收集：

收集使用者可操作的資料部分，包括電影評分(Rating)、電影評論(Review)、

對於他人評論的評價(Useful)。

電影背景的資料收集主要是為了使本研究可以深入探討，各種不同因素對於使用者的評價是否有關係，使用者評論資料就是本研究所要討論的核心資訊，因為本研究認為透過使用者不同的活動，像是參與討論、評論、評分的好壞，對於研究虛擬社群都有著不同程度上的意義。

圖 3.3-1 網頁原始資料範例(電影個體)

- 22 -

(二) 資料預處理

直接從網路截取到的資料片段無法夠直接加以運用，必須透過許多不同的工具以及方法，將預先的收集到的資料(Raw Data)轉變成為可以進行分析、分類的資訊。

依照本研究所需要的資訊類型，資料預處理也會根據不同的分析需求，擷取有用的資料型態。大致上會處理成兩的大的子集合，影片為主的影片個體，以及使用者為主的實驗個體。以龍紋身的女孩(The Girl with Dragon Tattoo)此電影為例，其原始資料如圖 3.3 所表示，:

圖 3.3-2 網頁原始資料範例(使用者評論個體)

原始資料呈現如圖 3.3-1 與圖 3.3-2，本實驗透過 Perl 的資料分類程式對前述資料擷取本實驗所需要得資料，而整體處理過後的資料呈現如下表：

- 23 -

表 3.1 處理後電影資料

Title: The Girl with Dragon Tattoo

Date: 2011/12/20

Rating: 8.3(17250)

表 3.2 處理後使用者資料

User-Name Movie-(year) Date Rating Useful

User1 2509775

Alice in Wonderland(2010) 2010/8/18 7/10 1/2

Million Dollar Baby (2004) 2010/10/2 10/10 1/1

在資料收集階段，最重要的是紀錄每個使用者評論過的影片，以及所得別人認同度(Useful)的多寡，其他例如評分，以及評論的日期都是為了未來可以更深入了解該虛擬社群內容的延伸資料。紀錄了所需要的資料後，下一節會說明如何將收集的資料轉為有用的資訊。

- 24 -

第三節使用者處理階段

本研究從熱門的影片開始進行處理，假設社群使用者真的會影響其他使用者觀賞的意願，受到正面影響進場的觀眾群必定會使該影片成為熱門影片，基於前面的設想和預設，本階段希望能從相對熱門的影片開始切入。尋找相對熱門影片的方法有很多種，從卡司、評分等指標進行觀察都是可行的方法，而本研究則是參考文獻探討中提及以 Youtube 影片共同評論法建立社群的方法，對 IMDb 的電影進行實驗。

(一) 熱門影片社群建立

圖 3.4 具有共同評論的兩部電影

首先，因本研究認為共同評論可以先篩選參與其中的使用者，透過建立電影群，可以過濾發表過評論的使用者，換句話說，篩選後之使用者發表影評數至少超過一篇。

本研究以圖 3.4 進行解說，M1,M2 為兩部獨立電影，且兩部電影之間具有共同的影評者。本研究認為熱門影片之間共同評論的行為可以做下列解釋：

1. 節點的連結度(Degree)越高，代表該影片得到越多的評論

2. 藉此篩選了少量參與討論的使用者(只發布過 1 篇的使用者被剃除了)

- 25 -

本研究制定的熱門程度篩選標準為連結度(Degree)高過 300 的影片，本研究參考過去研究所提出之 80/20 法則(第四章第三節一併說明)，且設定每 100 連結度為一區間(25%)，因此超過連結度 300(前 25%)的電影即為熱門影片。

(二) 虛擬社群的關鍵使用者

關於關鍵使用者，本研究不直接對其進行定義，本研究隨後會根據觀察社群的結果，提出使用者如何影響其他社群使用者。IMDb 為了能讓使用者了解某篇評論的參考性，而決定讓使用者可以對於這篇「影評」進行評價，如下圖所表示：

圖 3.5 有用度指標之原始資料

(三) 虛擬社群關鍵使用者的觀察與紀錄

根據制定標準篩選之後找出的關鍵使用者群，代表積極參與 IMDb 網站活動的使用者，且具能力能得到大眾的認同。綜合上述本研究會以下列兩個方向尋找關鍵使用者：

1. User’s Review 2. Useful-Index

本研究會以使用者評論作為使用者參與熱門影片的觀察指標，而進一步設定超過參與過帄均值的使用者為初始觀察名單，在參考使用者獲得之用度，找出最後的關鍵使用者。

- 26 -

第四章實驗設計與實驗結果

電影評論為主的虛擬社群與一般的常見人際網絡為主的虛擬社群分析型態有所不同，所謂的一般型態指的是以人際關係互動，像是留言、評論、遊戲都是使用者與使用者有直接互動的行為模式(Usage)，但在電影評論的虛擬社群(IMDb) 裡，使用者卻是很少直接與使用者進行互動，取而代之的是社群使用者對於有興趣的項目(電影, 音樂...)進行評論，換句話說，就是使用者是透過評論或是評分與其他使用者有所互動，上述更詳細的說明請參見第二章節。

為了更清楚表示實驗如何進行，圖 4.1 精簡了圖 3.1 的實驗流程圖，僅顯示本實驗的實驗進行過程，即系統如何從原始使用者群中篩選出關鍵使用者：

圖 4.1 實驗進行圖

第一節實驗資料集基礎介紹

本實驗所收集資料來源為 IMDb 之虛擬社群，進行實驗所使用的程式語言為 Perl(後端資料處理)與 Java(前端)撰寫而成。收集時間為 2010 年 1 月至 2011 年五月(共計 19 個月)，資料來源統計資料如下：

- 27 -

表 4.1 實驗資料統計表

電影總數(Movies) 402 部

獨立使用者數(Users) 17366 位

使用者回復數(Reviews) 243074 篇

19 月的時間內世界各地所有的電影總數相當的驚人，有 10 餘萬部電影產出，

其中當然有包括同名翻譯、獨立電影、以及小工作室出產的微電影，而為了簡化實驗工作與時間，本研究只取有在美國上映的影片為主要的選擇。

第二節熱門影片討論社群實驗

首先本研究希望先找到影響程度最高的熱門影片群，本實驗定義的關鍵使用者參與熱門影片之程度必定相當高，因此第一步就是要找出哪些為熱門的影片群。

前一章實驗方法有提及熱門影片如何尋找，本章節主要是紀錄真實實驗的呈現。

圖 4.2 熱門影片社群圖

- 28 -

圖 4.2 是將所蒐集之資料合併成無向圖進行實驗，總共的影片數 339個節點，

38000 條有用邊。圖形顯示，影片的討論行為集中發生在部份的影片，也就是所謂的熱門影片，到底多少影片屬於所謂熱門的影片群？本研究以第二章中找尋關鍵使用者之研究為參考，也將連結度視為考量指標，對目標影片群進行切割。

在社會網絡分析法裡，連結度是相當常見的衡量指標尤其是在進行中心度研究的時候，中心度越高的使用者於特定社群群體內被視為佔有重要位置或是權重較為重要。1979 年學者 Freeman 提出連結中心度(公式 1)越高，等於該節點與其他節點連結的邊越多，在本實驗裡連結度越高，表示兩部電影共同觀賞、評論的使用者越多。將圖 4.2 以不同的連接度切割後的成果就如圖 4.3 所表示：

圖 4.3 以連結度區分之電影社群圖型

每一個色階都是 100(25%)的連結度差距，而最高的連結度族群(紅色)則是超過 300 的外部連結中心度，其中 52 部影片屬於這個群體，換句話說，15.3%(52/339) 此區域的影片被選擇的機率達 88%(300/339)以上，也就是說在觀察的期間內只要選擇觀賞電影超過兩部的用者大部分都看過這 15.3%裡頭的影片。依照圖形的推

- 29 -

- 30 -

- 31 -

表 4.4 帄均認同度之資料彙整帄均認同度(來自多少篇)

資料來源原始資料(17366 人) 熱門影片群(2606 人)

範圍最大值最小值最大值最小值

997(4 篇) 0 560(1 篇) 0 帄均值(per User) 5.6((Useful/reviews)/User) 9.14((Useful/reviews)/User)

根據實驗結果(圖 4.4)，本研究發現有很多的發表過「高認同度」影評的使用者，在觀察的熱門影片社群內僅參與過 1-2 次，並不是單純的使用發表篇數以獲取更多的有用度指標，因此本研究在此使用帄均認同度為切割關鍵使用者的重要參考指標。

(二) 篩選關鍵使用者的前置作業-潛在關鍵使用者的刪除

篩選關鍵使用者前，本研究希望能先移除與關鍵使用者設定上有出入的使用者。本實驗發現有 113 個使用者發表過的影評是獲得高度評價的(超過帄均值的 9.14 標準)，可是在熱門影片的參與上卻是只有 1-2 部，其中甚至有 21 個使用者是前 5%(帄均認同度最高)的使用者，因此必須對這 113 位使用者進行移除。原因很簡單，本研究希望找到高參與度且高影響力的使用者，即便是這 113 位使用者的影響力很高，卻很難給使用者提供很好的決策意見(熱門影片參與程度較低的關係)，本實驗只能認為是因為本實驗所蒐集的時間區間不足，這些的使用者僅能稱之為潛在關鍵使用者。

- 32 -

- 33 -

UID Useful(Total) Reviews AVG-Useful 21833424 1725 5 345

- 34 -

- 35 -

第五章關鍵使用者的驗證與分析

本實驗預期最大的貢獻，在於使用者可以不用如此繁複的觀察每一篇使用者發布過的影評，以決定哪一些電影是值得選擇的。簡單來說，觀察期的 19 月當

在文檔中運用社會網絡分析法以發掘興趣導向虛擬社群關鍵使用者之研究 (頁 24-0)

第二章 文獻探討

第六節 文獻探討總結

第三章 實驗方法

第二節 資料處理階段

第三節 使用者處理階段

第四章 實驗設計與實驗結果

第一節 實驗資料集基礎介紹

第二節 熱門影片討論社群實驗

第五章 關鍵使用者的驗證與分析