• 沒有找到結果。

第四章 實驗方法與驗證

4.2 實驗結果

立 政 治 大 學

Na tiona

l Ch engchi University

35

4.2 實驗結果

在此一章節中,我們首先比較各種不同演算法所需的計算時間以及影響力的大小。

圖 4.5:各種演算法在不同節點數量時的計算時間比較圖

由上圖所見,下方的 0 到 1000 指的是社群網路上的節點數量,左方的 0 到 25000 指的是計算時間,單位是秒。我們可以看到 CELF algorithm 的計算時間隨著節點數量 的增加呈現指數的成長,而我們所提出的分群演算法在計算時間上都遠低於 CELF algorithm。原因是因為當我們分完群之後,每個社群網路上的節點都只計算在自己群 內的影響力。因為已經將社群網路分成好幾群,每群內的節點數量已經遠少於社群網路 上的所有節點數量,所以計算時間也大幅的下降。

在 SCAN+Dynamic algorithm 的實驗結果顯示,計算時間隨著節點的數量增加而提 昇,但是在節點 800 的時候卻有明顯的下降。由於我們並不能保證使用 SCAN cluster algorithm 產生的分群數量以及分群內的節點數量,因此在節點數量為 800 的時候,每 個分群內的節點數量皆小於節點數量為 700 時某群內的最大節點數量。舉例來說:在節

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

36

點數量為 700 時,SCAN cluster algorithm 可能將社群網路分成(100,100,500),而 當節點數量為 800 時,社群網路將節點數量分成(200,200,200,200),因此在計算 影響力的時候節點數量為 700 的社群網路計算時間自然會大於節點數量為 800 的時候,

這也是使用 SCAN cluster algorithm 的缺點。

在使用 High-Probability cluster algorithm 分群時,在此實驗中我們設定分群 的數量為 10 群,也就是 100 個節點我們會分成(10,10,10,10,10,10,10,10,

10,10),每群的節點數量皆為 10。從實驗結果顯示,計算時間遠低於 CELF algorithm 以及 SCAN cluster algorithm,因為我們可以控制分群的數量以及群內的節點數量,所 以可以推算出如何設定分群的數量可以降低計算時間。以節點數量為 100 為例:我們將 此社群網路分成 10 群,每群內的節點數量皆為 10,因此只需花費 10*(計算 10 個節點 時的計算時間)即可,這也是我們可以減少大幅計算時間最主要的原因。

圖 4.6:各種演算法在不同節點數量時的影響力比較

如上圖所見,CELF algorithm 在社群網路上的影響力最好,因為此演算法是以本益 比以及多個節點在社群網路上的影響力大小為選取節點的依據,跟我們此篇研究使用分

algorithm 分群時,我們沒有辦法確定分群的數量,並且沒有辦法確定每群內的節點數 量,所以也沒有辦法有效的確定計算時間。只是使用 SCAN+Dynamic algorithm 的計算 時間還是會低於原本的 CELF algorithm,所造成的影響力也不會輸 CELF algorithm 太 多。使用 HP+Dynamic algorithm 挑選節點時,影響力的大小並沒有預期的好,但速度 卻是三種演算法中最快的。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

38

以被實際運作在真實的社群網站上,只是現在受到社群網路以及分群演算法的限制,所 以還有很大的改進空間。

下表為所設計的社群網路在不同演算法下的結果。此社群網路有 100 個節點,我們 分別比較了預算從 100 到 250 時的影響力結果。可以明顯看到我們所設計的演算法在影 響力上有明顯的提昇,影響力期望值已經接近 CELF 和 MixGreedy 演算法的結果。由於 我們的影響力算法是採用模擬的結果,必須做過很多個回合接著算出一個期望值,因此 在此實驗中我們也加入了標準差的概念,代表在每個回合所造成的影響力期望值都不會 相差太多。

除此之外,我們也另外設計了一個實驗。此實驗的目的是希望可以證明我們自己設 計的社群網路在分成五群的時,利用我們的演算法可以找出最佳的影響力組合。

如上表所示,我們分別將自己設計的社群網路分為 5 群、8 群和 10 群,接著使用我 們設計的演算法分別對不同群數的社群網路進行挑選最大影響力的組合,可以很明顯的 發現在 5 群的時候會有最好的影響力效果,也因此證明了我們所設計的社群網路分成 5

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

39

群會有最好的影響力結果。不過在預算為 100 的情況下,在 10 群時所造成的影響力會 比 5 群時的影響力來得大,會產生這樣的結果是因為我們在預算 100 的情況下,由於我 們設定節點的最低費用為 51,因此在預算 100 的情況下我們只會選出一個節點來,因此 不管是分成幾群對於造成的影響力並不會有任何影響。最後附上三種不同的演算法在此 社群網路下的計算時間結果。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

40

第五章 結論

在本研究中提出的演算法可以有效的減少『在有限的預算下找出影響力最大的代言 人組合』的計算時間,選出的代言人組合所花費的費用是符合我們所設定的預算之下,

不過選出來的節點造成的影響力大小並不如預期理想。在影響力的大小部分還有很大的 改進空間,不過計算時間減少了不少。在社群網路上,會有許多不同的團體,每個團體 內的人會互相認識,但團體跟團體之間互相認識的人數就會減少,也因此我們提出了分 群的概念,將社群網路分成不同的幾群,並且挑出每群中具有最大影響力的人來當代言 人。使用分群加上動態規劃法挑選節點所造成的影響力雖然沒有使用貪婪演算法來的 好,但是在計算時間上卻可以降低不少,很適合做在即時的網路應用程式上。使用不同 的分群演算法都可以達到減少計算影響力所花的時間,但影響力的大小還是無法勝過使 用貪婪演算法所找出來的節點組合。因此如何在社群網路上分群變成一個很重要的課 題,如果可以有效的將機率大的邊都集中在分群內,而機率小的邊都在群跟群之間,那 麼使用分群來使得影響力相加會有更好的效果,所挑選出來的節點組合所造成的影響力 大小也會更好,而這也是我們未來繼續努力的目標。

[1] D. Kempe, J. Kleinberg, and E.Tardos. Maximizing the Spread of Influence through a Social Network. In SIGKDD 2003.

[2] J. Leskovec, A. Krause, C. Guestrin, C. Faloutsos, J. VanBriesen, and N.

Glance. Cost-effective outbreak detection in networks. In SIGKDD 2007.

[3] W. Chen, Y. Wang, and S. Yang. Efficient influence maximization in social networks. In SIGKDD 2009.

[4] Y. Wang, G. Cong, G. Song, and K. Xie. Community-based Greedy Algorithm for Mining Top-K Influential Nodes in Mobile Social Networks. In SIGKDD 2010.

[5] B. Zhou and J. Pei. Preserving Privacy in Social Networks Against Neighborhood Attacks. In ICDE 2008.

[6] N. Shrivastava, A. Majumder and R. Rastogi. Mining (Social) Network Graphs to Detect Random Link Attacks. In ICDE 2008.

[7] W. Chen, Y. Yuan and L. Zhang. Scalable Influence Maximization in Social Networks under the Linear Threshold Model. In ICDM 2010.

[8] A. Krause, J. Leskovec, C. Guestrin, J. VanBriesen,and C. Faloutsos.

Efficient sensor placement optimization for securing large water distribution networks. Water Resources Planning Management 2008.

[9] X. Xu, N. Yuruk, Z. Feng, T. A. J. Schweiger. SCAN: A Structural Clustering Algorithm for Network. In SIGKDD 2007

相關文件