• 沒有找到結果。

第三章 研究方法

3.7 Proximity Threshold and Maximum Coverage Threshold

圖 3.9Maximum k coverage problem 之 Greedy algorithm。

圖 3.10 MaximumCoverage algorithm

3.7 Proximity Threshold and Maximum Coverage Threshold

透過前處理,我們事先計算點與點之間的 Proximity。但有些 Proximity 值相當低,

因為可能兩個節點 u 和 v 距離太遠,當在算明星有哪些粉絲時,我們可以忽略掉 Proximity 值小的粉絲,因此可以定義出 Proximity threshold ,當 Proximity(u,v)值大於 時,我們 視粉絲 v 為明星 u 的粉絲。

對於 ProximityDiscount 而言,只要是 Proximity 不為 0,ProximityDiscount 都納入考 量,但實際在影響的時候,過小的機率是可以被忽略的,忽略掉一些過小的 Proximity,

maximum coverage threshold。因為我們是用 Greedy 的方式去解 Maximum k coverage problem,每回合增加的粉絲數也會具有 Submodularity,因此當 maximum coverage threshold,代表再增加新的明星也無法增加 Maximum coverage threshold 數量的 粉絲,倒不如重新再選,選擇粉絲群較大的明星。

另外,也要考慮到 Proximity threshold 和 Maximum coverage threshold 之間的關係。

若 Proximity threshold 值很高的時候,則 Maximum coverage threshold 就不能太大,因為 Proximity threshold 高代表對於粉絲的認定較為嚴格,粉絲的數量自然就會少,當每位明 星擁有的粉絲數較少,種子節點之集合增加一個明星能增加的粉絲數理所當然地會少於 Proximity threshold 低的時候,而此時若 Maximum coverage threshold 太大,則在選擇種 子節點時,會一直重複挑粉絲群最大的明星,而這些明星存在同一 Component 中,如此 影響力就會只侷限在某一個 Component 中。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

27

第四章 實驗

4.1 實驗設計

我們用 IMDb(Internet Movie Database)裡 1994 到 1995 年的電影做為實驗的 Dataset,電 影裡的演員代表社會網絡上的節點,而社會網絡上的邊則代表演員與演員有共同演出一 部戲。每部電影都有標籤,舉例而言,玩具總動員這齣戲有 5 種標籤,分別為 Animation、

Adventure、Comedy、Family 和 Fantasy。而每位演員的標籤則看他演出的戲最多屬於哪 種標籤,舉金凱瑞而言,他演出的電影的標籤大都為 Comedy,則金凱瑞的標籤為 Comedy。

Dataset 裡共有 6079 個節點,120610 個邊。表 4.1 是每個標籤的演員數,共有 12 種標籤,而標籤為 Sport 的演員數最少,只有 13 個演員,反觀標籤為 Drama 的演員數 有 3927 個。。

表 4.1 IMDb Dataset 各種 Label 之演員數量

標籤 數量 標籤 數量

Western 21 Action 31 Horror 43 Musical 15 Sci-Fi 48 Family 115 Sport 13 Comedy 916 Thriller 511 Mystery 162 Biography 277 Drama 3927

針對 Labeled influence maximization problem,我們提出六種解決方法,分別為 LabeledGreedy 、 LabeledNewGreedy 、 CELFLabeledGreedy 、 LabeledDegreeDiscount 、 MaximumCoverage 和 ProximityDiscount。由於 LabeledGreedy 和 CELFLabeledGreedy 所 需的運算量太大,而根據[3]的實驗顯示,NewGreedy 的效果與 CELFGreedy 差不多,因 此 我 們 接 下 來 的 實 驗 只 會 比 較 LabeledNewGreedy 、 LabeledDegreeDiscount 、 MaximumCoverage 和 ProximityDiscount 的效果。

實 驗 時 , 若 標 記 方 法 名 稱 為 MaximumCoverage_threshold_0.05 則 代 表 方 法 為 MaximumCoverage with proximity threshold 0.05。

實驗採用 Independent cascade model 模擬影響力的擴散,影響機率為 0.05。

實驗部分,針對效果,有三種比較方式,(1)針對單一標籤比較;(2)針對多個標籤,

每個 皆為 1 比較;(3)針對多個標籤,每個 皆不一定比較。

4.2 實驗結果

實驗一:針對單一標籤的比較

圖 4.1 分別比較 LabeledNewGreedy、ProximityDiscount、LabeledDegreeDiscount 和 MaximumCoverage with proximity threshold 0.05(簡稱 MaximumCoverage)四種方法的效 果;圖 4.1 中,目標標籤為 Drama,而影響一個標籤為 Drama 的演員的利潤為 1。Drama 的演員數是 Dataset 裡最多的,共有 3927 個演員。由圖可見,LabeledNewGreedy 的效 果是四個方法裡面最好的。ProximityDiscount 在第一個種子節點時,影響的利潤跟 LabeledNewGreedy 相 同 , 而 較 LabeledDegreeDiscount 多 出 大 約 100 , 也 多 出 MaximumCoverage 大約 70,這是 ProximityDiscount 領先 LabeledDegreeDiscount 與 MaximumCoverage 兩個方法幅度最大的時候。ProximityDiscount 只有在種子節點數量為 4 的時候會輸給 LabeledDegreeDiscount,其餘的情況都較 LabeledDegreeDiscount 來得好。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

29

然而,隨著種子節點數量越來越多,ProximityDiscount 領先 MaximumCoverage 和 LabeledDegreeDiscount 的幅度則越來越小。此外,MaximumCoverage 的結果也普遍較 LabeledDegreeDiscount 來得好,雖然領先幅度不像 ProximityDiscount 一樣大,除了種子 節 點 為 3 時 , MaximumCoverage 輸 給 LabeledDegreeDiscount , 其 餘 皆 顯 示 MaximumCoverage 的效果較 LabeledDegreeDiscount 好。

圖 4.1 實驗一( ={Drama}, )之效果。

圖 4.2 是目標標籤為 Comedy,且 的情況進行四種方法的比較,由 圖可知,ProximityDiscount 在種子節點數量較小的時候會贏 LabeledDegreeDiscount、

MaximumCoverage 和 LabeledNewGreedy,但隨著種子節點數量越大,ProximityDiscount 領 先 的 幅 度 越 小 , 甚 至 被 MaximumCoverage 、 LabeledDegreeDiscount 和 LabeledNewGreedy 超過。MaximumCoverage 和 LabeledDegreeDiscount 在此實驗中,當 種子節點數量超過 5 時,效果較 ProximityDiscount 來得好。而 LabeledNewGreedy 雖然 在種子節點數量小的時候表現不佳,種子節點數量為 1 的時候輸給 ProximityDiscount 約 25 利潤,但隨著種子節點數量變多,LabeledNewGreedy 效果越來越好,在種子節點 數量大於 15 後,效果較其他三種方法來得好。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

30

圖 4.2 實驗一( ={Comedy}, )之效果。

圖 4.3 實驗二( ={Comedy, Biography}, )之效果。

實驗二:針對多個標籤,而目標標籤的利潤皆為 1 的比較

圖 4.3 目標標籤為 Comedy 和 Biography,而 皆為 1。實 驗顯示,LabeledNewGreedy 的效果是最好的。而 ProximityDiscount 在此條件設定下,

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

31

只有在種子節點小於 5 的時候,效果較 MaximumCoverage 和 LabeledDegreeDiscount 來 得好。當種子節點數量增多後,MaximumCoverage 和 LabeledDegreeDiscount 的效果皆 會優於 ProximityDiscount。

圖 4.4 為目標標籤為 Thriller 和 Comedy, 皆為 1 的比較,

與 圖 4.3 相 似 , ProximityDiscount 在 種 子 節 點 數 量 較 小 的 時 候 , 效 果 較 LabeledDegreeDiscount 和 MaximumCoverage 來 得 好 , 當 種 子 節 點 數 量 較 大 時 , MaximumCoverage 和 LabeledDegreeDiscount 的效果較 ProximityDiscount 來得好,而兩 者的效果持平。反觀 LabeledNewGreedy 在此種目標標籤和標籤權重值的設定之下,只 有在種子節點數量為 1 的時候領先 profit 約 10,其餘情況皆較其他三種來得差,最差的 情況是在種子節點數量為 2 的時候,影響的利潤少於 ProximityDiscount 約 38,但隨著 種子節點數量變多,利潤的差距也越來越小。

圖 4.4 實驗二( ={Comedy, Thriller}, )之效果。

圖 4.5 目標標籤為所有的標籤,且所有的標籤的利潤皆為 1,而在這樣的目標標籤 條 件 的 限 制 下 , 其 結 果 就 是 Influence maximization 的 結 果 。 由 實 驗 顯 示 ,

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

32

LabeledNewGreedy 的 結 果 是 四 種 方 法 裡 面 最 好 的 , 其 次 是 ProximityDiscount 。 ProximityDiscount 在種子節點數量較小的時候,效果都明顯優於 MaximumCoverage 和 LabeledDegreeDiscount,並且與 LabeledNewGreedy 持平。當種子節點較多的時候,

ProximityDiscount 的效果都較 LabeledDegreeDiscount 來得好或是持平。而當種子節點數 量大於 9 時,MaximumCoverage 的效果都較 LabeledDegreeDiscount 的效果來得好。

圖 4.5 實驗二(目標標籤為所有的標籤,且所有的目標標籤之利潤皆為 1)之效果。

實驗三:比較多個目標標籤,且目標標籤的利潤皆不一定

圖 4.6 是目標標籤為 Comedy 和 Drama,而 的實 驗結果。在此條件設定下,影響一個標籤為 Comedy 的演員相當於影響三個標籤為 Drama 的 演 員 。 由 圖 可 見 , LabeledNewGreedy 的 效 果 是 四 種 方 法 裡 面 最 好 的 , 其 次 是 ProximityDiscount 。 ProximityDiscount 在 種 子 節 點 數 量 小 於 4 時 , 效 果 與 LabeledNewGreedy 持 平 。 而 與 LabeledDegreeDiscount 比 較 , ProximityDiscount 贏 LabeledDegreeDiscount 的利潤最多達 90。此外,MaximumCoverage 在此次實驗中,不 管種子節點數量為多少,效果都較 LabeledDegreeDiscount 來得好。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

33

圖 4.6 實驗三( ={Comedy, Drama}, )之效果。

圖 4.7 實驗三( ={Comedy, Thriller, Drama}, )之效果。

圖 4.7 中目標標籤為 Thriller、Comedy 和 Drama,而 。在此目標標籤設定情況下,LabeledNewGreedy 是四種方法裡面效

1 的時候,利潤多過 LabeledDegreeDiscount 和 MaximumCoverage 約 340,且在種子節點 數量小於 4 的時候,結果與 LabeledNewGreedy 相同。

由以上面實驗數據可知,ProximityDiscount 在種子節點數量較小的時候,像是種子 數量為 1 或 2 時,效果明顯優於 LabeledDegreeDiscount 和 MaximumCoverage,而當種 子節點數量變大時,贏的幅度會越來越小。由此可知,ProximityDiscount 在判斷影響力 最 大 的 節 點 時 , 較 MaximumCoverage 和 LabeledDegreeDiscount 來 得 好 。 反 觀 MaximumCoverage,雖然在種子節點數量小時,效果會較 ProximityDiscount 來得差,但 在種子節點數量較大時,利潤所增加的幅度會較 ProximityDiscount 來得明顯。而 MaximumCoverage 與 LabeledDegreeDiscount 相比,MaximumCoverage 的效果不是優於 LabeledDegreeDiscount,不然就是與其持平。

此外,LabeledNewGreedy 在目標標籤有 Comedy 時(如圖 4.2、圖 4.3 和圖 4.4),效 果較於其他三種方法來得差,我們推測社會網絡的節點結構在目標標籤為 Comedy 或目 標 標 籤 為 Comedy 搭 配 節 點 數 量 較 其 少 的 標 籤 , 例 如 ={Comedy, Biography} 或

={Comedy, Thriller},的情況下, LabeledNewGreedy 的方法較不適用,其原因可能標 籤是 Comedy 的節點在標籤社會網絡上有特殊結構性。

但 在 圖 4.5 、 圖 4.6 和 圖 4.7 , Comedy 搭 配 節 點 數 量 較 其 多 的 Drama , LabeledNewGreedy 的效果又較其他方法來得好。其原因可能是標籤為 Drama 的節點數 量較標籤為 Comedy 多出 3011 個節點,因此 LabeledNewGreedy 在影響 Comedy 的節點 時,其特殊結構性質所產生的利潤變小的效應被 Drama 帶來的利潤效應給蓋過去,因此 效果還是優於其他三種方法。

圖 4.8 是四種方法在執行目標標籤為 Comedy 且 Comedy 的利潤為 1 的資料時所需 的 時 間 , LabeledDegreeDiscount 需 要 0.1 秒 , ProximityDiscount 需 要 235 秒, MaximumCoverage 需要 20 秒,而 LabeledNewGreedy 則需要 30000 秒。

雖然 ProximityDiscount 和 MaximumCoverage 的執行時間較 LabeledDegreeDiscount 久,但還在可接受的範圍之內。而兩者方法的效果雖然較 LabeledNewGreedy 來得差,

但 卻 也 優 於 LabeledDegreeDiscount 。 因 此 , 在 考 慮 效 果 與 效 率 的 情 況 下 , ProximityDiscount 和 MaximumCoverage 會是較好的選擇。

圖 4.8 LabeledDegreeDiscount、ProximityDiscount、MaximumCoverage 和

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

36

第五章

結論與未來研究方向

5.1 結論

Influence maximization problem 是要在社會網絡中找出 k 個具有影響力的人,使得社會 網絡中有最多的人受到影響,然而,Influence maximization problem 並沒有考慮到不同 的 對 象 , 具有不 同 的重要 性 。因此 我 們針對 標 籤社會 網 絡 提 出 Labeled influence maximization problem。

在標籤社會網絡中,節點都有標籤,而每個標籤都有權重值,代表標籤的重要性。

而 Labeled influence maximization problem 是指我們如何從標籤社會網絡中找出影響最多 符合目標標籤 (Target label)條件的人的 k 個人。

我們共提出了六個新的方法來解決 Labeled influence maximization problem。其中 LabeledGreedy、LabeledNewGreedy、LabeledCELFGreedy 和 LabeledDegreeDiscount 是修 改原本研究 Influence maximization problem 的方法,此外,我們也提出了兩個新的方法 來 解 決 Labeled influence maximization problem , 分 別 為 ProximityDiscount 以 及 MaximumCoverage,

根據實驗結果顯示,在兼顧效率與效果的情況下,ProximityDiscount 會是最好的選 擇 。 ProximityDiscount 在 種 子 節 點 數 量 較 小 的 情 況 下 , 效 果 明 顯 地 優 於 LabeledDegreeDiscount 和 MaximumCoverage , 而 當 種 子 節 點 數 量 變 大 時 , MaximumCoverage 的效果會較 LabeledDegreeDiscount 和 ProximityDiscount 來得好。因 此,我們可以依照行銷人員所需來決定方法,若行銷人員所需的 k 值較小,則可以用 ProximityDiscount 來求解,反之則用 MaximumCoverage。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

37

5.2 未來研究方向

Proximity threshold 的設定會影響 MaximumCoverage 和 ProximityDiscount 的效果和 效率,Proximity threshold 設得越高,ProximityDiscount 和 MaximumCoverage 的執行效 率就越快,但效果卻不一定變好。因此,如何找到合適的 Proximity threshold 是值得研 究的目標。

此 外 , 目 前 針 對 Labeled influence maximization 所 提 出 的 方 法 , 包 括 LabeledNewGreedy、LabeledDegreeDiscount、MaximumCoverage 和 ProximityDiscount,

主要都是依據 Independent cascade mode 的特性而得,是否可以針對 Weighted cascade model 提出解決 Labeled influence maximization problem 的方法。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

38

參考文獻

[1] F. Bass, “A New Product Growth Model for Consumer Durables,” Management Science, Vol. 5, No. 5, 1969.

[2] J. Brown and P. Reinegen, “Social Ties and Word-of-mouth Referral Behavior,”

Journal of Consumer Research, Vol. 14, No. 3, 1987.

[3] W. Chen, Y. Wang, and S. Yang, “Efficient Influence Maximization in Social Networks,”

Proc. of ACM International Conference on Knowledge Discovery and Data Ming SIGKDD, 2009.

[4] A. Chin and M. Chignell, “A Social Hypertext Model for Finding Community in Blogs,”

Proc. of Conference on Hypertext and Hypermedia, 2006.

[5] G. Cornuejols, M.Fisher and G. Nemhauser, “Location of Bank Accounts to Optimize Float,” Management Science, Vol. 23, 1997

[6] P. Domings and M. Richardson, “Mining the Network Value of Consumers,” Proc. of ACM International Conference on Knowledge Discovery and Data Mining SIGKDD, 2001.

[7] P. G. Doyle and J. L. Sell, “Random Walks and Electrical Networks,” The Mathematical Association of America, 1985.

[8] C. Faloutsos, K. S. McCurley, and A. Tomkins, “Fast Discovery of Connection Subgraphs,” Proc. of ACM International Conference on Knowledge Discovery and Data Mining SIGKDD, 2004.

[9] B. Gallagher, H. Tong, T. Eliassi-Rad, and C. Faloutsos, “Using Ghost Edges for

相關文件