基於自我組織圖之社會性標記之探勘與其應用

(1)

I

行政院國家科學委員會補助專題研究計畫

■成果報告

□期中進度報告

基於自我組織圖之社會性標記之探勘與其應用

計畫類別：

■個別型計畫 □整合型計畫

計畫編號：NSC 99－2221－E－390－034

－

執行期間：2010 年 8 月 1 日至 2011 年 10 月 31 日

執行機構及系所：國立高雄大學資訊管理學系

計畫主持人：楊新章

共同主持人：

計畫參與人員：黃怡翔、蔡恆慈

成果報告類型(依經費核定清單規定繳交)：

■精簡報告 □完整報告

本計畫除繳交成果報告外，另須繳交以下出國心得報告：

□赴國外出差或研習心得報告

□赴大陸地區出差或研習心得報告

■出席國際學術會議心得報告

□國際合作研究計畫國外研究報告

處理方式：

除列管計畫及下列情形者外，得立即公開查詢

□涉及專利或其他智慧財產權，□一年□二年後可公開查詢

中華民國 101 年 1 月 10 日

(2)

中文摘要

社會性標記(social tag)為透過多使用者手動或半自動的為網頁內容所加註之資訊。透過社會性標記，使用者可以容易的對網頁的內容進行歸類。社會性標記亦可提高網頁檢索的正確性，且讓我們更容易的瞭解網頁的內容。目前社會性標記的建立大多是透過社會性標籤(social bookmarking)網站由使用者手動進行加註。這樣的過程可能會產生標記具有多樣性、冗餘性與不一致性的缺陷。本研究已發展一網頁內容與標記間關聯之探勘方法，並運用所探勘之關聯進行垃圾標記偵測與標記建議等二應用。首先我們以自我組織圖為基礎，發展一文本探勘方法以找出網頁內容與標記間之關聯。透過此關聯，我們可以針對上述標記之缺點加以改善。之後我們運用此發掘成果於二個社會性標記相關之實際應用上。其一為垃圾標記之偵測；其二為社會性標記建議。本研究之主要貢獻是發展一自動方法來獲取網頁內容與標記間之關聯。運用此關聯，我們將可為許多相關應用提供可行的解決方案。透過本研究，我們期望可以提升社會性標記之品質與使用性，並進一步促進其於建構社交網站與語意網之實用性。

(3)

III

英文摘要

Social tags are annotations for Web pages added by users manually or semi-automatically. It will be much easier to understand the meaning of Web pages and classify them according to their tags. The precision in retrieving Web pages may also increase using such tags. Social tags were mostly annotated manually by users via social bookmarking Web sites. Such manual annotation process may produce diverse, redundant, and inconsistent tags. This research will develop an automatic scheme to discover the associations between Web pages and social tags and apply such associations on applications of social tag spam identification and social tag suggestion. First we developed a text mining approach based on self-organizing maps to find the relationships between Web pages and social tags. The disadvantages of manual annotation will be remedied through such relationships. And then the discovered associations were used to tackle two tasks involving social tags, namely the identification of social tag spams and the suggestion of social tags. The major contribution of this research is to develop an automatic scheme to discover the associations of Web pages and social tags, which associations can then be applied in various applications related to social Web and social tags. It is expected that the quality and usability of social tags will be improved through this research, as well as the feasibility of constructing social Web and the Semantic Web.

(4)

1. 前言

社交網站(Social Website)近年來已成為廣被使用之全球資訊網(World Wide Web, WWW) 之服務之一。目前已存在各種不同型態的社交網站，如交友網站、影音分享網站、書籤網站等，各自吸引了許多使用者。其主要特性為來自使用者之協同貢獻。在此網路中的所有使用者對此網站共同貢獻內容或註解，並加以利用。在內容的協同製作上，一般而言，使用者在社交網站上皆會建立個人之側寫檔(profile)，以進行個人為主之社交行為，例如交友網站或共筆網站，如Facebook11_{。另一種社交行為乃透過共同興趣而建立，例如共同議題} 或同類型資源分享等，如Flickr22_與Youtube33_{。另在註解的貢獻上，最大的應用即為社交性} 書籤(social bookmarking)網站，如delicious44_{。透過社交性書籤網站，使用者可以分享某網} 頁及其對該網頁加註之標記，我們稱此標記為社會性標記(social tag)。透過社交性標記過程，我們可以較容易的獲取網頁（及其他受標記物件）之語意。然而，社交性標記過程亦可以產生下列缺陷： 1. 標記之多樣性(diversity)、冗餘性(redundancy)、與不一致性(inconsistency)過高。 2. 標記間之關聯不明確。 3. 產生垃圾標記(tag spam)問題。 4. 標記之涵蓋性仍嫌不足。分析以上社會性標記之缺陷，可歸納出下列兩點主要原因： 1. 社會性標記多為使用者手動進行註記，使用者之主觀認知與習慣主宰了標記之類型、數量、精確度等，使的標記具有多樣、冗餘、不一致等特性。另一方面，社交性書籤網站大多提供標記建議機制以輔助使用者進行註記，使得使用者常根據所推薦之標記進行註記，又使得標記漸漸收斂，反向的限制了其涵蓋性。手動註記亦限制了已標記網頁之涵蓋性。 2. 網頁內容與其標記間之相關性難以準確判讀。因此我們很難判斷那些標記是垃圾標記，也很難提供一較佳之標記建議予使用者。另一方面，標記與標記間之關聯亦難獲得，使我們無法開發更深層之應用。為了克服社會性標記之缺陷，我們可以針對上述原因提出相對之解決方案。其一，我們需要一自動化註記方法，以克服手動註記所產生之缺陷。其二，我們需要一網頁內容與標記之關聯發掘方法，以判別網頁與標記間是否相關，解決垃圾標記的問題。此外，藉由發掘此類關聯，我們亦可進一步應用於其他社會性標記相關應用上，例如標記建議與排序。本研究之目的，主要為提出一自動化社會性標記的分析方法，以發掘標記與網頁內容間之關聯，並利用此關聯以改善相關應用之成效，即垃圾標記之偵測。

2. 文獻探討

垃圾標記之防範之主要策略有三種：垃圾標記偵測 (detection) 、垃圾標記預防 (prevention)、與垃圾標記降級(demotion)[1]。以下將針對這三種策略介紹目前發展情況。 1. 垃圾標記偵測：此策略之作法為利用手動或自動方式偵測出垃圾標記之存在，並加以處理。許多網站，如 Wikipedia 與 Digg，仍仰賴使用者回報垃圾標記。通常人工回報方式的結果可作為自動偵測方式之前置作業，因我們需要一訓練資料集來訓練 1_{http://www.facebook.com} 2_{http://www.flickr.com} 3 http://www.youtube.com

(5)

2 自動偵測方法。自動偵測方法可以針對標記來源（註記者）、標記內容或分析使用者之連結關係等進行偵測。針對標記來源進行偵測的方法，主要是利用白名單或黑名單的方式過濾，例如使用 TrustRank [2]。以內容為主的偵測方法分成以字詞為基礎的方法（例如使用貝氏分類法[3]），以及使用垃圾標記語料庫比對方法。另外也可有研究是根據文筆風格來進行偵測[4,5]。最後，連結分析方法在垃圾網頁之偵測上非常普遍[6]，也可被用在垃圾郵件與垃圾標記之偵測上。 2. 垃圾標記預防：此策略的主要目的為讓垃圾標記之產生過程變得較困難。常用的技巧包括隱藏系統的部份資訊與限制自動化行為。例如使用 CAPTCHA[7]，詢答訊息 [8][9]與灰名單[10]。 3. 垃圾標記降級：此策略是降低可能的垃圾標記之名聲或顯著性，亦即在呈現排行時將其降級。Liu 等學者[11]提出一方法以依據影像標記與影像內容間之機率分佈預測來作標記排行的方法。Hotho 等學者亦提出了標記之檢索與排行方法[12][13]。在垃圾標記之偵測之方法上，主要是由部落格(blog)與維基百科(Wikipedia)開始。垃圾評論(comment spam)與垃圾部落格(spam blogs)之偵測已被提出[14-16]。社會性書籤網站中之垃圾訊息偵測最早的研究為[12]。史丹福大學之 Heymann 等人[1,17]則是最早針對社會性垃圾標記進行偵測研究之學者。Krause 等人[18]則提出了使用機器學習的方法，依標記之貢獻者、標記語意與使用者行為等特徵進行垃圾標記偵測。研究目的與方法

3. 研究方法

本研究之架構圖如圖 1 所示。以下分成關聯發掘過程與垃圾標記過程描述本計畫所發展之方法。  關聯發掘過程： 本文將使用文本探勘技術來發掘網頁與標記間之關聯，以下分述其步驟。 1. 前置處理：為了將網頁與標記轉換為適合訓練使用，我們必須加以處理以轉換為向量型式。以下針對網頁與標記分述之。 A. 網頁處理：我們首先必須去除與內容無關之網頁語言標記，將網頁轉換為本文檔。而後進行斷詞(segmentation)，將本文轉換為字詞之集合。標準的字詞處理程序，如停用字去除(stopword elimination)、字根還原(stemming)、關鍵字選取 (keyword selection)等也被運用以降低關鍵字之數量，即字彙集(vocabulary)之大 小。最後我們再利用向量空間模型(vector space model)將網頁 Pi轉換為一向量

Pi。 B. 標記處理：標記和網頁不同之處在於標記基本上便已是關鍵字的型態。在此我們假定標記皆為單一關鍵字。對於使用者所註記之標記而言，基本上不會使用停用字。但為了和網頁處理結果一致，我們也會去除為停用字之標記。字根還原是必要的，因為使用者在註記時常會使用同一字根之衍生字，例如複數或進行式。另在標記中常會包含標點符號，例如 Web2.0 或使用者無意中輸入的逗號。這部份也要特別處理以避免和網頁之字彙集產生不一致。另外，對於網頁字彙集中沒有出現的關鍵字，我們也不使用以降低標記字彙集之大小。最後我 們也是利用向量空間模型將網頁 Pi之標記 Ti轉換成向量 Ti。 2. 自我組織圖訓練：本步驟之目的在於根據網頁間及標記間之關聯性進行分群。本文選擇自我組織圖[19]作為關聯性分析之方法原因為其具有頗佳的分群效能，且能將高維度資料間之拓樸關係呈現於二維的平面上。這點有利於我們去發掘資料間之關聯。在本文中，我們使用不同的自我組織圖模式對網頁向量與標記向量作分群，以

(6)

獲得資料間之關聯。 3. 標示過程(labeling process)：經前置處理後所獲得之網頁向量與標記向量，將使用 一標示過程將各網頁與標記標示於訓練後之自我組織圖上。在此所謂標示即是將某一網頁或標記依其與神經元鍵結向量之相似度加以標示，透過這個過程，我們可以將相關的網頁或標記標示於同一神經元上，如此則可獲得網頁或標記之群集，完成分群。 4. 關聯發掘：針對自我組織圖訓練後所得到的網頁間關聯與標記間關聯，本文發展一方法探勘網頁與標記間之關聯。基本上，網頁間之關聯由分群結果所表達。屬於同一群組或鄰近群組的網頁即代表具有相關性。同樣的概念亦可用於標記關聯上。本步驟的目的便在於發展一方法以找出一網頁分群與標記分群間之對應關係。令 Px={Pi}為一網頁分群，Ty = {Tj}為一標記分群，則我們可以定義其間之關聯度為：

(

)

( ) ( )

∑ ∑

∈ ∈ = x y I i j I j i y x y x C S P T T P T , P , 1 (1) 其中 I(Px)與 I(Ty)為Px與Ty之索引集(index set)，C 為一矩陣，當網頁 Pi包含註解 Tj時，其第 i 列第 j 行之元素 Ci,j = 1，否則為0。對於一網頁分群Px而言，與其最相關之標記分群Ty為符合下式者： ( )

(

x y

)

I j S y T T , P M ∈ =argmax (2) 其中MT為利用標記訓練所得之自我組織圖。圖1 系統架構圖  垃圾標記偵測方法 訓練網頁資料訓練標記資料網頁／標記關聯前置處理網頁向量標記向量標示過程網頁標示標記標示垃圾標記偵測過程垃圾標記新進網頁資料新進標記資料自我組織圖神經元權重

(7)

4 1. 前置處理與標示過程：此二步驟與上述方法相同。 2. 垃圾標記偵測過程：在垃圾標記偵測應用中，我們將使用每一網頁與標記之標示結果。依標示我們可以得知網頁或標記所屬之分群。而後再依網頁／標記關聯來判斷此二分群間之關聯。若關聯性過低，則可判斷標記與網頁內容間並無相關，當屬垃 圾標記。如圖2所示，網頁 Pi被標示於網頁分群 Px，其標記 Ti被標示於標記分群 Tx。若在關聯發掘過程後，我們發現Px與Tx是相關的，則 Ti不會被歸於為垃圾標 記，反之則 Ti會被認為是垃圾標記。在此例中，Ti並不會被認為是垃圾標記，因為 它被標示於一與 Pi所被標示之網頁分群相關之標記分群。但若 Ti被標示於 Ty，與真正有關聯之分群Tx有相當距離，則 Ti會被認為是垃圾標記。即當 Tx ∉ Nc(Ty) (3) 時，我們會認為所有屬於 Ti內之標記皆是垃圾標記，其中 Nc為一鄰近範圍。當式 (3)成立時，代表 Ti所屬之標記分群，即Tx，並不位於和其實際相關之標記分群，即Ty，之鄰近分群中。

結果與討論

我們以 ECML/PKDD Discovery Challenge 2008 (RSDC 2008)會議之公開資料集作測試。該資料庫主要用於垃圾標記偵測與標記推薦(tag recommendation)之評估使用。本資料庫共包含由 7205 位使用者標記在 141172 筆書籤上之超過二百七十萬筆標記。然而此資料庫主要是用在於使用者層級之垃圾標記偵測上，故其僅提供標記作者是否為垃圾標記者 (spammer)，並沒有針對單次層級或標記層級垃圾標記偵測提供相對應之資訊。然而此資料庫仍是社會性垃圾標記偵測領域中最廣為被運用的資料庫，故本文仍採用其作為評估之用。首先我們先針對資料庫中之非網頁書籤進行刪除，因為本文之方法需仰賴文件之內容來進行分析，故資料庫中只包含 BibTex 之項目我們皆予刪除。隨後我們採取下列步驟以去除資料中之雜訊： 1. 去除包含非英文字之標記。 2. 去除數值標記。 3. 去除標記中之常用字，如 for 及 of 等。 4. 將標記全轉換為小寫字。 5. 去除過短的標記，例如只包含二個字母字標記。 6. 去除過長之標記，如長度超過 30 個字母之標記。這些標記通常為沒有適當斷字之標記。 7. 對於剩餘之標記，使用 Porter 的字根還原(stemming)演算法以獲得標記之字根。上述的過程並不是最佳化的過程，但其實對一大量資料集而言，我們很難設計出一最佳化過程以篩除雜訊。我們採取資訊檢索與自然語言處理領域中之普遍技術來去除較不重要的標記以降低字彙集之大小。經過上述處理後，字彙集中包含 35413 個字彙。為了進一步降低字彙之數量，我們再捨棄只標記於一個書籤之標記，如此可再降低字彙之數量為 19824。對於書籤之處理，我們刪除所有 BibTex 項目、包含非英文字元之網頁、以及過短（少於 100 字元）或過長（多於 3000 字元）的網頁。如此可將書籤的數量降低為 79806。而後我們採取和標記處理相同過程來獲得書籤之字彙集，其大小為 22990。我們以所發展之方法將一標記發表(post)，即某一標記者對一書籤在同一時間所加之所有標記，轉換為一向量。同樣的，其所標記之書籤網頁亦轉換為一向量。隨後我們以自我組織圖演算法來分別訓練標記向量與書籤向量，訓練時之參數如表 1 所示。

(8)

表1 自我組織圖訓練參數 參數資料集標記發表書籤網頁字彙集大小 19824 22990 訓練資料筆數 141172 79806 自我組織圖大小 50×50 40×40 學習速率 0.4 0.4 訓練最大週期數 800 1000 訓練完成後，我們分別將標記發表與書籤網頁標示於其所對應之自我組織圖上，分別得到標記發表分群圖與書籤網頁分群圖。隨後再進行關聯發掘過程。最後再根據關聯發掘之結果進行垃圾標記發表之偵測。我們將所有的訓練資料用作測試資料，得到如表2之混亂矩陣(confusion matrix)。 表2 偵測結果之混亂矩陣 真實垃圾標記真實正常標記總計偵測垃圾標記 114628 280 114908 偵測正常標記 23619 2645 26264 總計 138247 2925 141172 根據表2之結果，我們可以得到偵測結果之正確率為(114628+2645)/141172=83.07%。

參考文獻

[1] Heymann, P., Koutrika, G., and Garcia-Molina, H. (2007) “Fighting Spam on Social Web Sites: A Survey of Approaches and Future Challenges,” IEEE Internet Computing, vol. 11, no. 6, pp. 36-45.

[2] Gyöngyi, Z., Garcia-Molina, H., and Pedersen, J. (2004) “Combating Web Spam with TrustRank,” Proc. 30th Very Large Databases Conf., pp. 576–587.

[3] Graham, P. (2002) “A Plan for Spam,”; www.paulgraham.com/spam.html.

[4] Urvoy, T., Lavergne, T. and Filoche, P. (2006) “Tracking Web Spam with Hidden Style Similarity,” Proc. 2nd Int’l Workshop on Adversarial Information Retrieval on the Web

http://airweb.cse.lehigh.edu/2006/proceedings.pdf.

[5] Mishne, G., Carmel, D. and Lempel, R. (2005) “Blocking Blog Spam with Language Model Disagreement,” Proc. 1st Int’l Workshop on Adversarial Information Retrieval on the Web (AIRWeb 05); http://airweb.cse.lehigh.edu/2005/#proceedings.

[6] Gomes, L.H. et al. (2005) “Comparative Graph Theoretical Characterization of Networks of Spam,” Proc. 2nd Conf. Email and Anti-Spam (CEAS 05); www.ceas.cc.

[7] von Ahn, L. et al. (2003) “CAPTCHA: Using Hard AI Problems for Security,” Proc.

Eurocrypt, pp. 294–311; citeseer.ist.psu.edu/vonahn03captcha.html.

[8] Templeton, B. (2007) “Proper Principles for Challenge/Response Anti-Spam Systems,”;

www.templetons.com/brad/spam/challengeresponse.html.

[9] Felten, E. (2003) “A Challenging Response to Challenge-Response,” Freedom to Tinker;

www.freedom-to-tinker.com/archives/000389.html.

[10] Levine, J.R. (2005) “Experiences with Greylisting,” Proc. 2nd Conf. Email and Anti-Spam (CEAS 05); www.ceas.cc.

[11] Liu, D., Hua, X. S., Yang, L., Wang, M., and Zhang, H. J. (2009) “Tag Ranking,” Proc.

WWW 2009, pp. 351-360.

[12] Hotho, A., Jäschke, R., Schmitz, C., and Stumme, G. (2006) “Information Retrieval in Folksonomies: Search and Ranking,” Proc. ESWC ’06, pp. 411–426.

(9)

6

Recommendations in Folksonomies,” Proc. PKDD ’07.

[14] Kolari, P., Finin, T., and Joshi, A. (2006) “SVMs for the Blogosphere: Blog Identification and Splog Detection,” Proc. AAAI Spring Symposium on Computational Approaches to

Analyzing Weblogs.

[15] Kolari, P., Java, A., Finin, T., Oates, T., and Joshi, A. “Detecting Spam Blogs: A Machine Learning Approach,” Proc. AAAI ’06.

[16] Cattuto, C., Schmitz, C., Baldassarri, A., Servedio, V. D. P., Loreto, V., Hotho, A., Grahl, M., and Stumme, G. (2007) “Network Properties of Folksonomies,” AI Communications, vol. 20, no.4, pp. 245–262.

[17] Koutrika, G., Effendi, F. A., Gyöngyi, Z., Heymann, P., and Garcia-Molina, H. (2007) “Combating Spam in Tagging Systems,” Proc. AIRWeb ’07, pp. 57–64.

[18] Krause, B., Schmitz, C., Hotho, A., and Stumme, G. (2008) “The Anti-Social Tagger – Detecting Spam in Social Bookmarking Systems,” Proc. AIRWeb’08.

基於自我組織圖之社會性標記之探勘與其應用

行政院國家科學委員會補助專題研究計畫

■成果報告

□期中進度報告

基於自我組織圖之社會性標記之探勘與其應用

計畫類別：

■個別型計畫 □整合型計畫

計畫編號：NSC 99－2221－E－390－034

－

執行期間：2010 年 8 月 1 日至 2011 年 10 月 31 日

執行機構及系所：國立高雄大學資訊管理學系

計畫主持人：楊新章

共同主持人：

計畫參與人員：黃怡翔、蔡恆慈

成果報告類型(依經費核定清單規定繳交)：

■精簡報告 □完整報告

本計畫除繳交成果報告外，另須繳交以下出國心得報告：

□赴國外出差或研習心得報告

□赴大陸地區出差或研習心得報告

■出席國際學術會議心得報告

□國際合作研究計畫國外研究報告

處理方式：

除列管計畫及下列情形者外，得立即公開查詢

□涉及專利或其他智慧財產權，□一年□二年後可公開查詢

中 華 民 國 101 年 1 月 10 日

中文摘要

英文摘要

1. 前言

2. 文獻探討

3. 研究方法

(

)

∑ ∑

(

)

結果與討論

參考文獻

中華民國 101 年 1 月 10 日