基於文件相似度的標籤推薦-應用於問答型網站 - 政大學術集成

全文

(1)國立政治大學資訊管理學系. 碩士學位論文指導教授:楊建民博士. 基於文件相似度的標籤推薦-應用於問答型網站 Applying Tag Recommendation base on Document Similarity in Question and Answer Website. 研究生：葉早彬中華民國一○四年六月.

(2) 中文摘要隨著人們習慣的改變，從網路上獲取新知漸漸取代傳統媒體，這也延伸產生許多新的行為。社群標籤是近幾年流行的一種透過使用者標記來分類與詮釋資訊的方式，相較於傳統分類學要求物件被分類到預先定義好的類別，社群標籤則沒有這樣的要求，因此容易因應內容的變動做出調整。問答型網站是近年來興起的一種個開放性的知識分享平台，例如 quora、 Stack Overflow、yahoo 奇摩知識+，使用者可以在平台上與網友做問答的互動，在問與答的討論中，結合大眾的經驗與專長，幫助使用者找到滿意的答案，使用單純的問答系統的好處是可以不必在不同且以分類為主的論壇花費時間尋找答案，和在關鍵字搜索中的結果花費時間尋找答案。本研究希望能針對問答型網站的文件做自動標籤分類，運用標籤推薦技術來幫助使用者能夠更有效率的找到需要的問題，也讓問答平台可以把這些由使用者所產生的大量問題分群歸類。在研究過程蒐集 Stack Exchange 問答網站共 20638 個問題，使用 naïve Bayes 演算法與文件相似度計算的方式，進行標籤推薦，推薦適合的標籤給新進文件。在研究結果中，推薦標籤的準確率有 64.2% 本研究希望透過自動分類標籤，有效地分類問題。幫助使用者有效率的找到需要的問題，也能把這些由使用者所產生的大量問題分群歸類。. 關鍵字：文字探勘、標籤推薦、群眾智慧. II.

(3) Abstract. With User's behavior change. User access to new knowledge from the internet instead of from the traditional media. This Change leads to a lot new behavior. Social tagging is popular in recent years through a user tag to classify and annotate information. Unlike traditional taxonomy requiring items are classified into predefined categories, Social tagging is more elastic to adjust through the content change. Q & A Website is the rise in recent years. Like Quora , Stack Overflow , yahoo Knowledge plus. User can interact with other people form this platform , in Q & A discussion, with People's experience and expertise to help the user find a satisfactory answer. This study hopes to build a tag recommendation system for Q & A Website. The recommendation system can help people find the right problem efficiently , and let Q & A platform can put these numerous problems into the right place. We collect 20,638 questions from Stack Exchange. Use naïve Bayes algorithm and document similarity calculation to recommend tag for the new document. The result of the evaluation show we can effectively recommend relevant tags for the new question.. Key Words: Text Mining, Tag Recommendation , Collective Intelligence. III.

(4) 目錄緒論 ....................................................................................................................................... 1. 第一章 1.1. 研究背景與動機 ...................................................................................................................... 1. 1.2. 研究目的.................................................................................................................................. 2 文獻探討 ............................................................................................................................... 3. 第二章 2.1. 標籤系統.................................................................................................................................. 3. 2.1.1. 標籤應用於 web2.0 網站 ................................................................................................. 3. 2.1.2. 標籤之於資訊檢索 .......................................................................................................... 4. 2.2. 標籤預測.................................................................................................................................. 5. 2.3. 群眾智慧.................................................................................................................................. 6. 2.4. 文字探勘.................................................................................................................................. 8. 2.4.1. 簡單貝氏分類(naive Bayes classifiers) ........................................................................... 8. 2.4.2. 向量空間模型 ................................................................................................................... 9. 2.4.3. 相似度計算 ..................................................................................................................... 11. 2.4.4. K-近鄰演算法(K Nearest Neighbor) .............................................................................. 11. 2.5. 同義字.................................................................................................................................... 12. 2.6. 小結........................................................................................................................................ 13 研究方法 ............................................................................................................................. 14. 第三章 3.1. 研究架構................................................................................................................................ 14. 3.2. 研究資料來源與資料前處理 ................................................................................................ 15. 3.2.1. 研究資料來源 ................................................................................................................ 15. 3.2.2. 資料前處理模組 ............................................................................................................ 16 IV.

(5) 3.3. NAIVE BAYES 分類器 ............................................................................................................... 16. 3.4. 改良式 NAIVE BAYES-KNN 標籤推薦法 ............................................................................... 18. 3.4.1. 推薦標籤 ......................................................................................................................... 18. 3.4.2. naive Bayes..................................................................................................................... 18. 3.4.3. 文件相似度 .................................................................................................................... 18. 3.4.4. 概念文件分群 ................................................................................................................ 19. 3.4.5. KNN 分群....................................................................................................................... 20. 3.4.6. 調整分群 ........................................................................................................................ 21. 第四章. 研究結果 ............................................................................................................................. 23. 4.1. 檢驗 NAIVE BAYES 的推薦結果 ............................................................................................. 23. 4.2. 檢驗改良式 NAIVE BAYES 標籤推薦法的推薦結果.............................................................. 24. 4.3. 加入文件群的共同標籤後的推薦結果 ................................................................................ 26. 第五章. 結論與未來展望.................................................................................................................. 28. 5.1. 結論與建議............................................................................................................................ 28. 5.2. 未來研究方向與建議 ............................................................................................................ 29. 參考文獻 ............................................................................................................................................ 30. V.

(6) 圖目錄圖 2-1 Stack Overflow 的標籤系統 ....................................................................................... 3 圖 2-2 Flickr 的標籤系統.......................................................................................................... 7 圖 2-3 向量空間模型 ............................................................................................................... 10 圖 2-4 使用數學矩陣表示向量空間模型 ......................................................................... 10 圖 2-5 KNN 示意圖 .................................................................................................................. 12 圖 3-1 系統架構......................................................................................................................... 15 圖 3-2 未調整前群內文件數的分布................................................................................... 21 圖 3-3 調整後群內文件數的分布........................................................................................ 22. VI.

(7) 表目錄表 4-1 測試文件可能性最高的前三個標籤 .................................................................... 24 表 4-2 測試文件可能性最高的前三個標籤..................................................................... 25 表 4-2 與測試文件相似度最高的五篇文件..................................................................... 25 表 4-3 不同參數的預測正確數 ............................................................................................ 27 表 4-4 部分文件群集與共同標籤........................................................................................ 25. VII.

(8) 第一章 1.1. 緒論. 研究背景與動機社群標籤是近幾年流行的一種透過使用者標記來分類與詮釋資訊的方式，. 社會化協同標籤的過程，是由使用者們共同為網際網路上的資源進行標記，而產生使用者對資源的索引(戴瑋,2008)。傳統的分類學(Taxonomies)要求物件被分類到預先定義好的類別，社群標籤則沒有這樣的要求，因此容易因應內容的變動做出調整(Huberman,2005). 不過傳統上標籤分類只能仰賴領域專家以人工的方式作業，面對如此龐大的資料量，使用人工來進行標籤分類是一件不切實際的事，是以有許多的研究都在針對如何從大量文件裡利用自動化解析技術，快速、有效地協助人工進行文件分類，例如 TF-IDF 演算法，就是利用詞彙在文件中出現的頻率與詞彙在文件集中出現的頻率來去做截取關鍵字的動作，不過單純使用 TF-IDF 的結果還不夠準確，有許多的研究都會再去加以改進。. 問答型網站是近年來興起的一種開放性的知識分享平台，例如 quora、Stack Overflow、yahoo 奇摩知識+，使用者可以在平台上與網友做問答的互動，在問與答的討論中，結合大眾的經驗與專長，幫助使用者找到滿意的答案，使用單純的問答系統的好處是可以不必在不同且以分類為主的論壇花費時間尋找答案，和在關鍵字搜索中的結果花費時間尋找答案。. 因此本研究決定決定建立一個標籤預測的系統，針對文件的特性預測適合的標籤給文件。然而傳統上的標籤預測存在一些缺陷，由於標籤預測需要由訓練資料來建立預測的規則，而訓練資料可能會有標籤遺漏、或是錯誤標籤的情況發生，因此本研究試圖透過將文件分群，找出相似文件的共同概念，利用群眾智慧的方式來彌補資料缺陷導致預測錯誤的情況，推薦符合大眾共識的標籤給文件。. 1.

(9) 基於以上理由本研究使用問答網站提供的問題文件資料，透過文字探勘的技術彙整文件中群眾對標籤的共識，推薦適合的標籤給使用者作為標記標籤的參考，透過這樣的方式更快速、更有效率的分類問題，幫助使用者能夠更容易找到需要的問題，此外也能讓我們瞭解到使用者對特定議題的詮釋方式，進而改善文件分類的成果。. 1.2. 研究目的依上述背景與動機，本研究針對以下作為研究目的：. 1.. 使用文字探勘技術針對已經建立標籤的問題進行訓練，產生推薦標籤的規則。. 2.. 使用訓練之規則建立一個推薦系統，針對新進文件，推薦可以代表文件概念的標籤。. 3.. 使用 KNN 對問題做分群，將相似的問題分門別類，尋找文件群中的共同概念。. 2.

(10) 第二章 2.1. 文獻探討. 標籤系統標籤系統可以幫助我們對文字、圖片、音樂等資源進行標記，建立這些資. 源的索引資料。. 2.1.1 標籤應用於 web2.0 網站. Web 2.0，指的是一個利用 Web 的平台，由使用者主導而生成的內容網際網路產品模式，為了區別傳統由網站僱員主導生成的內容而定義為 web2.0」，常見的. Web 2.0 網站有 blogger、Twitter、維基百科、Stack. Overflow(stackoverflow.com)。部分 Web2.0 的網站會提供標籤系統，例如 twitter 可以對每則推文下標籤、Stack Overflow 可以對發問的問題下標簽。使用者可以針對內容下標籤，因此這些內容可以容易搜尋、導向與推薦，貼標籤的動作減少了做決定的動作(決定對的分類) ，對於大多數的人而言是免除了分析抉擇的過程。. 圖 2-1 Stack Overflow 的標籤系統資料來源：(Stack Overflow,2015). 3.

(11) 2.1.2 標籤之於資訊檢索. 有研究在討論應用標籤來改善資訊檢索，如林倩妏、卜小蝶(2010)認為「標籤可以用來解決資訊結構的典型問題:幫助人們發掘並使用資訊、使糾結的語言產生意義以及減少模糊性的認知與經濟成本。」。此外相較於現行分類學的階層化與排他性，協作標記擁有非階層化與包容的優點，例如以現行分類學的方式來分類有關『非洲貓』的資訊時，他只能被分類在『貓』或是『非洲』的其中一種，所以我們必須同時檢索『非洲』與『貓』這兩個類別，才能找到所有關於『非洲貓的訊息，相較之下標記的方式，讓我們可以同時賦予『非洲』與『貓』這兩個類別到相關資訊上，因此對使用者來說使用標記系統就像是使用關鍵字搜尋，可以更方便的找到資訊。此外使用者的標記行為，並非是一種單純的個人行為，使用者的標記習慣會受到其他人的影響，彼此經驗與知識的交流因而在一個群體或是社會中會逐漸收斂產生相近的標記。(Golder & Huberman, 2006). 戴瑋(2008)也提到關鍵字可以對搜尋結果賦予概念及意義，社會化協同標籤以群體智慧的方式，透過大眾分類法讓往後的搜尋結果與使用者的關鍵字之間，可以有更多的關聯與概念上的相同程度，他認為標籤是種將自己想要跟別人分享的資源做標記來詮釋資訊的動作，這樣的詮釋方式會從群體共識中慢慢形成，標籤就會更具有準確性與可信度，而這種分類方法比專家所形成的分類更具有群體共識的價值。透過這樣的方式改善搜尋效果，增加搜尋的準確性，減少使用者過濾龐大搜尋結果的負擔，進而提升整體的搜尋效率。. 此外 Heymanny 等人於 2008 年時有進行過一個針對 del.icio.us 的研究。 del.icio.us 是一個讓使用者整理 URL 的書籤管理服務，使用者可以在上面分享 URL，並對 URL 下標籤， Heymanny 蒐集了 del.icio.us 三百萬筆的資料，去進行標籤預測的研究，並發現這些由使用者所定義的標籤，可以改善搜尋引擎的效能。. 也就是說透過標籤來分類資源時，標籤的標記字彙與使用者心目中真正的 4.

(12) 語意有著很大的關係，可以產生以使用者觀點為中心的分類，因而可以可以讓使用者更容易檢索到欲尋找的資訊。. 2.2. 標籤預測. 社群標籤預測(Social Tag Prediction)是『給訂一群物件，與標記在物件上的標籤集合，預測某標籤是否會被標記在指定物件，』. 針對社群標籤預測這類型的問題，Heymann 在 2008 年整理解決`社群標籤預測`這個問題，可以帶來以下的優點: 1. 增加單一標籤查詢的著回率 2. 建立使用者之間對於特定知識的共識 3. 消除標籤之間的歧異. 並提出一個用來預測 URL 的標籤的方法，使用 URL 對應頁面的內文，錨點(anchor)的文字，與其他對應到該 URL 的標籤，另外因為會有許多人對相同的 URL 建立不同的標籤，每個 URL 平均會對應到 2.5 個 tag，這類型的問題使用者會會對許多相同的物體建立不同的標記，所以也談到了使用基於標籤的關聯法則來提高標籤預測的精確率(precision)。. Adriana 等人於 2009 年提出使用文件網路的概念來推薦標籤，該研究基於概念相似的文件會有相似的標籤這樣的想法，根據文件之間的相似度建立一個文件網路，當一個標籤被分派到一篇特定文件時，這篇文件鄰近的其他文件很可能也適合這個標籤。並用這個想法建立了一個基於文件與關聯文件特性的 Scoring Model，在這個模型裡面使用了關聯文件標籤的頻率、文件間的相似度、潛在標籤與文件的距離，產生一個 top K 的標籤選擇演算法，當推薦一篇文件適合的標籤時，根據該文件在文件網路上的臨近文件，推薦適合的標籤。該模型使用 del.icio.us 書籤管理服務的資料來檢驗模型的成果，精確率達到 73%。 5.

(13) 也有研究(Cao,Xie,2009)指出，標籤推薦系統可以歸納成兩種方向，規則導向與分類導向。規則導向的推薦系統需要足夠的專家知識與繁雜的人工作業，同時這樣的推薦性桶在通用性上會有所限制，而分類導向的推薦系統也有自己的問題，因為標籤推薦會被轉化成一個多類別的分類問題，而標籤數的不固定使得這樣的分類問題難以解決。因此該研究認為排序模型(ranking model) 會是比較適合用來處理這個問題的方式，該研究利用 Ranking SVM(排序式支援向量機)來推薦適合的標籤，在實驗資料中取得不錯的成果。. 另外使用者本身的標記行為也是一個重要的指標，Yin, Dawei(2010)發現過往的標籤推薦系統往往沒有考慮到使用者的標記行為，也就是說標籤的推薦結果不會因為不同的使用者而有所差異，因此他們提出個人標籤推薦系統的概念，也就是在推薦標籤的時候，會考慮使用者過往的標記行為，他們設計了一個機率模型來處理標籤預測的問題，使用貝氏方法整合三個因素(使用者本身的行為、環境效果、與網頁內容)，考慮不同使用者之間標記習慣的差異，預測能力會優於相較於不考慮的模型。. 2.3. 群眾智慧. 群眾智慧是一種群體的智慧，透過彙整群體成員的意見進而產生的群體結論。傳統上包含專家在內的每個人對於解決問題所具備之知識往往不盡完備，經常造成個人認為最合適之決策方案實際上並非最適決策方案的窘境。(陸明怡,2011)而透過群眾智慧產生的結論將比群體內最具智慧的個體所提之結論更具智慧;即使群體中大部分角色皆不特別具備豐富之領域知識、亦不特別講究理性，但經由匯集群體成員之意見所形成的集體決策往往具有高度智慧性，將能協助問題詢問者獲致較完善且具建設性之決策結論。(Surowiecki,2004). 在資訊檢索中也常可見見到群眾智慧的應用，例如 Sigurbjörnsson 與 Zwol(2008) 整理了 Flickr 照片分享網站上五千兩百萬筆公開的相片，由過往使用者對相片標記的標籤，研究使用者如何對相片標記標籤與標籤中包含哪些資訊，根據這些分 6.

(14) 析，提出了一個基於標籤共現率的推薦策略，當使用者在標記標籤時，整理可能與之相關的候選標籤，經過彙整於排名後，推薦一系列適合的標籤給使用者做參考，進而提升照片被搜尋與瀏覽的機率，改善照片不易被搜尋的問題。. 圖 2-2 Flickr 的標籤系統資料來源：(Flickr,2015). 另外，Kittur 與 Kraut(2008)研究了維基百科 (Wikipedia)上，文章貢獻者人數與 7.

(15) 文章品質的關係，「維基百科 (Wikipedia)」是一個由使用者編輯內容的網路百科全書協作計畫，所有人都可以簡單地使用網頁瀏覽器修改其中的內容(受保護的內容除外)。針對為何維基百科可以提供使用者具有價值的豐富知識，Kittur 與 Kraut 研究文章貢獻者人數與知識呈現品質間之關聯性。從維基百科上的一篇文章統計不同時間區隔內的編輯人數，調查使用者對於該文章的評價後，經由 Heckman 迴歸(Heckman Regression)得到文章編輯者與文章品質之迴歸方程式，來推論文章於不同品質水準時所對應之編輯人數。研究結果顯示，當文章的編輯人數增加時確實可提升該篇文章之品質，代表以一平台將群體裡之個人知識予以彙整的方式可較紙本形式、由少數專家編輯之百科全書提供更即時且品質高之知識予知識需求者。不過該研究亦指出並不是文章貢獻者人數越多文章的品質就會越好，過多的文章貢獻者往往會破壞共同編輯的和諧性。. 2.4. 文字探勘. 文字探勘，是一種從文件處理過程中產生有價值資訊的一種技術，文字探勘主要是針對一般資料探勘難以處理的半結構化與非結構化的文件，從中找出有價值的資訊。常見的文字探勘方向包含關鍵字擷取，字詞的關聯度分析，文件分類，文件分群。文字探勘需要結合數學、統計、機率、人工智慧、資料檢索及資料庫等相關知識，用於從大量的資料中萃取出有用的資訊。為了增加結果的有效性與準確性，文字探勘必須嘗試讓機器瞭解文件的本意，因此要透過字詞處理技術來分析與表達文件以便做進一步的運用。目前較常被使用的字詞處理技術含斷詞處理、字詞權重計算、向量空間模型表示等。. 2.4.1 簡單貝氏分類(naive Bayes classifiers) naive Bayes 分類器是基於各類別之屬性間彼此條件獨立的假設下，由事前機率與條件機率計算事後機率，決定一例子最可能類別的分類方法。其主要的運作原理，是透過訓練資料，學習記憶分類根據所使用屬性的關係，產生這些訓練樣本的中心概念，再用學習後的中心概念對未歸類的資料物件，進行類別預測，以得到受測試資料物件的目標值。naive Bayes 的優點在於容易規模化，當資料量變大時，相較於其他演算法，naive Bayes 收斂速度較快 8.

(16) (Jordan,2002) ，分類時間也比較短。. naive Bayes 分類器是一個間單的模型，雖然現實世界大部份的時候並不存在類別之屬性間彼此條件獨立，但 naive Bayes 通常都可以有不錯的表現，因為這是一種二元分類問題(答案只有是與否)，雖然估計的不夠精確，不過對分類問題來說這樣的準確度已經足夠了。因為條件獨立假設的關係，即使分類問題的屬性很多，也可以有不錯的學習速度，所以適合用於文件分類 (McCallum, Andrew, and Kamal Nigam,1998)。. 2.4.2 向量空間模型在文字探勘中，向量空間模型是一個很簡單也很有用的模型(Salton, 1983)，也是目前最被廣為使用的資訊檢索模式。向量空間模型的目的是在文字檢索的過程中，將文件轉化成字彙索引的集合，每一維都相當於是一個獨立的字彙。如果這個字彙出現在了文件中，那它在向量中的值就非零。同時會針對各個字彙索引給予適當的權重(Weight)，來表達每個字詞在文件中的重要程度與價值。目前已經有很多種不同的方法來計算這些值，最常使用的計算方式為 TF-IDF。要將文件轉換成向量的方式為在文件集合中，找出一組字彙，使得文件集合中的每一篇文件都能有一個對應的向量具有足夠的資訊來代表該文件，該向量就代表了向量空間模型中的一篇文件。. 在一文集中，每個字彙都代表空間中的一個維度，每個維度上的值則代表該文件在這個維度上的重要程度，通常值會使用權重表示。以圖 2-2 為例，三維空間中文件皆由三個不同字詞(T1,T2,T3)所組成，依照每篇文件中字彙權重的不同，在空間中的位置也會不一樣。我們可以將這個例子延伸到多維度，並使用數學矩陣的方式來表達及運算，如圖 2-3 所示，其權重為字彙 i 在文件 k 中的權重。. 9.

(17) 圖 2-3 向量空間模型資料來源：(Salton, Gerard, Wong , A. &Yang , C.S. ,1975). 圖 2-4 使用數學矩陣表示向量空間模型資料來源：(Salton,1983). 向量空間模型雖然很方便，不過也是存在一些限制，以下列出向量空間模型 10.

(18) 的限制：. 1. 不適合用於長篇的文件，文件的相似度容易不理想(過小的內積和過高的維數)。 2. 語義敏感度不佳；具有相同的概念但使用不同的字彙的文件無法被關聯起來。 3. 無法表示字彙在文件中出現的順序。 4. 假設字彙在統計上是獨立的。. 2.4.3 相似度計算餘弦相似度是透過測量兩個向量內積空間夾角的餘弦值來衡量它們之間的相似程度。0 度角的餘弦值是 1，而其他任何角度的餘弦值都不大於 1;並且其最小值是-1。因此我們可以從兩個向量之間角度的餘弦值來判斷兩個向量的相似程度，在向量空間模型中我們將文件轉換成向量，向量的值用來表達每個字詞在文件中的重要程度與價值，因此兩個相似的文件，在向量空間模型中，角度應該會比較小，也就是說兩篇相似的文件，他們的餘弦相似度會越接近 1，如果兩篇文件相似度越小，餘弦相似度就會越接近 0。餘弦相似度的夾角公式如下：. ∑𝑛𝑖=1 𝐴𝑖 × 𝐵𝑖 𝐴∙𝐵 𝑐𝑜𝑠(𝜃) = = ||𝐴|| ∙ ||𝐵|| √∑𝑛𝑖=1(𝐴𝑖 )2 × √∑𝑛𝑖=1(𝐵𝑖 )2 2.4.4 K-近鄰演算法(K Nearest Neighbor) KNN 演算法的概念為未知類別的資料與「同類型資料的相似度」應該要比「不同類型資料的相似度」高。因次可以藉由計算與已知類別資料的相似度，來評估未知類別資料可能的分類。. kNN 分類法採用向量空間模型來分類，在對文件分類前必須將文件轉換為向量空間模型，再藉由計算與已知類別內文件的相似度，來評估未知類別文件的可能類別。也就是透過比較未知類別文件與各內別內文件的相似度，來 11.

(19) 判過未知類別文件應該要屬於哪一個類別，其中 k 為取樣文件數，代表了要擷取與未知類別文件最相似的前 k 個已知類別文件，作為判斷未知類別文件應該被歸類至何處的依據。以圖 2-4 為例，綠色的圈圈應要屬於哪一個類別，假定 k=3 則綠色圈圈將被分配到紅色三角形這一個類別，因為距離他最近的鄰居中有 2 個三角形和 1 個正方形。. 圖 2-5 KNN 示意圖資料來源：(Antti Ajank,2007). 2.5. 同義詞. 由於使用者常使用不同的字彙來描述相同概念，但概念與詞彙之間的關係時常混淆不清，因為概念與詞彙的關係，並非一對一的:對於同義詞(Synonym)，多個詞彙可代表一個概念;對於同形異義詞(Homographs)，一個詞彙可以代表多個不同的概念。(陳光華,2001)例如:一個關於蘋果電腦使用問題的文件，使用者可能會標記『頻果電腦』或是『Mac』，雖然人類可以容易的認知出這兩者是指同一個概念，不過電腦沒有辦法理解，會將兩者視為不一樣的標籤，因此需要藉由同義詞字典的方式來讓改善情況。. 建構同義詞字典最傳統的方式是利用人工建立一詳細的語意對照表，另一方法為再利用既有的線上詞典，例如 WordNet 或 Longman，以其為基礎加以建構或 12.

(20) 重組(陳光華,2001)，又或是以語料庫為基礎結合文字探勘的方式，例如使用矩陣定義詞彙之間的相似性建立同義詞字典。. 2.6. 小結. 文獻探討裡談到了標籤並非是一種單純的個人行為，使用者的標記習慣會受到其他人的影響，彼此經驗與知識的交流在社會中逐漸收斂產生相近的標籤。 (Golder & Huberman, 2006)，也講到標籤可以改善資訊檢索，讓使用者更容易檢索到欲尋找的資訊。. 標籤推薦可以推薦適合的標籤給文件，讓文件容易被檢索。文獻中有需多研究將這樣的問題視作標籤預測，不過本研究認為標籤預測這個問題本身是有瑕疵的，因為每個人的個別觀念可能會導致標籤標記錯誤或是遺漏，因此本研究決定從群眾智慧的角度著手，我們認為標籤推薦會是比較適合的問題，當社會大眾對於類似的概念都使用相近的標籤時，可以視作是社會大眾對於這個概念的共識，而使用這些標籤來可以正確代表特定概念的可能性也會比較高，也就是說我們不執著於個人對標籤的特定偏好，而是從社會大眾對於特定概念的共識來推薦標籤。. 簡單貝氏分類是一個適合用來處理文件分類的模型，本研究將利用問答網站上的問題整合簡單貝氏分類並加上其他因素來進行標籤推薦。. 13.

(21) 第三章. 研究方法. 本研究使用 Stack Exchange 所提供之實際問答資料，經過資料前處理步驟，去除標點符號、斷詞、內容過濾，利用 naive Bayes classifier 進行問題與相關標籤之訓練後產生分類器，同時將相同標籤的文件彙整，做為推薦標籤的依據。最後使用 KNN 分群演算法將訓練文件分群，將每個文件群中出現次數最多的前幾個標籤視為該群的共同標籤，協助標籤推薦的檢驗。. 3.1. 研究架構. 本研究由 archive.org 下載問答網站 StackExchange 所提供之問答資料，將下載下來的問答資料前處理，包含去除資料雜訊，斷詞，將處理過的字詞作內容過濾，移除沒有標籤的問題，完成前處理後記錄每個問題的詞集合與對應的標籤出現的次數頻率，以此作為 naive Bayes 分類器的分類依據，同時將相同標籤的文件彙整，作為與新進文件比較文件相似度的依據。此外使用 KNN 分群演算法將訓練文件分群，將每個文件群中出現次數最多的前幾個標籤視為該群的共同標籤，協助標籤推薦的檢驗。推薦標籤時，會先使用 naive Bayes 分類器選出適合的前 a 個標籤，接著從有標記這 a 個標籤的文件群裡面計算與新進文件的相似度，選出相似度最高的前 b 個文件，再從這些文件中彙整相似度，推薦最適合的標籤，檢驗標籤的正確率時，先將測試文件分群至概念文件群中。除了檢驗推薦標籤是否存在於測試文件本身的標籤，只要推薦標籤出現在測試文件所屬的概念文件群的代表標籤裡面，就算是預測正確。. 本研究之系統架構如下圖 3-1:. 14.

(22) 圖 3-1 系統架構資料來源:研究自行整理. 3.2. 研究資料來源與資料前處理. 3.2.1 研究資料來源首先本研究採用 Stack Exchange 所提供的 Stack Exchange Data Dump 作為研究 15.

(23) 的資料來源。Stack Exchange 是一個問答式網站的服務，針對各類型的問題提供社群問答服務，例如 Stack Overflow(http://stackoverflow.com/)就是 Stack Exchang e 專門針對程式問題的問答服務網站。Stack Exchange Data Dump 是 Stack Excha nge 將網站上的實際資料經過使用者匿名的處理後，開放分享供社會大眾使用的開源資料，本研究所使用的問題資料格式包含標題、內文、與標籤，透過這些資料來訓練分類器。. 3.2.2 資料前處理模組 1.. 移除問題. 有些問題並沒有被標記標籤，這些問題在訓練中沒有作用，同時會影響推薦的正確率，因此在訓練之前必須先將這些問題移除。. 2.. 資料清理. 由於實際的資料會包含標點符號與特殊字元，還有大小寫，由於這些資料並不具有實際意義或是會造成同樣意義的文字被分成兩類，Apple 與 apple 都是代表蘋果，可是電腦再比對時會考慮大小寫，使兩著被分類為不同的詞彙，因此為了避免這樣的問題發生，需要先將資料進行處理，去除標點符號與特殊字元，並將所有字詞都轉為小寫。. 3.. 斷詞. 本研究所使用的資料為英文，由於英文一般以空白作為詞與詞之間的間隔，因此本系統目前以空白作為分詞的規則。. 4.. 內容過濾. 斷完詞的詞彙，會用來建立 naive Bayes 分類器，在訓練之前，為了節省儲存空間與提高計算的效率與精確度，需要去除不必要的停用字(Stop Word)，例如:the、 and、with... 將較有意義的詞彙留下，以便降低運算負擔，增快運算的速度。. 3.3. naive Bayes 分類器. 經過前述的處理後，紀錄每則問題的詞彙與標籤共同出現的次數，作為 naive 16.

(24) Bayes 分類器的推論依據，系統會記錄: (1)標籤與這些詞彙共同出現的次數(i.e.一篇標記”tag1”的問題，出現了 3 次” word1”則 tag1_word1 的次數加 3) (2)標籤出現的次數(i.e. 一篇標記”tag1”的問題，則 tag1 次數加 1). 本研究將標籤視為類別，因此每篇文件會根據擁有的標籤數，隸屬於零至多個類別，接著我們使用 naive Bayes 分類器來計算新文件屬於某標籤的機率. 演算法步驟如下:. 1. 將新進文件進行前處理。 2. 使用 naive Bayes 計算新進文件屬於某標籤的機率。 3. 重複步驟 2，直到所有標籤都計算過。 4. 擷取機率最高的類別，作為新進文件的所屬標籤。. naive Bayes 公式如下: 𝑛. 𝑝(𝐶𝑘 |𝑥1 , … , 𝑥𝑛 ) = 𝑝(𝐶𝑘 ) ∏ 𝑝(𝑥𝑖 |𝐶𝑘 ) 𝑖=1. 𝑑𝑜𝑐𝑐𝑜𝑢𝑛𝑡(𝐶=𝐶𝑘 ). 𝑝(𝐶𝑘 )為標籤 k 的機率，其值為籤 k 的文件數目，Ｎ. 𝑑𝑜𝑐. 𝑁𝑑𝑜𝑐. (1). ，其中𝑑𝑜𝑐𝑐𝑜𝑢𝑛𝑡(𝐶 = 𝐶𝑘 ) 為包含標. 為全部的文件數。 𝑝(𝑥𝑖 |𝐶𝑘 ) 為給定標籤 k 出現,詞彙 i 的. 出現機率，其值為𝑐𝑜𝑢𝑛𝑡(𝑥𝑖 , 𝐶𝑘 )⁄∑𝑥∈𝑉 𝑐𝑜𝑢𝑛𝑡(𝑥, 𝐶𝑘 )，其中𝑐𝑜𝑢𝑛𝑡(𝑥𝑖 , 𝐶𝑘 )為包含標籤 k 的文件,詞彙 k 的出現次數，𝑉為全部文件裏出現過的詞彙集合。. 當一篇新進文件經過前處理後，會使用公式(1)計算文件屬於某標籤的機率，每個標籤都計算完後，選出最高的標籤作為新進文件的推薦標籤。. 17.

(25) 3.4. 改良式 naive bayes-KNN 標籤推薦法. 在研究過程中發現，單純使用 naive Bayes 的效果並不理想，因此本研究由相似的文件比較可能擁有相同標籤的概念出發，結合 naive bayes 與文件相似度，先使用 naive bayes 選出可能性較高的標籤群集，接著透過文件相似度的比對，找出最適合的標籤，利用這樣的做法來改善推薦標籤的正確率。. 3.4.1 naive Bayes 分類推薦標籤的演算法步驟如下:. 1. 使用資料前處理模組對新進文件進行清理，斷詞，內容過濾的動作。 2. 將前處理過的新進文件使用 naive Bayes 分類器選出前 a 個最有可能的標籤，作為候選標籤集。 3. 利用文件相似度比對新進文件與步驟 2 選出之候選標籤集的對應文件，從中找出最相似度最高的 b 篇文件。 4. 根據步驟 3 的 b 篇文件所對應的標籤推薦最適合的標籤作為新進文件的標籤。. 3.4.2 naive Bayes 分類當一篇新進文件經過前處理後，使用公式(1)計算文件屬於某標籤的機率，每個標籤都計算完後，選出機率較高的標籤集作為候選標籤集，本步驟與 3.3 的運算方式一樣，差別在於在改良式的標籤推薦法中我們選出機率較高的標籤集作為候選標籤集。. 3.4.3 文件相似度新進文件經過第一階段使用 naive Bayes 選出候選標籤集之後，使用訓練文集中包含第一階段候選標籤群集的文件與新進文件比較相似度，選出相似度高的文件所包含的標籤來推論新進文件的所屬標籤。. 計算文件相似度的作法如下: 18.

(26) 1. 選出屬於第一階段候選標籤集所屬的文集。 2. 使用公式(2)，計算文集裡的文件與新進文件的相似度 3. 選出相似度最高的前 b 篇。 4. 將擷取出的 b 篇文件中，相同標籤的所有文件與新進文件的相似度加總並除以文件個數，推論數值最高的標籤作為新進文件的推薦標籤。. 文件相似度公式如下. 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑑𝑜𝑐1,𝑑𝑜𝑐2 = 𝑤1 × 𝑐𝑜𝑤𝑜𝑟𝑑(𝑇𝑑𝑜𝑐1 , 𝑇𝑑𝑜𝑐2 ) + 𝑐𝑜𝑤𝑜𝑟𝑑(𝑉𝑑𝑜𝑐1 , 𝑉𝑑𝑜𝑐2 ). (2). 𝑇𝑑𝑜𝑐1 為文件 1 標題中出現的所有詞彙，𝑐𝑜𝑤𝑜𝑟𝑑(𝑇𝑑𝑜𝑐1 , 𝑇𝑑𝑜𝑐2 ) 為文件 1 與文件 2 標題中共同出現過的所有詞彙數，𝑉𝑑𝑜𝑐1為文件 1 內文中出現的所有詞彙， 𝑐𝑜𝑤𝑜𝑟𝑑(𝑉𝑑𝑜𝑐1 , 𝑉𝑑𝑜𝑐2 ) 為文件 1 與文件 2 內文中共同出現過的所有詞彙數，𝑊1 為標題的加權。個標籤都計算完後，選出機率前 n 高的標籤集。. 3.4.4 概念文件分群. 當使用測試文件檢驗推薦的標籤是否適合時，可以由使用者在測試文件上標記的標籤來驗證我們推薦的標籤是否適合，不過這樣的驗證方式無法保證每篇文件都會對應到所有應該要對應的標籤，可能會有標籤遺漏、或是錯誤標籤的情況發生。我們無法保證每篇文件都會完整對應到所有要對應的標籤，文件有可能發生標籤遺漏、或是錯誤標籤的情況。. 因此本研究從群眾智慧的方向著手，將訓練文件集進行分群，分群後選出每一群裡面出現次數最多的前幾個標籤視為該群的共同標籤，也就是在相似內容的文件中，選出大部份人會用來標記的標籤。因為每個人都有各自的標記習慣，對文件標記的標籤有可能是正確的，也可能是錯誤的，但是當大部份人對相似的文件內容都使用這些標籤時，我們可以將這些標籤視為群眾對這個概念的共識，則這些標籤是正確的機率就比較高。 19.

(27) 3.4.5 KNN 分群在文件分群的部分，本研究使用 KNN 演算法，依照文件相似度對文件進行分群，將概念相似的文件進行歸類:. 1. 向量空間轉換與相似度計算在執行文件的相似度計算之前，需要先將文件轉換成向量空間模型表示，因此我們需要將斷詞後的文件轉換成詞彙的向量，並透過相似度計算來進行分群歸類。. 2. KNN 分群演算法將文件轉換成空間向量後，便可以開始使用 KNN 分群演算法透過文件相似度公式計算來進行分群歸類，公式如下:. 1. 將新進文件使用向量表示 2. 其後進來的文件與先前的文件使用文件相似度公式比較 3. 找出相似度最高的 K 篇文件 4. 將 K 篇文件中，相同群集內的文件與新進文件的相似度加總除以文件個數，找出數值最高的文件群，將新進文件歸類於該群。. 重複 1~4 步驟，直到所有文件完成歸類。本研究採用餘弦相似度(Cosine Coefficient)來計算文件相似度，公式如下:. ∑𝑛𝑖=1 𝐴𝑖 × 𝐵𝑖 𝐴∙𝐵 𝑐𝑜𝑠(𝜃) = = ||𝐴|| ∙ ||𝐵|| √∑𝑛𝑖=1(𝐴𝑖 )2 × √∑𝑛𝑖=1(𝐵𝑖 )2. A 和 B 分別代表兩向量文件，n 表示兩向量文件之維度，其計算結果介於 0 至 1 之間，當 A 和 B 向量的角度差距愈小時，結果會愈接近 1，表示兩文件相似度愈高;反之，則愈不相似。 20. (3).

(28) 3.4.6 調整分群但是在使用 KNN 分群演算法分群的過程中，一開始時文件的順序會影響到分群的品質，本研究一開始的分群結果並不好(見圖 3-2)，群內文件數分佈的差異很大，群內出現次數較多的標籤之間關聯度也不高，因此我們決定在分群的過程中定期重新調整文件的所屬群來改善分群的品質。. 圖 3-2 未調整前群內文件數的分布資料來源:研究自行整理. 其具體作法如下:. 1. 計算每個文件群的質心 2. 計算文件與每個文件群質心的距離 21.

(29) 3. 找出距離最短的質心將，文件歸屬於該群。. 重複 2~3 的步驟，直到所有文件都重新歸完群。. 透過這樣的方式，提升群內的相似度，有效改善文件分群的品質，讓文件群內的文件有共同的概念，作為最後檢驗推薦標籤用。但是如果調整的頻率太高的時候，會讓分群的速度會受到大幅度的影響，提升群內相似的效果也會降低，因此如何選擇適合的調整週期就變成一件重要的事情，經過多次的實驗後，最後選擇每進來 1000 篇文件，就重新調整一次。分群結果可以看圖 3-3，與原本的結果相比，群內文件數的分佈的差異有明顯減少。. 圖 3-3 調整後群內文件數的分布資料來源(自行整理). 22.

(30) 第四章. 研究結果. 本研究於 archive.org 下載問答網站 StackExchange 所提供之問答資料，經過初步的篩選整理。訓練資料共 20638 個問題，49470 個標籤，不重複標籤有 1113 個，測試資料共 500 個問題，1098 個標籤，不重複標籤有 288 個。將訓練資料經過前處理後，輸入至本研究設計之系統以產生訓練規則。推薦標籤時，先使用 naive Bayes 分類器選出可能性最高的前 a 個標籤，再使用文件相似度分類選出最有可能的標籤。. 本研究的目標是推薦可以代表文件概念的標籤，這些標籤有可能是使用者標記的標籤。因此最基本的驗證方式是由使用者在文件上標記的標籤來驗證我們推薦的標籤是否適合，不過這樣的驗證方式無法保證每篇文件都會對應到所有應該要對應的標籤，可能會有標籤遺漏、或是錯誤標籤的情況發生。因此本研究利用文件分群的方式，使用 KNN 演算法將文件分群，分群後選出每一群裡面出現次數最多的前幾個標籤視為該群的共同標籤，因此在推薦新進文件的標籤時，也將新進文件分到對應的文件群，只要推薦的標籤出現在文件對應的文件群的共同標籤，我們就視為推薦正確。. 4.1. 檢驗 naive Bayes 的推薦結果. 比對測試文件的推薦結果是否包含在測試文件的標籤集，在檢驗標籤推薦的正確與否時，本研究採用只要推薦的標籤包含在實際問題的標籤群裡面就算推薦正確的判斷規則。例如: 問題 1 包含 Android、Wifi 兩個標籤，而系統推薦問題 1 的標籤為 Wifi，這樣就算推薦正確。如果系統推薦問題 1 的標籤為 Rooting，則算推薦錯誤。另外推薦時可以能發生像是實際標籤為"battery"，推薦標籤為 "battery-life"的情況，雖然從人類的角度來看這兩個標籤是相似的，但是因為電腦必須精準的比對每一個字元，因此對電腦來說這樣是不一樣的標籤，因此加入當推薦標籤屬於實際標籤的部分字或是實際標籤屬於推薦標籤的部分字時為推薦正確的規則。. 23.

(31) 在推薦標籤時，使用 naive Bayes 分類器選出機率最高的標籤，作為推薦標籤。例如:給訂一篇測試文件 doc1，將測試文件前處理後，使用 naive Bayes 分類器計算測試文件屬於某標籤的機率，計算完所有的標籤後，選出機率最高的標籤作為測試文件的推薦標籤，根據表 4-1 測試文件可能性最高的標籤為 sms，因此推薦 sms 最為測試文件的標籤。. 表 4-1 測試文件可能性最高的前三個標籤標籤名稱. 機率. sms. 0.067. browser. 0.039. root. 0.032 資料來源:本研究自行整理. 經過檢驗，naive Bayes 的推薦結果在 500 個測試問題中，一共有 193 個問題推薦正確的標籤，標籤推薦的正確率為 38.6%。. 4.2. 檢驗改良式 naive Bayes 標籤推薦法的推薦結果. 由於單純使用 naive Bayes 的效果並不理想，因此本研究由相似的文件較可能擁有相同標籤的概念出發，結合 naive Bayes 與文件相似度，先使用 naive Bayes 選出可能性較高的標籤群集，接著透過文件相似度的比對，找出最適合的標籤，利用這樣的做法來改善推薦標籤的正確率。. 具體作法為推薦標籤時，會先使用 naive Bayes 分類器選出可能性最高的前 a 個標籤，再使用文件相似度分類(參數為 b)選出最有可能的標籤。. 例如選定 a=3，b=5，給訂一篇測試文件 doc1，將測試文件進行前處理後，使用 naive Bayes 分類器選出可能性最高的前 3 個標籤，根據表 4-2 文件可能性最高的前三個標籤為 wifi、root、application。接著選出包含 wifi、root、 application 標籤的文件與測試文件 doc1 計算相似度，找出相似度最高的五篇文 24.

(32) 件，再從這五篇文件去推薦最適合的標籤。在本例中相似度最高的五篇文件裡出現次數最多的標籤為 root，因此推薦 root 作為文件 doc1 的標籤。. 表 4-2 測試文件可能性最高的前三個標籤標籤名稱. 機率. wifi. 0.071. application. 0.043. root. 0.027 資料來源:本研究自行整理. 表 4-3 與測試文件相似度最高的五篇文件文件代號. 包含標籤. Doc92. wifi. Doc103. root. Doc457. application. Doc210. root. Doc367. root 資料來源:本研究自行整理. 表 4-4 不同參數的推薦正確數. a. b. 推薦正確數. 推薦正確率. 15. 35. 265. 53%. 15. 40. 267. 53.4%. 15. 45. 271. 54.2%. 15. 50. 269. 53.8%. 20. 35. 275. 55%. 25.

(33) 20. 40. 276. 55.2%. 20. 45. 274. 54.8%. 20. 50. 276. 55.2%. 25. 35. 273. 54.6%. 25. 40. 283. 56.6%. 25. 45. 286. 57.2%. 25. 50. 282. 56.4%. 30. 35. 272. 54.4%. 30. 40. 282. 56.4%. 30. 45. 281. 56.2%. 30. 50. 277. 55.4%. 資料來源:本研究自行整理. 在嘗試過幾組不同的參數後，發現當 a=25，b=45 時會有最好的結果。在 500 個測試問題中，一共有 286 個問題推薦出正確的標籤，標籤推薦的正確率為 57.2%。. 4.3. 加入文件群的共同標籤後的推薦結果. 由於我們無法保證每篇文件都會對應到所有應該要對應的標籤，文件有可能會標籤遺漏、或是錯誤標籤的情況發生。因此本研究從群眾智慧的方向著手，將訓練文件集使用 kNN 算法依照相似度進行分群，分群後選出每一群裡面出現次數最多的前幾個標籤視為該群的共同標籤，也就是在相似內容的文件中，選出大部份人會用來標記的標籤。個人對文件標記的標籤有可能是正確的，也可能是錯誤的，但是當大部份人對相似的內容都使用這些標籤時，則這些標籤是正確的機率就比較高。. 26.

(34) 在預測新進文件的標籤時，也將新進文件分到對應的概念文件群，只要推薦的標籤出現在文件對應的概念文件群的共同標籤，我們就視為推薦正確。. 例如: 問題 1 包含 Android、Wifi 兩個標籤，問題一所歸類文件群的共同標籤為 Browser、Chrome，而系統推薦問題 1 的標籤為 Chrome，雖然 Chrome 並不在問題一所包含的標籤中，可是出現在文件群的共同標籤裡，因此算推薦正確。如果系統推薦問題 1 的標籤為 Rooting，則既沒有出現在問題一所包含的標籤中，也沒有出現在文件群的共同標籤裡，算推薦錯誤。. 表 4-5 部分文件群集與共同標籤群內文件數. 主要概念. 共同標籤(出現次數). 101. 電池、充電. Battery(52) Charging(50) battery-life(29). 70. 網路. wi-fi(70) Vpn(10) Networking(9). 103. 瀏覽器. Browser(51) Downloading(9) stock-browser(9). 139. 簡訊通知. Sms(52) Applications(15) Notifications(13). 資料來源:本研究自行整理. 表 4-5 列出了部分的文件群集與文件群的共同標籤，可以發現每一群都有明顯的主題。在驗證方式加入文件群的共同標籤後，一共有 321 個問題推薦出正確的標籤，標籤推薦正確率提高至 64.2%。. 27.

(35) 第五章. 5.1. 結論與未來展望. 結論與建議. 標籤是一種透過使用者標記來分類與詮釋資訊的方式，標籤的標記字彙往往與與使用者心中的語意有著緊密的關係，可以產生以使用者觀點為中心的分類，因而可以讓使用者更容易檢索到欲尋找的資訊。標籤推薦是一種協助人工進行文件分類的技術，本研究將標籤推薦應用於問答型網站上大量問題的分群歸類，除了讓使用者可以更簡單的對問題標記適合的標籤，也減少使用者的搜尋時間，幫助使用者能夠更有效率的找到需要的問題。. 本研究由 archive.org 下載問答網站 StackExchange 所提供之問答資料，共兩萬多筆資料，經過前處理後，篩選適合的文件輸入至本研究設計的系統以產生訓練規則。訓練完成的推薦系統可以對新進文件推薦適合的標籤。. 推薦結果除了使用測試文件做驗證外，由於這樣的驗證方式無法保證每篇測試文件都會對應到所有應該要對應的標籤，可能會有標籤遺漏、或是錯誤標籤的情況發生。因此本研究提出一個概念文件群的概念，利用 KNN 演算法將訓練文件分群，在每一群中將出現次數多的標籤群視為該文件群的共同標籤群，只要推薦結果出現在共同標籤中，一樣算推薦正確，最後的推薦正確率有 64.2%。. 本研究利用 naive Bayes 與文件相似度來預測文件可能會出現的標籤，提供一種自動從文件中推薦標籤來協助擷取文件概念的方式。協助未標記標籤的文章找到合適的標籤，協助使用者減少搜尋問題的時間，同時標籤推薦也能協助使用者標記問題，讓問題可以用更精確的標籤來標注。. 總結研究結果可以歸納如下:. 1. 推薦適合的標籤，協助使用者作為標記標籤時的參考。. 2. 建立概念文件群，有效的將文件分門別類。 28.

(36) 3. 透過概念文件群，整理出那些概念會對應到哪些標籤。. 5.2. 未來研究方向與建議. 隨著巨量資料時代的來臨，文件增加的速度大幅提升，使得搜尋的困難度增加，本研究的標籤推薦可以提升文件的價值，改善搜尋的結果與協助網站分類文件，但本研究仍然有許多限制並提出以下幾點供未來研究之參考:. 1. 同義字由於使用者常使用不同的字彙來描述相同概念，例如:一個關於蘋果電腦使用問題的文件，使用者可能會標記『頻果電腦』或是『Mac』，雖然人類可以容易的認知出這兩者是指同一個概念，不過電腦沒有辦法理解，會將兩者視為不一樣的標籤，因此需要藉由同義詞字典的方式來讓改善情況。本研究僅使用人工的方式來處理同義字的影響，但是當資料量變大時，人工方式會變得不可行，需要自動化處理同義字的問題。LDA(Latent Dirichlet Allocation)是一個可以從字彙共同出現的頻率找出關聯字彙的模型，未來期望透過 LDA 模型來改善同義字的問題。. 2. 使用者的標記習慣使用者在標記文件時，會根據自身的知識與經驗來進行標記，有可能使用不同的字彙表達相同概念(同義字) ，或是針對文件中不同的概念進行標記。因此不同使用者對同一篇文件進行標記時，可能會建立不同的標籤，如果能考慮使用者的標記習慣，納入預測標籤時的考慮因素勢必能增進預測標籤的正確率。. 3. 分散式運算本研究使用 Scala 程式語言撰寫，Scala 可以運用函數式程式的概念並且可以有效的運用 CPU 的多核心架構，使用 Scala 可以簡單的寫出多執行緒的程式，本研究的推薦系統採用多執行緒的方式執行，不過本研究只有使用一台電腦，當資料量變大時一樣會需要花費不少的時間，在未來如果需要擴充更多的訓練資料時，建議採用叢集式的運算環境，避免過長的執行時間。 29.

(37) 參考文獻中文部分林倩妏, and 卜小蝶. "標籤雲在圖書資訊服務之應用初探." 海峽兩岸圖書資訊學學術研討會論文集二-117 (2010).. 陳光華,莊雅蓁. 應用於資訊檢索的中文同義詞之建構. 資訊傳播與圖書館學, 8 (1), 2001 年 9 月, 2001, 59-75.. 陸明怡. "以群眾智慧觀念為基礎之群體意見結論推論模式" (碩士論文) 清華大學 (2011) 楊玉齡譯,Surowiecki, James 原著,2005,《群眾的智慧:如何讓個人、團隊、企業與社會變得更聰明》,台北市:遠流公司出版社。. 戴瑋. "應用社會化協同標籤於網路資源搜尋." (碩士論文)中央大學(2008).. http://sparc.nfu.edu.tw/~tchen/DataMining2/ch5.ppt http://zh.wikipedia.org/wiki/最近鄰居法. http://zh.wikipedia.org/wiki/Yahoo!奇摩知識+. http://zh.wikipedia.org/wiki/Web_2.0. 英文部分 Budura, A., Michel, S., Cudré-Mauroux, P., & Aberer, K. (2009). Neighborhood-based tag prediction. In The semantic web: research and applications (pp. 608-622). Springer Berlin Heidelberg.. Cao, H., Xie, M., Xue, L., Liu, C., Teng, F., & Huang, Y. (2009). Social tag prediction base 30.

(38) on supervised ranking model. In Proceeding of ECML/PKDD 2009 Discovery Challenge Workshop (pp. 35-48).. Heymann, P., Ramage, D., & Garcia-Molina, H. (2008, July). Social tag prediction. In Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval (pp. 531-538). ACM.. Huberman, S. G. B. A. The Structure of Collaborative Tagging Systems. No. cs. DL/0508082. cs/0508082, 2005.. Jordan, A. (2002). On discriminative vs. generative classifiers: A comparison of logistic regression and naive bayes. Advances in neural information processing systems, 14, 841.. Rodrigues, E. M., Milic-Frayling, N., & Fortuna, B. (2008, December). Social tagging behaviour in community-driven question answering. In Proceedings of the 2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology-Volume 01 (pp. 112-119). IEEE Computer Society.. McCallum, A., & Nigam, K. (1998, July). A comparison of event models for naive bayes text classification. In AAAI-98 workshop on learning for text categorization (Vol. 752, pp. 41-48).. Yin, D., Xue, Z., Hong, L., & Davison, B. D. (2010, July). A probabilistic model for personalized tag prediction. In Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 959-968). ACM.. Rendle, S., Balby Marinho, L., Nanopoulos, A., & Schmidt-Thieme, L. (2009, June). Learning optimal ranking with tensor factorization for tag recommendation. In Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 727-736). ACM. 31.

(39) Salton, G., McGill, M. (1983). Introduction to Modern Information Retrieval, New York: McGraw-Hill.. Salton, G., Wong, A., & Yang, C. S. (1975). A vector space model for automatic indexing. Communications of the ACM, 18(11), 613-620.. Sigurbjörnsson, B., & Van Zwol, R. (2008, April). Flickr tag recommendation based on collective knowledge. In Proceedings of the 17th international conference on World Wide Web (pp. 327-336). ACM.. https://archive.org/details/stackexchange. 32.

(40)