社會搜尋：應用社會網絡分析方法於網頁搜尋技術之研究

全文

(1)國立高雄大學資訊管理學系碩士所碩士論文. 社會搜尋：應用社會網絡分析方法於網頁搜尋技術之研究 Social Search: Applying Social Networks Analysis for Web Search Techniques. 研究生：呂筱萱指導教授：丁一賢. 中. 華. 民. 國. 一. ○. 一. 年. 撰博士. 六. 月. 十. 五. 日.

(2) 摘要近年來社群網站在人與人間的關係中扮演著重要的角色，隨著時間也讓人與人形成強連結的關係。對使用者來說，擁有強連結關係的朋友所提供的資訊，亦有高度興趣。目前網路上大多數搜尋平台是依據關鍵字和文章之相關程度，尚未加入文章擁有者與搜尋者間的關係，因此本研究將傳統搜尋引擎加入社會關係，預期可改善搜尋品質並提升搜尋者之滿意度。本研究將透過 Facebook 之塗鴉牆資料作為社會搜尋之依據，接著進行 CKIP 詞庫小組處理和 TF-IDF 計算，最後結合字頻和社會關係並進行結果排名，得到社會搜尋之結果。透過本研究之社會搜尋排名結果和以 TF-IDF 為基礎之搜尋排名結果比較後，證實朋友所提供之資訊確實會影響使用者之決策。. 關鍵字：搜尋引擎、社會網絡分析、社群網站、社會搜尋。. II.

(3) Abstract In recent years, social networking sites have becoming an important platform for users to establish the relationship between each other. As time goes by, the links between. people. will. form. the. so-called. “Strong. Links”.. For those. users, information provided by the friends with strong link is considered as more interesting and useful. Currently, most of search engines are designed based on only measuring the similarity between keywords and articles. However, the social relations between the authors of articles and searcher have not been taken into account. Therefore, in order to improve the performance of search engines, we include the measurement of social relationship into traditional search engine. We expect to improve the search quality and to enhance the satisfaction of search. In this study, we will train the data from Facebook to calculate the social relationship and content. About the content, the data will be process by using CKIP and TFIDF. Finally, we proposed a social ranking value which combines traditional TF-IDF and the values of social relationship. The social ranking value will be used as the key to rank the search results. In this paper, we will also demonstrate a empirical example to explain the proposed methodology as well as the system interface. Comparing social search with TF-IDF search, we can conclude that the information provided by users’ friends are very important for users.. Keywords: search engine, social networks analysis (SNA), social networking sites, social search.. III.

(4) 目錄摘要............................................................................................................................... II Abstract ........................................................................................................................ III 圖目錄........................................................................................................................... V 表目錄..........................................................................................................................VI 第一章緒論.................................................................................................................. 1 第一節研究背景與動機...................................................................................... 1 第二節研究目的.................................................................................................. 3 第三節論文架構.................................................................................................. 4 第二章文獻探討.......................................................................................................... 5 第一節搜尋 (Search) .......................................................................................... 5 第二節社會搜尋 (Social Search) ....................................................................... 7 第三節社會網絡分析 (Social Network Analysis) ........................................... 11 第三章研究方法........................................................................................................ 16 第一節研究流程................................................................................................ 16 第二節研究架構................................................................................................ 17 第三節社會搜尋計算(Social Search Algorithm).............................................. 23 第四節實驗設計與驗証方式............................................................................ 29 第四章實驗結果與評估............................................................................................ 33 第一節資料來源與處理.................................................................................... 33 第二節實驗環境................................................................................................ 39 第三節實驗結果................................................................................................ 41 第五章結論與分析.................................................................................................... 45 第一節結論........................................................................................................ 45 第二節研究限制與討論.................................................................................... 45 第三節未來研究與建議.................................................................................... 49 參考文獻...................................................................................................................... 51. IV.

(5) 圖目錄圖 2.1 MAS algorithm 計算步驟 ................................................................................ 10 圖 2.2 圖 2.3 圖 2.4 圖 2.5 圖 2.6 圖 3.1. 有向圖.............................................................................................................. 11 無向圖.............................................................................................................. 12 社會網絡已縮小為四點七度關係.................................................................. 13 向外的分支度(Outdegree) .............................................................................. 14 向內的分支度(Indegree) ................................................................................. 15 本研究之研究流程.......................................................................................... 17. 圖 3.2 本研究之系統架構.......................................................................................... 18 圖 3.3 前 500 大網站調查(資料來源：Alexa，2011) ............................................. 19 圖 3.4 使用者 A 張貼訊息給使用者 B ..................................................................... 23 圖 3.5 使用者 B 回應使用者 A 訊息 ........................................................................ 24 圖 3.6 使用者 A 與使用者 B 之關係 ........................................................................ 24 圖 3.7 Facebook 中使用者與朋友回應文章狀況 ...................................................... 25 圖 3.8 使用者關係與訊息或文章之 TF-IDF 結合 ................................................... 27 圖 3.9 實驗設計流程圖.............................................................................................. 29 圖 3.10 Vender 進行搜尋後之結果排名 .................................................................... 31 圖 4.1 好友列表資料.................................................................................................. 33 圖 4.2 好友列表之原始資料...................................................................................... 34 圖 4.3 訊息發佈者和按“讚”之原始資料.............................................................. 35 圖 4.4 回應文章之原始資料...................................................................................... 36 圖 4.5 一則已去除標籤後之訊息.............................................................................. 37 圖 4.6 Social Search 資料庫(含人名)中前十名最常出現之字詞 ............................. 38 圖 4.7 Social Search 資料庫(不含人名)中前十名最常出現之字詞 ......................... 38 圖 4.8 Social Search 系統介面圖 ................................................................................ 39 圖 4.9 尚未加入關係之 Social Search 系統介面圖 .................................................. 40 圖 4.10 有加入關係之 Social Search 系統介面圖 .................................................... 40 圖 5.1 生日文訊息總數與個人訊息總數.................................................................. 46 圖 5.2 針對按“讚”之原始資料.............................................................................. 47 圖 5.3 針對訊息內容之原始資料.............................................................................. 48. V.

(6) 表目錄表 2.1 學者對資料搜尋目的的分類............................................................................ 5 表 2.2 社會關係之相關研究........................................................................................ 8 表 2.3 社會關係排名之相關研究................................................................................ 9 表 2.4 有向圖與無向圖之比較.................................................................................. 12 表 3.3 使用者與朋友之間互動訊息中對於讚的回應.............................................. 25 表 3.4 使用者與朋友之間互動訊息中對於訊息的回應.......................................... 26 表 3.5 MAP 和 P@5 之評估方法 ............................................................................... 31 表 3.6 命中率和準確率.............................................................................................. 32 表 4.1 Social Search 資料庫 ........................................................................................ 37 表 4.2 利用 MAP、P@5 和 P@10 測試搜尋與關係結合後之結果 ....................... 41 表 4.3 命中率和準確率之評估結果.......................................................................... 42 表 4.4 利用 Edit Distance 測試搜尋與關係結合後之結果 ...................................... 43. VI.

(7) 第一章緒論. 第一節研究背景與動機在 Web 1.0 的代使用者大多是擔任單方面接受資訊的角色，而非主動產生資訊的角色。隨著科技的演進以及 Web 2.0 概念的興起，使用者可以進一步成為提供資訊的角色，讓全球資訊網與線上使用者的關係成為雙向的互動與內容的共同建立。由於網路上提供資訊的人增加，意味著網路資訊也隨之快速地成長，越來越多資料也在網路上聚集，因此使用者可以透過搜尋引擎技術來搜尋網路上資料以期能快速得到問題之解答。目前在全球資訊網上的大量資訊中，可發現大多都是非結構化的資料，面對如此龐大資訊，使用者可利用搜尋引擎來進一步從大量資訊中發掘欲知的資訊。一般在使用搜尋引擎的過程中，首先使用者會先定義關鍵字並透過搜尋引擎得到相關資訊。在傳統搜尋引擎技術中，這些資訊都是透過關鍵字與內容的相關(相似)程度或透過網頁排名作分析，再利用分析所得的相關程度或網頁排名進行排序。若關鍵字與網頁內容之相關程度或網頁排名越高，則表示該內容越有可能是使用者所需之答案，這些內容則會在搜尋引擎結果中排名位居前面之位置。由於資訊量過大，目前的搜尋引擎技術只與使用者所定義之關鍵字的相關文章進行相似度排序並回傳結果給使用者，然而大多時候搜尋引擎所回傳之資訊並無法符合使用者所需，往往使用者需耗費大量時間來瀏覽每筆回傳的結果才能找到相關的答案。造成這種狀況的可能因素，是因為目前搜尋引擎只針對內容相關程度或是網頁排名進行分析。導致回傳的資訊中只有內容，而忽略了文章作者與搜尋者之間關係的考量。在過去研究中發現，有些學者已針對這個問題進行探討，在搜尋引擎中加入與使用者本身相關的資訊，這類型的搜尋技術稱之為個人化搜尋(Personalized Searching Technique)，直到至今，個人化搜尋的相關研究仍持續在進行。關於使 1.

(8) 用者本身之相關資訊大多是指透過分析使用者在線上瀏覽的行為資料，包括從瀏覽網頁的歷史紀錄(Ucair et al, 2007)，和點擊相關連結的紀錄檔(Sun et al., 2005) 兩方面來研究，並藉以改善搜尋引擎排名的效率。然而這類型的方法面臨的最大問題是使用者需要有長時間使用網路與搜尋引擎之經驗，才能累積歷史資料進而透過這些資料來分析並提供搜尋結果給予使用者。近年來由於社群網站的出現使得人與人之間的連結更加緊密，人與人之間的關係也更加的豐富。以社會網絡(Social Networks)為例，人與人之間的連結度有從聚程度、緊密程度等等關係(Hanneman, 2009)。透過這些關係可瞭解使用者與其他人之間的連結程度，從這些連結程度也表示使用者通常會比較信任或喜愛與其關係程度較好的人與此人所推薦之人事物，亦或是透過這些推薦之人事物可以讓使用者感到興趣(Yang et al., 2011)。簡言之，以使用者觀點來看，這些與使用者互動程度較高的人，不管是主動或被動推薦資訊給使用者，使用者都會有較高的興趣與喜好。 Han 等學者在 2011 年提出在社群網站中“讚(Like)”扮演著使用者之間的一個重要關係，使用者分享文章或是表示自己對於這篇文章有高度的興趣，可以透過讚來表達他們的支持(Han et al., 2011)。Han 利用社群網站中都有“讚”的機制之特性來改善搜尋品質，但目前研究中尚未針對“讚”的定義來做分析，只知道是某位朋友對於某個人事物推薦之結果，倘若能進一步利用社群網站特性來衡量使用者與使用者之間的關係，就可以知道使用者是否對於某個訊息具有潛在的興趣或是喜好的關係存在。綜合以上所描述的研究背景來看，若能將傳統的搜尋引擎技術加入分析文件作者與搜尋者之間的關係，並且在搜尋結果呈現中顯示文件與使用者之間的關係，如此可提高使用者對於該文件之喜好進而點擊瀏覽，進而改善搜尋引擎並提高搜尋者之滿意度的目標。. 2.

(9) 所謂文件關係，是指衡量使用者之間的關係來提高使用者對於該文件內容之興趣，以降低使用者在瀏覽網頁時間之外，亦可透過使用者的朋友在社群網站中之喜好或興趣來推測出使用者之喜愛為何，即本研究加入文件關係之主要原因。為了分析文章與使用者之間的關係，本研究計畫從人與人之間的關係切入。透過 Web 2.0 的應用，使用者不再只是單向的接收資料，而是以提供資料的新角色在網路上成長，這種角色的成長快速，讓線上使用者面對的不再只是機器頁面，進而開始與其他使用有直接或間接接觸。當人與人接觸之後，就會開始有了互動，這種互動表示兩人之間的關係。倘若這種關係延伸出更多的關係時，這種現象便稱之為是線上的社會網絡現象。因此，本研究將在傳統搜尋引擎分析網頁內容基礎上結合社會網絡分析，技術之期望可以提高搜尋引擎之效率與使用者使用經驗之提升，本研究將這種新的搜尋技術稱之為社會搜尋(Social Search)。因此，本論文之主題訂為 “應用社會網絡分析方法於網頁搜尋技術之研究”. 第二節研究目的本研究主要分析社群網站中人與人之間的關係並透過使用者之間的關係與訊息或文章作結合，計算出某篇訊息或文章之關係排名。因此，可利用社群網站中已建立好之社會網絡結構，當作使用者之間之關係權重，將這些關係權重值作排序，以提供本研究之社會搜尋(Social Search)用途，可改善目前搜尋引擎缺乏關係之問題，本研究期望達成以下幾點目的：. 1. 將傳統搜尋技術加入衡量社會關係之概念，並設計一個以社會網絡關係為基礎之搜尋排名機制。 2. 探討如何從社群網站中萃取出社會關係，並進行社會網絡分析相關衡量值之計算。 3.

(10) 3. 評估本論文所提出之社會搜尋技術 (Social Search)，並與傳統搜尋引擎技術進行比較。. 第三節論文架構本論文之內容架構共分為五章以及參考文獻，依序內容如下：第一章. 緒論：包括研究背景與動機、研究目的。. 第二章. 文獻探討：探討搜尋、以社會搜尋和社會網絡分析之相關研究。. 第三章. 研究方法：包括研究流程、研究架構，將研究架構分為前端使用者研究方法：界面和後端前置資料處理與分析、社群排名計算，以及研究方法：最後的驗証方法。. 第四章. 實驗結果與評估：包括資料來源與處理、實驗環境和實驗結果。. 第五章. 結論與分析：包括結論、研究限制與討論和未來發展與建議。. 4.

(11) 第二章文獻探討本章將說明與本研究相關之文獻。首先，本研究在第一節探討目前線上搜尋之方法；接著在第二節中說明本研究將搜尋與社會關係作結合所形成之社會搜尋其過去之相關研究；最後，在第三節中說明何謂社會網絡並且透過社會網絡之特性，應用於本研究中。. 第一節搜尋 (Search) 由於線上使用者欲搜尋之資料不同，部份可能已出現在網頁上，但也有部份可能是無法直接搜尋得到的。另外，線上使用者所使用搜尋方法也大不相同，因此，本節將搜尋分為資料搜尋目的和資料搜尋步驟兩部份來看。 (一) 資料搜尋目的搜尋動作之前必然先有搜尋目的，而搜尋任務之分類依學者定義或名稱不同，進行下表比較其差異：表 2.1 學者對資料搜尋目的的分類學者. 資料搜尋任務的類型. Drabenstott(1984)&. 1.已知項目搜尋 (known item search). Matthews(1983). 2.主題搜尋 (subject search). Marchionini(1989). 1.封閉式(closed) 2.開放式(open). Qiu(1993). 1.特定的(specific) 2.一般的(general). Bilal(2002,2001). 1.事實搜尋(fact-finding) 2.探究基礎(research-based) (資料來源：本研究整理) 5.

(12) 學者對搜尋目的的分類大致分為兩類，其中第一類（已知項目搜尋、封閉式、特定的、尋找型、事實搜尋）可定義為封閉式的搜尋目的，搜尋的目標是明確且唯一的，複雜度低；第二類（主題搜尋、開放式、一般的、搜尋型、探究基礎）可定義為開放式的搜尋任務，任務的目標範圍較廣，且不具制式的答案，複雜度高。本研究的任務分類名稱採用特定的和一般的搜尋方式(Qie, 1993)，由於目前尚未有加入社會關係之相關搜尋引擎的出現，因此在評估階段會將本系統與與目前線上搜尋引擎比較。 (二) 資料搜尋步驟不同專家學者對於資料搜尋過程之步驟提出不同的看法，分為三種不同說法： (1) Kuhlthau 在 1991 年提出資料搜尋任務步驟為：開始搜尋(Initiation) 確認主題 (Selection) 勘查探索 (Exploration) 規劃構想 (Formulation) 收集資料 (Collection)呈現結果(Presentation)；(2) Marchionini 在 1995 年提出資料搜尋任務步驟為：確認問題(Recognize Accept)定義問題(Define Problem)選擇搜尋系統(Select Source)闡述疑問(Formulate Query)執行搜尋(Execute Query)審查結果(Examine Results)摘錄資料(Extract Info)；(3)Iwan 等學者則在 2005 年提出與上述不同的資料搜尋任務步驟：定義資料問題 (Define the information problem)選擇資料來源(Select sources of information)搜尋資料(Search and find information)處理資料(Process information)組織並呈現資料內容(Organize and present information)。由以上學者對於資料搜尋過程之步驟看來，可得知資料搜尋的過程並非直線式進行，都是需要透過部分步驟需反覆進行，一再確認直到獲得搜尋結果 (Marchionini, 1995)。Marchionini (1995)所提到的資料搜尋步驟中，可得知搜尋前需先對問題或搜尋目的方向清楚，接著進一步嘗試定義關鍵字、闡述詢問，再進. 6.

(13) 行搜尋。本研究使用的是 Iwan 等學者(2005)所提出對於資料搜尋的定義，進行搜尋步驟。 (三) 目前搜尋遭遇之問題目前搜尋平台種類繁多，但大多數的搜尋平台是使用文章中與使用者輸入之關鍵字作相似度計算，由於目前搜尋平台只單方面針對文章的相似度排序 (Salton & McGill, 1983)，因此使用者必須點擊每一筆結果之連結來得知網頁內容是否為自己所需。近年來社群網站興起，連結起線上人與人之間的關係(Tong, 2008)，Yang 在 2011 年提出興趣相同的兩個人會因為共同的興趣，而互相成為朋友，並以此作為雙方關係的確定，為了找出使用者之間之關係。因此，本研究利用認識的人所張貼的文章對於搜尋者而研會有高度的興趣之特性(Mislove et al., 2007)傳回的結果讓使用者在搜尋資訊的同時，能夠知道朋友之喜好程度並提供使用者相關資訊以達決策時之用(Li & Lin, 2009; Brzozowski, 2008)。. 第二節社會搜尋 (Social Search) 對於探討搜尋加入社會關係之相關研究較少，就目前現有之研究中發現以社會搜尋為基礎之應用方法有針對標籤(Zanardi & Capra, 2008)、“讚”(Han, 2011) 等等。本研究將目前參與社群網站會發生的狀況分委以下幾種：(1)大量使用者投入社群網站，讓線上朋友與朋友之間關係更加緊密。(2)當線上朋友互動(Jiang, 2010)逐漸頻繁，彼此便產生大量互動資料在網頁上。當其他使用者欲了解這些互動時，便需要透過搜尋來快速得到資料(Zinoview, 2009)。透過以上二種狀況，在社群網站的關係((Baer, 2010))越來越豐富的狀況下，進行社會搜尋是重要的。因此，本研究將社會搜尋分別從社會關係和社會關係排名兩部份來看。 (一) 社會關係 (Social Relationship) 社會關係早在社群網站出現就一直受到學者的關注，有許多學者針對各類型之社群網站，例如：Facebook、Twitter、LinkedIn 等等，透過這些社群網站中每 7.

(14) 位使用者之朋友結構或其互動狀況來確定雙方之社會關係。社會關係不只是人與人之間的關係，其中還包括人與事物之間的關係和事物與事物之間的關係，以下針對過去學者研究中，對於分析社會關係所使用之方法，如下表 2.2 所示。. 表 2.2 社會關係之相關研究學者. 方法. Han et al. (2011). Facebook 中“讚”的機制. Yang et al. (2011). 興趣相同者. Gou et al. (2010). 文件或影音檔. Zanardi & Capra. (2008). 標籤(tag). Velardi et al. (2008). 互動內容. Vieira et al. (2007). 搜尋 log 檔. Mislove et al. (2006). 超連結(hyperlink) (資料來源：本研究整理). Han 在 2011 年研究以 Facebook 中“讚”的機制作為朋友關係的依據，透過朋友與朋友之間或是朋友對於粉絲頁所給予的“讚”，得知朋友對於某個人或是粉絲頁是具有高度興趣或欲快速分享資訊給朋友，也可以透過“讚”的機制來完成，但是 Han 只針對“讚”的機制作為關係強度之依據，但每位使用者對於“讚” 的定義不同，若單只針對“讚”的機制來確定每位使用者與使用者之間之關係確定，則此關係資訊實屬不足，然而目前尚未有針對“讚”的領域作相關研究。 Yang 在 2011 年表示在社群網絡中任意兩個人會因為興趣相同進而成為好友，但在同一興趣領域中的兩人卻不一定會經常性的互動。當互動資訊少時，其中一位使用者所喜愛的人事物之相關資訊，就無法提供另一位使用者在瀏覽資料的依據。. 8.

(15) Velardi 在 2008 年提出以互動內容來定義朋友之間關係的權重，先利用 k-Means 將擁有共同興趣或喜好之使用者分類，再分別從分類好的子群中，探討各子群中的網絡關係，與 Yang (2011)所提出的概念相似。另外，尚有透過文件或影音檔(Gou et al., 2010)、標籤(Zanardi & Capra, 2008)、搜尋日誌檔(Vieira et al., 2007)、超連結(Mislove et al., 2006)等等作為任意兩人之間之關係依據。 (二) 社會關係排名 (Social Ranking) 除了找出社會關係之外，尚有許多學者針對關係排名計算之研究，以下幾種方法是針對朋友之間的關係排名之計算，如表 2.3 所示：. 表 2.3 社會關係排名之相關研究方法. 學者. MAS algorithm. Gou et al.(2010). Cosine similarity. Zanardi & Capra.(2008). Shortest paths. Vieira et al.(2007). LHN algorithm. Leicht et al.(2006) (資料來源：本研究). 在過去研究中，學者針對已建構好之社會網絡架構來計算彼此間相關程度並進行排名(Zanardi, 2008; Leicht, 2006)，Zanardi 等學者在 2008 年利用 Cosine similarity 來計算標籤與使用者的相關程度，但 Cosine similarity 的計算前提是在社會網絡中任意兩點必須是有連線的狀況下，才能進行運算；Leicht 等學者在 2006 年提出 LHN (Leicht, Holme, Newman) algorithm 來計算在社會網絡中的任意兩點只要有共同事物，便可計算使用者之間之相關程度，但 LHN algorithm 方法若要處理大規模的社會網絡結構時，其耗時相當高。Gou 等學者在 2010 年提出 MAS algorithm 的方法，結合 Cosine similarity 和 LHN algorithm 的方法，計算出 9.

(16) 在社群網站中已建立好的朋友架構，透過這個朋友架構可以計算在任意沒有連線的兩人，可以延伸 LHN algorithm，針對 MAS (Multi-Level Actor Similarity) algorithm 的方法，下列作個詳細之說明，要得知在社會網絡中任意未連線之兩人之相似度，必須進行四步驟之計算：首先計算兩人各自在群體中之相似程度，接著計算群體與群體間之相似程度後，利用階層化方式顯示兩人在各群之位置，確定兩人之位置後，便可計算出兩人之相似程度，上述步驟如圖 2.1 所示。. 圖 2.1 MAS algorithm 計算步驟 (資料來源：Gou et al., 2010) 圖 2.1 中有九筆資料，這九筆資料已確定彼此間之連線狀況。若要得知 5 號與 9 號資料之相似程度為何？透過 MAS 方法，首先第一步驟可透過圖(a)將這九筆資料分為三群，分別為一群是 1 號和 2 號；一群為 3 號、4 號和 5 號；一群為 6 號、7 號、8 號和 9 號。接著將這三群資料以階層化方式呈現，可以更清楚地得知 5 號和 9 號之位置分布圖，便可進一步得知只要算出第二群和第三群之相似 10.

(17) 程度，接著再分別算出位於第二群的 5 號和第三群之 9 號與父節點之相似程度，便可得到 5 號和 9 號之相似程度。 (三) 目前社會關係排名遭遇之問題綜合以上過去學者針對社會關係排名之計算，可發現上述相關研究中大多數都以共同事物作為對於朋友關係的確定，也表示是在已知的社會網絡架構下所發展之研究與方法，但這些方法都未考慮雙方之間的互動狀況，因此，本研究所加入的社會關係中，除了利用按“讚”的內容之外，還加入使用者與朋友之間在塗鴉牆上互動的狀況，互動狀況會作為使用者與朋友之間互動權重，將互動權重與關係權重結合，預期提升搜尋結果之滿意度。. 第三節社會網絡分析 (Social Network Analysis) 社會網絡分析之相關研究發展時間相當早，在過去曾經被誤解是在 Web2.0 發展之後才有的理論，在 1925 年 Lewin 便提出透過點和邊的簡單圖形來詮釋人與人之間互動的關係， Wasserman 與 Faust 在 1994 年對於社會網絡分析進行初步的定義：社會網絡分析是一種社會學的方法論，透過分析關係之間模式以及社會活動者之間的互動，以找尋潛在的社會網絡結構。因此，目前社會網絡分析之相關名詞與定義的發展相當成熟，並且廣氾地應用於各種領域。社會網絡關係利用有向圖和無向圖(Peng et al., 2010; Wilson et al., 2009)兩種來表示。如下圖 2.2 和圖 2.3 所示：. 圖 2.2 有向圖 11.

(18) 圖 2.3 無向圖. 其中，在社會網絡圖中，節點代表人，邊代表任意兩個人之間的關係權重。以圖 2.2 和圖 2.3 為例，假設 Vi 為第 i 個節點數， E j 則表示為第 j 條邊，在圖 2.2 的有向圖中，可得知 VA 對於 VB 和 VC 來說是有關係的，但對於 VB 和 VC 兩點來說 VA 是不具有關係的，在這情況下，VB 和 VC 對於 VD 來說是有關係的，但對於 VD 來說 VB 和 VC 是沒有關係的。因此有向圖的任意兩點連結要特別注意在箭頭方向，因為方向性是表示雙方的關係程度和傾向。在圖 2.3 的無向圖中，可得知 VA 和 VB、VC 是彼此互有關係，且 VD 和 VB 、 VC 也互有關係，因此， VA 可透過 VB 和 VC 來認識. VD ，且 VB 可透過 VA 和來認識 VD 。綜合以上特色描述針對無向圖和有向圖作比較，如下表：表 2.4 有向圖與無向圖之比較有向圖. 無向圖. 著重在方向，方向不同，關係程度不同。只要連線表示雙方兩人都有關係。 Degree 連線數要分為 Indegree 值和只需要計算 Degree 連線數即可。 Outdegree 值的計算。 (資料來源：本研究整理) 12.

(19) 社會網絡最主要就是探討人與人之間的關係，其實早在網路出現以前就有學者研究社會網絡(Wasserman et al., 2005)等相關研究。由於網路技術的快速演進，線上使用者可以將個人資料、影音、文章等，以最快的速度上傳至網路空間，那麼其他使用者可以經由這些上傳的資料得知目前的狀況，透過這樣的方式將每位使用者關係連結起來，就會形成線上社會網絡的關係結構，也就是延伸六度分割理論的基礎。1967 年哈佛大學的心理學教授 Stanley Milgram 創立了六度分割理論(Six Degrees of Separation)，是指自己和任何一個人之間所間隔的人不會超過六個人，也就是說，最多只要通過六個人你就能夠找到你認識的人。在 2011 年 Facebook 等學者研究表示至今六度關係已被縮小為四點七度關係，表示目前只要透過四到五個人就可以找到你認識的人，如圖 2.4 所示。. 圖 2.4 社會網絡已縮小為四點七度關係（資料來源：Facebook & Università degli Studi di Milano, 2011） (http://facebooksky.blogspot.com/2010/03/facebook-flow.html). 其概念主要是以認識朋友的朋友為基礎，接著再無限拓展自己的人脈，每一子群都可以透過這個方式與其他子群互相溝通連絡，使得整個社交圈不斷地擴大，每位使用者皆可讓自己與其他人之連結更加豐富與強烈，最後形成一個大型網絡，因此，在社會網絡中朋友間之互動程度與關係程度(Baer, 2010)就顯得重要。為了 13.

(20) 能夠聚集大量使用者互動，社群網站便尤然而生。社群網站對於 Web2.0 是一項重要分支，相較於 Web2.0 出現的電子論壇(BBS)、部落格(Blog)等其他網絡資源相比，社群網站的實名制是最大特色。所謂的實名制是指在社群網站中的每個帳號都是有真人存在，並非只是機器人。因此，透過社群網站的實名制更能夠加強社會網絡中使用者之間關係連結。在社會網絡分析中常用的技術可從兩個方向去看：一是以自己為出發點來看，稱作是以自我為中心的社會網絡(Egocentric Social Network, ESN)；二是以整個社會網絡來看，又稱作是全域社會網絡(Global Social Network, GSN)。本研究所探討的是以自己為出發點，去了解與自己所連線之朋友或資訊之互動狀況，因此採用以自我為中心的社會網絡(ESN)。ESN 在過去研究中大多都是著重在個體和個體與個體間之間的關係(Carrasco, 2006)。其中，在 ESN 的社會網絡圖又可分為有向圖和無向圖，如圖 2.2 和圖 2.3 所示，由於本研究不僅是觀察使用者與朋友之間有連線關係即可，還要進一步去探討使用者對於朋友或是朋友對於使用者的雙向關係，關係方向不同，關係程度亦有所不同。在有向圖中，使用者和朋友之間的關係可以利用向外的分支度(Outdegree)和向內的分支度(Indegree)來表示，關於 Outdegree 和 Indegree 的詳細說明，以圖 2.5 和圖 2.6 所示：. 圖 2.5 向外的分支度(Outdegree). 14.

(21) 圖 2.6 向內的分支度(Indegree). 圖 2.5 中以中心點為主，箭頭都是指向其他點，表示為 Outdegree，以人之社會網絡為例，位於中心點的此人是具有社交能力的，因為他可以連繫很多人。在圖 2.6 中以中心點為主，其他點的箭頭都是指向自己的，表示為 Indegree，因此，位於中心點位置的此人位於群體中是個關鍵人物，很多人都會跟隨著他的行蹤(Brzozowski, 2011)。因此，本研究利用以自我為中心之社會網絡中有向圖來看使用者和朋友之間的互動程度和關係程度。. 15.

(22) 第三章研究方法在本章節會探討本研究之主軸─社會搜尋，主要可分為前端使用者介面、後端演算法與資料處理和本系統所使用之評估方法三部份。在前端使用者介面中包括了搜尋介面、傳回的結果頁面以及使用者評分；在後端演算法與資料處理部份，主要所使用之相關技術與概念包括：TF-IDF、社會關係計算和社會關係排名之計算，最後之評估方法會透過 MAP、P@5、P@10、命中率、準確率和最小編輯距離(Edit Distance)作為使用者評分階段之依據。. 第一節研究流程在本研究之研究流程中，首先是介紹研究背景與動機，可以發現目前線上搜尋平台所面臨的問題，提出明確的目的來改善目前搜尋引擎的問題，接著透過一系列過去學者針對搜尋、社會搜尋之相關研究，可得知目前學者對於搜尋領域之研究範疇，最後加入社會網絡分析來支持關係的論點。利用社群網站存在著關係的特性，本研究以 Facebook 為關係擷取資料依據，將抓取回來之關係進行作社會關係之排名，將計算過後之排名資料與 Facebook 中使用者與其好朋友之互動內容作結合，形成本研究之主軸─社會搜尋。最後將上述概念以使用者介面呈現，透過使用者一系列任務之完成並且進行評分，這些評分結果會成為本研究重要的依據。. 16.

(23) 圖 3.1 本研究之研究流程. 第二節研究架構在本研究之系統架構圖中，主要可分為兩部份：一是前端使用者介面；二是後端計算方法。以下會針對前端使用者介面和後端所使用之計算方法進一步說明。. 17.

(24) 圖 3.2 本研究之系統架構. (一) 使用者界面在使用者介面中包括了搜尋介面、傳回的結果頁面和使用者評分三部份。使用者可以透過本研究所提供之社會搜尋進行問題之查詢，透過一系列社會關係計算和 TF-IDF 計算處理後，再傳回結果至介面上，使用者可以透過系統傳回之結果進行相關任務問題，例如：此結果是否符合使用者問題之答案之相關問題，來進行答案之評分。當分數越高則表示本研究所提出之計算方法準確度越高；反之，當分數越低則表示本研究所提出之計算方法準確度較低，最後使用者評分結果會再傳回系統。 (二) 前置資料處理與分析本研究主要探討在社群網站中使用者與朋友之間的互動關係，目前線上著名的社群網站有：Facebook、Twitter、LinkedIn 等等。根據 Alexa 統計調查網站 18.

(25) (http://www.alexa.com/topsites/global)在 2011 年 11 月的調查報告中，Facebook 是在全球前 500 大的網站中位居第二的位置，第一名為 Google，但在社群網站分類中，Facebook 則是位居第一。相關統計調查表如下圖 3.3 所示：. 圖 3.3 前 500 大網站調查(資料來源：Alexa，2011). Facebook 自 2004 年創立以來，已有 7 年的基礎，與其他社群網站相比，不管是在創立之時間、所擁有之人口數等等都是相當成熟的。更重要的是本研究最關注的一個特色─人與人之間的關係。由於 Facebook 網站註冊的會員數眾多， 19.

(26) Facebook 為了防止有虛名帳號的問題，定期會提醒上網次數小於門檻值的會員要定期上線，倘若超過一定的次數，便會開始強制上網次數較少的會員進行刪除此帳號的動作，因此表示在 Facebook 上除了每個人會以實名制來註冊之外，所以可以確定每個帳號都是真人註冊的，因此人與人之間的關係連線是真實的。透過眾多的會員數，我們可得知 Facebook 中使用者之間關係特性相當充足， Viswanat 等學者在 2009 針對 Facebook 中之塗鴉牆內容作研究，並加入時間之因素來探討使用者在 Facebook 中的活躍狀況，其中作者發現在每位使用者之塗鴉牆上，只有在生日當天塗鴉牆之訊息量會突然爆增，但 Viswanat 等學者只針對塗鴉牆之訊息量而未加入訊息內容之考量。礙於目前線上資料過於繁多，格式也不盡相同，線上亦無一套既定的方法，使得資料明顯呈現非結構化。因此本研究將以 Facebook 以 XML 格式之特性，作為社群網站資料來源之基礎，探討朋友之間互動狀況，並將這種互動狀況稱之為互動權重，進行一系列的計算。 1. 資料來源擷取主要利用 Facebook 所提供 API 為資料擷取方法─Graph API。設計一個應用程式，透過 Facebook 會員允許擷取該會員的相關資料之機制，當會員點選允許之後，再進一步的擷取該會員之相關資料。因此，在 Facebook 的會員個資部份是不會隨意的擷取，並且保證個資擷取後並不公開，只單純作為學術研究之用。因此，在 Facebook 中的會員無須擔心自己的個資是否會被使用去進行違法之相關事務。本研究資料擷取範圍可分為以下二種：一是從使用者與朋友之間之回應內容，主要以塗鴉牆內容為主；二是從使用者的朋友列表。在使用者的朋友列表中，會使用 Facebook 所提供之元件，如表 3.1 和表 3.2 所示：. 20.

(27) 表 3.1 塗鴉牆內容 Name. Description. Returns. id. The Friend ID of the Facebook. string. from. The user that created the comment. object containing the id and name of the creating user. message. The comment text. string. created_time The timedate the comment was created. string containing ISO-8601 date-time. likes. The number of times this comment was liked. integer. user_likes. This field is returned only if the authenticated user likes this comment. string; always true. type. The type of this object; always returnscomment. string. 表 3.2 好友列表 Name. Description. Returns. id. The Friend list ID. string. name. The name of the friend list. string. type. The type of the friends list; Possible values are: close_friends, acquaintances, restricted, user_created, education, work, current_city or Family. string. 2. CKIP 中文斷詞技術本研究關於詞彙擷取的部份，以中研院資訊科學研究所詞彙小組(CKIP)所開發的中文斷詞系統為工具，該系統結合詞庫式斷詞法及統計式斷詞法之優點的混合式斷詞法，將使用者所輸入之文章或文句自動斷詞後，再標示出每個詞的詞類標記。此系統分詞依據為此一詞彙庫及定量詞，重疊詞等構詞規律及線上辨識的新詞，並解決分詞岐義問題。舉例來說，「我下禮拜看福爾摩斯」，CKIP 將回傳：「我（N）下（DET）禮拜（N）看（Vt）福爾摩斯（N）」，括號中的 N 代表名 21.

(28) 詞、DET 代表特指定詞、Vt 代表動詞。接著，這些規則將進行後續詞彙分析。 3. TF-IDF 關鍵字計算在 TF-IDF 關鍵字計算(Salton & McGill, 1983)中，透過上述 Facebook 所開發之應用程式之後，本研究主要擷取 Facebook 會員資料可分為二部份：一是會員之好友列表；二是使用者之間互動內容，即為 Facebook 之塗鴉牆，並且在塗鴉牆內容的部份進行 CKIP 和 TF-IDF 之計算。透過 CKIP 斷詞斷字後，將進行詞頻(Term Frequency, TF)作計算，所謂的詞頻是指某一個給定的詞語在該文件中所出現之次數。舉例來說，假設今日有一篇文章有提到“賈伯斯”(Apple 前執行長)，TF 就是要計算“賈伯斯”一詞在這篇文章所出現之次數。舉例來說，假設在某一篇文章中總共有 100 個詞彙，其中“賈伯斯”一詞在這篇文章出現 5 次，那麼 TF . tfi , j . 5  0.05 ，公式如(3.1 )式。 100. ni , j. . (3.1). n k k, j. 以上式子中 ni , j 是某個詞彙在某文件 d j 中的出現次數，而分母則是在某文件 d j 中所有詞的出現次數之總和。接著進行逆向文件頻率 (Inverse Document Frequency, IDF) 計算，逆向文件頻率計算是指在總文件中，某一個給定的詞語所出現之次數。以上述例子來說，假設我們蒐集了 10000 份跟賈伯斯有關的文章，在這 10000 份文件中有 1000 份  10000  出現 “賈伯斯”一詞，則 IDF  ln    2.3025 ，公式如(3.2)式。  1000 . idfi =log. D.  j :t d  i. 22. j. (3.2).

(29) 其中 D 是指文件總數， d j 是指第 j 份文章， ti 是指第 i 個關鍵字。關於 IDF 的概念，首先將某個詞彙設為 t ，如果包含 t 的訊息或文章數量越少，也就是指 n 越小，IDF 越大，則說明 t 具有很好的類別區分的能力。最後將 TF 和 IDF 所求得之值相乘，TF-IDF=0.05  2.3025=0.1151，公式如(3.3) 式。. TF-IDFi , j =tfi , j  idfi. (3.3). 我們可以透過上述所求得的值得知，本研究所蒐集的訊息或文章數中所代表之關鍵字為何，接著每則訊息或文章會與下列社群關係排名計算結合。. 第三節社會搜尋計算(Social Search Algorithm) 在社群關係排名計算中會分成三部份，分別為(1)社群關係計算；(2)排名引擎；(3)使用者回饋機制訂定。 (一) 社群關係 (Social Relationship)計算透過 Facebook 所蒐集而來之塗鴉牆內容列表，進一步作互動權重分析，以圖 3.4 、圖 3.5 和圖 3.6 來說明使用者之間的權重分析之給定，並且以. W(UserA , UserB , Value) 來表達使用者 A 對於朋友 B 的回應值。. 圖 3.4 使用者 A 張貼訊息給使用者 B 23.

(30) 以圖 3.4 來看，當使用者 A 在公開權限狀況下發布一則訊息，權重值則表示使用者 A 對於他所有的好朋友的權重值皆增加為一筆，其表示法為 W(A, *, 1)。假設使用者 A 只允許使用者 B 觀看自己所發布之訊息時，此時表示為 W(A, B, 1) 。 (其中*表示在公開權限下張貼訊息或文章，因此所有人都可以看到。). 圖 3.5 使用者 B 回應使用者 A 訊息. 以圖 3.5 來看，當使用者 A 在公開權限的狀況下，發布一則訊息，使用者 A 的所有好友看到此篇訊息而進行回應的動作，其權重值則表示使用者 A 的好友群對於使用者 A 的權重值皆增加為一筆，其表示法為 W(*, A, 1) 。倘若今日為使用者 A 在限定使用者 B 觀看使用者 A 所發布之訊息時，使用者 B 回應了使用者 A 的訊息，此時表示法則為 W(B, A, 1) 。. 圖 3.6 使用者 A 與使用者 B 之關係. 綜合圖 3.4 與圖 3.5 來看，可得知狀況為圖 3.6 表示使用者 A 和使用者 B 互為朋友之外，也可得知雙方是有互動的。將上述狀況以 Facebook 塗鴉牆中使用者之間回應之狀況為例，如下圖 3.7 所示：. 24.

(31) 圖 3.7 Facebook 中使用者與朋友回應文章狀況. 因此，透過上述例子中，我們將結果分為二部份：一是針對讚的回應，如表 3.3；二是針對訊息的回應，如表 3.4：. 表 3.3 使用者與朋友之間互動訊息中對於讚的回應接收發. 者. Vender. Bill. Mary. Vender. 0. 1. 1. Bill. 0. 0. 0. Mary. 0. 0. 0. 文者. 25.

(32) 表 3.4 使用者與朋友之間互動訊息中對於訊息的回應接收發. 者. Vender. Bill. Mary. Vender. 0. 2. 2. Bill. 1. 0. 2. Mary. 2. 0. 0. 文者. 透過上述二表的表示法，首先以讚的回應為例，可以看到 Bill 和 Mary 對於 Vender 的回應按了讚，因此在權重表示法則 Wl (Bill, Vender, 1) 和 Wl (Mary, Vender, 1) ，. Mary, 0) 、 i l lW , l (Vender, 0) 其它狀況皆為 0 ，則表示為 Wl ( V e n d e r , B 、 Wl (Mary, Bill, 0) 、 Wl (Bill, Mary, 0) 、 Wl (Vender, Vender, 0) 、 Wl (Bill, Bill, 0) 、 Wl (Mary, Mary, 0) 。接著以訊息的回應為例，其權重值表示法依高低順序排列 Wm (Vender, Mary, 2). 、. Wm (Bill, Vender, 2). 、. Wm (Mary, Bill, 2). 、. Wm (Mary, Vender, 2). 、. Wm (Vender, Bill, 1). 、. Wm (Bill, Mary, 0). 、. Wm (Vender, Vender, 0) 、 Wm (Bill, Bill, 0) 、 Wm (Mary, Mary, 0) 。 (二) 社群排名引擎 (Ranking Engine) 結合以上二種計算權重的方法後，我們可以得知在某篇訊息或文章中，互動權重值最高與所提及之關鍵字最多為何？在互動權重值中，本研究分為兩部份來計算，一是針對“讚”的回應；二是針對塗鴉牆的內容回應。最後將關係權重與互動權重結合，如圖 3.8 所示。由於目前尚未有研究針對“讚”與塗鴉牆內容的. 26.

(33) 重要性比較，因此本研究將“讚”的機制與塗鴉牆內容之權重定義等同為各為 0.5，並且利用上述例子進行說明：. 圖 3.8 使用者關係與訊息或文章之 TF-IDF 結合. 在上述例子中，本研究結合讚與塗鴉牆內容之回應狀況來作為社會關係排名的計算。本研究將此權重表示為下述公式(3.4)所示。. Wl (UserA , UserB , Value) + Wm (UserA , UserB , Value) =Wl  m (UserA' , UserB' , Value). (3.4). 首先先處理 Vender、Bill 和 Mary 三人在 Facebook 中的狀況。透過上述例子我們重新整理這三人之權重表示： Wl  m (Bill, Vender, 3) 、 Wl m (Mary, Vender, 3) 、、. Wl m (Vender, Mary, 2). Wl m (Bill, Mary, 0). 、. Wl m (Mary, Bill, 2). Wl m (Vender, Vender, 0). 、. Wl  m (Vender, Bill, 1) 、. Wl m (Bill, Bill, 0). 、、. Wl  m (Mary, Mary, 0) 。透過以上計算結果後，將關係權重和 TF-IDF 結合後，該數值表示在某篇訊息或文章某個人所提到的關鍵字。其公式如(3.5)式。. Re l A, B = Wl  m  TFIDFj   Wr  TFIDFj. 27. (3,5).

(34) 其中 Wr 表示使用者 A 與使用者 B 之間的關係，目前將關係只訂定在是否為好友，因此 Wr 值為 0、1 的二元值， 值表示互動權重常數，  值表示雙方是否互為好友權重常數，但由於目前沒有相關研究針對權重常數的判斷，因此在本研究中定義  值和  值為 0.5，在後續評估階段會再進一步調整並判斷數值給定的最佳解。因此，公式(3.6)式或公式(3.7)式：. Re l A, B =0.5Wl  m  TFIDFj  0.5Wr  TFIDFj. (3.6). Re l A, B =  0.5Wl m  0.5Wr   TFIDFj. (3.7). 或. 最後依分數高低進行排序，其表示法如(3.8)式。. Social Ranking = Rel A, B. (3.8). (三) 使用者評分在使用者評分(Sharm, 2005; Kelly, 2003)的部份，經過使用者進行一系列之問項後，使用者會針對所傳回之結果給予排名，將排名結果利用 MAP(Mean Average Precision)、P@5、P@10、命中率、準確率(Accuracy)、和最小編輯距離(Edit Distance) 這六種方法來評估本研究所提出之方法是否有效。. 28.

(35) 第四節實驗設計與驗証方式在第四節將說明本研究之實驗設計流程與驗証方式。主要會找 10 位使用者會進行以下實驗，每位使用者將會進行五個任務指派並進行結果評分。在驗証方式中，本研究針對搜尋結果分為是否加入關係兩部份之後，進行 MAP、P@5、和 P@10 進行測試；進一步利用命中率和準確率來看受訪者是否會因為所得之結果為朋友所提供之訊息，進而影響受訪者之排名結果；最後，利用 Edit distance 來看本研究所提出之方法排名與受訪者所提供之排名是否相似，並得到相似程度之值來了解其中之差異性。以下將從實驗設計和驗證方式兩部份進行說明。 (一) 實驗設計 (Experiment Design) 本研究透過一群人進行一對一訪談實驗，每一位受訪者皆會進行五項任務指派。根據問題之結構分為結構化、半結構化與非結構化三類問題進行任務。由於本實驗所建立之字詞庫資料量較少，因此在此主要透過結構化與半結構化問題，來指派給受訪者進行任務。. 圖 3.9 實驗設計流程圖. 在實驗開始時，會先給定使用者一系列之任務，要求使用者完成，每位使用者將進行五個問題之搜尋與評估，透過使用者評分所傳回的值來進行六種評估方法。. 29.

(36) (二) 驗証方式 (Evaluation) 在實驗評估階段需建立一套可標準測量之方法，在傳統的文件檢索中，最常使用的評分方式是查全率 (Recall) 與查準率 (Precision) ，以及結合兩者的. F1 -measure ，計算式如下公式(3.8)、(3.9)、(3.10)式。. P  precision . R  recall . 符合使用者查詢要求之正確文件數在階層中某群集內之文件數. 符合使用者查詢要求之正確文件數有出現某文件之正確文件數. F1 . 2 PR PR. (3.8). (3.9). (3.10). 在本研究中，由於加入社會關係的搜尋，因此過去傳統的評估方法以不敷使用。以社會關係為基礎之搜尋著重在人與人之間的關係，因此，本研究透過 MAP(Mean Average Precision)、P@5、P@10、命中率、準確率(Accuracy)、和最小編輯距離(Edit Distance)這六種方法來評估本研究所提出之方法是否有效。 1. MAP、P@5 和 P@10 評估法首先將這六種評估方法分為三部份來說明：第一部份為 MAP、P@5 和 P@10；第二部份為命中率和準確率；第三部份為最小編輯距離。第一部份要測量本研究所提出之方法結果與使用者所給定之排名是否相同，因此當所得之值越高則表示使用者所認定之排名與本研究所提出之方法結果相似。其中，又進一步針對本研究所提出結果排名為前五名和前十名與使用者所給定之排名是否符合。此部份所提出之方法較為嚴謹，排名位置必須要完全符合才算正確。以下圖 3.10 為例：. 30.

(37) 圖 3.10 Vender 進行搜尋後之結果排名. 利用第一部份所提出之方法，表 3.5 為 MAP 和 P@5 之結果：. 表 3.5 MAP 和 P@5 之評估方法使用者. Vender. MAP. P@5. 1 2 3   3 4 5  86  0.47778 3 180. 0 0 1 2 3     1 2 3 4 5  86  0.28667 5 300. 2. 命中率和準確率第二部份所使用的是命中率和準確率之方法，主要透過這個部份來得知，對於搜尋者而言，是否為好朋友的條件下對於搜尋者所得到的結果排名是否會有所不同。其中，命中率表示在傳回之五筆結果中，假設有兩筆結果為朋友所提供之訊息，其他三筆結果為不是朋友的人所提供，在五筆結果中使用者若可以給予這兩名朋友的排名為前二名，則表示該名使用者對於朋友所提供之訊息有高度的興趣，其結果為表 3.6 所示得 47.78%。另外，對於準確率的評估表示使用者在五筆資料中，是否可以正確判斷何者為朋友所提供之資訊，而何者並非朋友所提供之資訊，其結果為 28.67%。因此，準確率越高，則表示使用者所提供之排名是符合本研究所提出之方法概念，以上兩種方法足以代表本研究之研究目的正確與否。第二部份所使用之評估方法以圖 3.10 為例所得之結果以表 3.6 所示。. 31.

(38) 表 3.6 命中率和準確率使用者. Vender. 命中率. 準確率. 1 2 3   3 4 5  86  47.78% 3 180. 0 0 1 2 3     1 2 3 4 5  86  28.67% 5 300. 3. Edit Distance(最小編輯距離) 第三部份所使用的是 Edit distance (最小編輯距離)，使用 Edit Distance 評估方法在本研究中可表示本研究方法所提出之方法排名與搜尋者針對傳回結果所給定之排名相似程度。當相似程度越高，則表示本研究所提出之方法排名與搜尋者針對傳回結果中所給定之排名之相似程度較高，可在最少的指令步驟，讓此二者排名順序完全相同。其中，在 Edit distance 中最常使用的指令是 insertions(插入)、delete(刪除)和 substitutions(代用)，以圖 3.10 為例，可得到以下二字串。. var1：1 2 3 4 5 var2：2 1 3 4 5. 原本字串(var1)為 12345，透過使用者給予排名(var2)後為 21345，在長度同為 5 之二字串中有兩組排名位置不同，使用 Edit distance 只要使用 substitutions 將此二字串之不同地方對調，就可以計算出此二字串之距離和相似度，因此本研究可以透過一次的 substitutions 將此二字串重新排列成相同順序。計算結果後可得此二筆字串之距離為 1，相似度為 80%。. var1：1 2 3 4 5 var2：1 2 3 4 5. 透過此評估方法得到之值表示，當相似度越高，則表示任二字串使用 insertions、 delete 和 substitutions 指令較少，則此二字串相似度也較高。 32.

(39) 第四章實驗結果與評估本章將介紹本研究之實驗部份，其中包括資料來源與處理、實驗環境和實驗結果三部份。在資料來源與處理中小節中將針對本研究利用 Facebook API 所擷取出之資料格式進行說明，並進一步統計擷取後之字詞數目與最常使用之字詞；在實驗環境小節中會展示本研究之系統界面與搜尋結果；最後，在實驗結果小節中，透過本研究所提出之方法好壞與否、好友所提出之訊息對於使用者是否會有影響和排名相似程度三方面進行評估並呈現本研究之驗証結果。. 第一節資料來源與處理以作者之 Facebook 為例，來探討作者的朋友列表。圖 4.1 中左半圖為實際 Facebook 朋友列表資料，右半圖則為抓回來之朋友列表資料，從右圖抓回來之資料得知，每位朋友是透過<friend_info></friend_info>的標籤與其他朋友分開，再利用<uid2></uid2>的標籤記載每位朋友之 id。Facebook 利用<uid2>來表示此為某位使用者之朋友，對於使用者而言，其標籤設定為<uid1></uid1>。透過這些 XML 格式之標籤，可以抓取出使用者之朋友資訊。. 圖 4.1 好友列表資料 33.

(40) 在資料庫設計中，分為好友列表和塗鴉牆內容列表兩種，詳細資料格式如圖 4.2、圖 4.3 和圖 4.4 所示：. 圖 4.2 好友列表之原始資料圖 4.2 為本研究所擷取出之好友列表原始資料。此份資料為 Facebook 中其中一位使用者之好友列表資料。每位使用者之好友列表格式皆相同，其中包括好友帳號名稱和專屬這位使用者之一組 Facebook 中之 ID。二者資料以 Facebook ID 34.

(41) 資料最為重要，此 ID 為辨識同個帳號不同使用者之重要依據。圖 4.3 中之資料格式主要為發佈訊息者與按“讚”的人，因此在訊息發佈者的內容中可看到使用者 ID 與發佈該篇文章之編號、使用者帳號名稱、使用者 ID、訊息內容(message)、發佈文章時間和最新回應文章時間；在按“讚”的內容中包括按“讚”的使用者名稱、使用者 ID 和針對此篇文章按“讚”的人之總數。訊息發佈者之原始資料. 按“讚”之原始資料圖 4.3 訊息發佈者和按“讚”之原始資料 35.

(42) 圖 4.4 為圖 4.3 所示之訊息之回應文章內容，在回應之內容中包括回應文章之使用者名稱、回應文章之使用者 ID、回應文章之內容、回應文章之時間與回應文章之總數。第一位回應訊息之使用者. 第二位回應訊息之使用者. 圖 4.4 回應文章之原始資料透過圖 4.2、圖 4.3 和圖 4.4 所示，本研究將原始資料去除標籤與所需要之資料為圖 4.5 所示：. 36.

(43) 圖 4.5 一則已去除標籤後之訊息. 圖 4.5 為一則包括訊息發佈者和回應文章者之訊息。透過去除標籤後擷取出本研究所需之資料。圖 4.5 則表示一則完整訊息，其中包括訊息發佈者、按“讚” 的人和訊息回應者之內容。透過去除標籤之動作後，本研究透過 10 位受測者之塗鴉牆中擷取出 760 則訊息量。這些訊息量將進行 CKIP 斷字斷詞小組進行詞性之辨別，目前本研究只擷取訊息中名詞之字詞，如表 4.1 Social Search 所示：. 表 4.1 Social Search 資料庫. Social Search 資料庫. 字詞總數. 扣除名字後的字詞. 2093. 1712. 經過一系列的資料擷取的動作後，本研究針對 10 位 Facebook 用戶進行使用者訪談，其中這 10 位用戶搜集到了 760 則互動訊息，在 Social Search 資料庫中共有 2093 個包括人名和名詞的字詞，扣掉人名之後的字詞仍有 1712 個，從本研究之 Social Search 資料庫進一步探討其中在字詞總數中最常出現之字詞前十名，以圖 4.6 和圖 4.7 所示：. 37.

(44) 包括人名和名詞之字詞總數次數 250 200. 194. 185. 150. 116. 112. 101. 92. 100. 70. 51. 47. 50. 36. 0 洪滄. 秀筑秀筑. 陳玫如. 陳冠宏. Robert Wu. 呂筱萱. Ya-Ting Hsu. 生日. Kyle Cheng. 快樂. 圖 4.6 Social Search 資料庫(含人名)中前十名最常出現之字詞. 在 760 篇訊息中，“快樂”和 “生日”的訊息占了大宗，如圖 4.2 所示，X 軸為字詞，Y 軸為出現之字數，從圖中可知從第三名到第十名皆為人名。在 10 名受訪者中，Kyle Cheng 並非是擁有最多朋友的，但位於第三名的原因主要是訊息量夠多，而位在第三名的位置，因此在 Facebook 中之活躍性與出現次數是正相關的。. 扣除人名的字詞總數次數 250 200. 194. 185. 150 100 50. 30. 25. 22. 16. 14. 老師. 加油. likes. 時間. 14. 13. 12. 0 快樂. 生日. 今天. 明天 Happy 學姊. 圖 4.7 Social Search 資料庫(不含人名)中前十名最常出現之字詞. 38.

(45) 扣除人名之後，可得到圖 4.7，X 軸為字詞，Y 軸為出現之字數，從圖中可知前十名最常使用之字詞，除了“快樂”和 “生日”，受訪者最常使用的字詞與時間性字詞相關，像是“今天”、“時間”和“明天”。這意謂著 Facebook 中之訊息多半張貼行程性或是經歷性之訊息居多，這類型的訊息將有助於本研究之字詞庫的建立。. 第二節實驗環境在實驗環境中，針對十位受訪者進行訪談，在訪談過程中會指派任務，以結構化和半結構化之任務搜尋居多，因此每位受訪者進行訪談時，會有如圖 4.8 所示之搜尋介面。由於每一位受訪者所搜尋得到之結果盡不相同，因此每一位受訪者之任務也有所不同，每一項任務完全是針對受訪者本身所設計的。當訪談開始時，會先了解受訪者本身對於 Social Search 的概念為何，接著給予任務，讓受訪者進行搜尋。. 圖 4.8 Social Search 系統介面圖. 受訪者首先會先進行未加入關係之搜尋結果，未加入關係之搜尋結果主要依 TF-IDF 之計算方式來給定排名。以圖 4.9 所示，該名受訪者輸入「畢業」之關鍵字後，會得到以下結果，每一項任務將提供十筆訊息結果給受訪者進行排名。. 39.

(46) 圖 4.9 尚未加入關係之 Social Search 系統介面圖. 透過圖 4.9 結果顯示，扣除自己曾經留下與「畢業」相關之訊息之外的所有結果將依與受訪者之關係進行計算後，得到圖 4.9 結果，此結果並不提供受訪者留下這些話的作者，因此，結果之排定完全依據使用者之喜愛所給定。進行五項未加入關係之搜尋任務結束後，再依序針對相同關鍵字給予有加入關係之搜尋結果，如圖 4.10 所示。. 圖 4.10 有加入關係之 Social Search 系統介面圖. 同樣請該名受訪者輸入「畢業」之關鍵字後，有加入關係之搜尋結果如圖 40.

(47) 4.10 所示，此階段之搜尋結果會公開留下這段話的作者，因此透過加入人名之搜尋結果後，再依據每一位受訪者之排序喜好進行排名，進一步了解每一位受訪者對於搜尋結果是否會因為是朋友所提供之資訊，而給定較高之排名。. 第三節實驗結果透過上述實驗步驟進行 10 位受訪者之任務指派後，將 10 位受訪者之任務結果，共 50 筆排名結果進行評估。如表 4.2 所示。. 表 4.2 利用 MAP、P@5 和 P@10 測試搜尋與關係結合後之結果評估方法. MAP. P@5. P@10. 搜尋種類. Social Search. TF-IDF. Social Search. TF-IDF. Social Search. TF-IDF. Person1. 0.3708. 0.0286. 0.2813. 0. 0.3708. 0.0286. Person2. 0.3535. 0.1341. 0.2413. 0.0673. 0.3535. 0.1341. Person3. 0.5294. 0.045. 0.3033. 0.008. 0.5294. 0.045. Person4. 0.7766. 0.238. 0.66. 0.1487. 0.7766. 0.238. Person5. 0.4568. 0.245. 0.2973. 0.0993. 0.4568. 0.245. Person6. 0.5284. 0.0424. 0.446. 0. 0.5284. 0.0424. Person7. 0.5067. 0.1707. 0.222. 0.1173. 0.5067. 0.1707. Person8. 0.6429. 0.1021. 0.65. 0.018. 0.6429. 0.1021. Person9. 0.6831. 0.1597. 0.3433. 0.0493. 0.6831. 0.0792. Person10 平均. 0.6844. 0.3. 0.486. 0.1353. 0.3587. 0.1193. 0.5533. 0.1466. 0.3931. 0.0643. 0.3818. 0.0756. 表 4.2 中，可得知加入關係之搜尋結果比未加入關係之搜尋結果要來得好，不管是利用 MAP、P@5 或是 P@10 任一種評估方法，結果都是加入關係之搜尋排名結果與受訪者所給定之排名結果較為符合。其中在受訪結束後，本研究特別針對 Person1、Person2 和 Person7 三位受訪者進行深入調查，由於這三位受訪者在加入關係之搜尋結果中所得之值較低，原因有二：. 41.

(48) 1. 在 Facebook 中對於自己的好友列表中其實可以分為二種：一為在現實世界本來就是朋友；二為原本不認識，但透過 Facebook 平台進而認識或互相加為朋友的朋友，但加入後可能會有頻繁地互動，在現實世界中仍不認識，亦不會特別想要認識。這種情況下對本研究之方法計算而言會造成頻繁互動的朋友(但實際狀況感情可能沒那麼好或是彼此在現實世界中並不認識)的排名反而比起真正為朋友的排名還要高。 2. 真正被受訪者所認定的朋友在 Facebook 中活躍性較低，在塗鴉牆中的互動過低，進而影響在受訪者的好友排名結果較低。. 本研究為了更了解 Social Search 與其他方法之比較，因此，進一步透過命中率和準確率之評估方法來看對於受訪者所給定之排名是否會因為社會關係而有所影響，如表 4.3 所示。. 表 4.3 命中率和準確率之評估結果機率種類. 命中率. 準確率. Person1. 40%. 76%. Person2. 92%. 94%. Person3. 100%. 100%. Person4. 100%. 100%. Person5. 89%. 88%. Person6. 100%. 100%. Person7. 57%. 68%. Person8. 89%. 88%. Person9. 80%. 100%. Person10 平均. 93%. 96%. 84%. 91%. 透過表 4.3 中，本研究可得知在命中率和準確率，平均分別為 84%和 91%， 42.

(49) 為相當高之機率值，因此本研究可得知受訪者們會因為朋友所說的話而給定較前面之排名，表示受訪者會因為是好友所說的話而影響排名結果。評估結果中， Person3、Person4 其中，特別針對 Person1 和 Person7 來看，這二位受訪者之結果值比起其他受訪者而言要來得低，進一步去探討本系統所提供給這二位受訪者所給定之結果，可得知由於 Person1 和 Person7 在 Facebook 中的活躍性相當低，因此所提供之訊息資料量較缺乏，進而影響本系統之排名結果時，所提供與朋友互動之資料量也較低，想當然爾，這二位受訪者所給定之排名結果之命中率亦為較低，其中可能出現傳回之結果中，沒有任何一筆是受訪者之朋友所提供之結果。自然而然，結果之命中率和準確率便下降。除了透過上述五種評估方式來測試之外，本研究並進一步利用 Edit Distance 來測試，對於排名中，可能會出現只需要更改一組排名，其他排名結果會與本系統所提供之排名相同，當所使用之更換指令越少即可達成與本系統所提供之排名結果相同，即為相似程度高，則表示此排名與本系統排名之相似程式也是高的，其結果如表 4.4 所示。表 4.4 利用 Edit Distance 測試搜尋與關係結合後之結果 Edit Distance (最小編輯距離). 評估方法搜尋種類. Social Search. TF-IDF. Person1. 22%. 10%. Person2. 30%. 18%. Person3. 74%. 10%. Person4. 70%. 44%. Person5. 56%. 10%. Person6. 60%. 37%. Person7. 30%. 26%. Person8. 58%. 12%. Person9. 78%. 40%. Person10 平均. 42%. 28%. 52%. 24%. 43.

(50) 透過表 4.4 可得知，在 Edit Distance 中加入關係比起未加入關係之相似度要來高。表示加入關係之搜尋結果可透過最少的指令轉換即可成為本研究所提出之排名順序。就二者之平均值看來可發現，加入關係之排名結果比起未加入關係之排名結果多出了 28%，表示加入關係之搜尋結果明顯顯示較佳。. 44.

(51) 第五章結論與分析第一節結論近年來社群網站之成立連結起人與人之間之關係，透過強連結所連繫之兩人可透過彼此之共同事物來提供更多之資訊給其他人。就使用者而言，擁有強連結關係的朋友所提供之相關資訊或朋友，亦有高度興趣，因此本研究將傳統搜尋引擎加入社會關係，預期可改善搜尋品質並提升搜尋者之滿意度。本研究將透過 Facebook 之塗鴉牆資料作為社會搜尋之依據，接著進行 CKIP 詞庫小組處理和 TF-IDF 計算，最後結合字頻和社會關係並進行結果排名，得到社會搜尋之結果。透過本研究之社會搜尋排名結果和以 TF-IDF 為基礎之搜尋排名結果比較後，證實朋友所提供之資訊確實會影響使用者之決策。本章將針對本研究之結果進行總結分析與探討，從前一章之評估方法結果可得知朋友所提供之訊息確實會影響使用者進行判斷之依據，實驗結果針對加入關係之搜尋結果和未加入關係之搜尋結果二部份進行測試，加入關係之搜尋結果在 MAP、P@5、P@10、命中率、準確率和 Edit Distance 任一方法中都遠比未加入關係之搜尋結果要來得好。以下章節將依序針對本研究作一個整體性之結論，以及深入探討其他發現。本論文在第一章曾經提出三項研究目的，經過研究的進行以及研究方法的實驗與驗證，可以證明三項目的皆已達成，包括： 1.. 將傳統搜尋技術加入衡量社會關係之概念，設計出一套社會網絡關係為基礎之搜尋排名機制。. 2.. 透過 Facebook 萃取出之社會關係，得到社會關係之搜尋確實會影響使用者進行決策判斷之依據。. 3.. 評估本論文所提出之社會搜尋技術，並與以 TF-IDF 為基礎之搜尋引擎技術進行比較，證實加入社會關係之搜尋確實得到較高之結果。. 45.

(52) 第二節研究限制與討論 (一) 主題性文章透過本研究進行 Facebook 資料搜集過程中可發現，每一位使用者在 Facebook 中不管活躍性之高低，都會遇到一波祝福生日快樂之訊息潮，透過本研究設定之訊息時間範圍為 2011 年至 2012 年，如圖 5.1 所示。. 生日文數目 120 100 80 60 40 20 0 Person1 Person2 Person3 Person4 Person5 Person6 Person7 Person8 Person9 Person10 生日文訊息總數. 個人訊息總數. 圖 5.1 生日文訊息總數與個人訊息總數 X 軸為十位使用者，Y 軸為訊息數目，深色為生日文訊息總數，淺色為個人訊息總數，透過圖 5.1 可知，在一段時間內，可透過個人訊息總數看出每位使用者在 Facebook 中之活躍程度，若生日文的數量也高的同時，則表示這位使用者相同，這種訊息文章之類型的出現確實拉近了人與人之間的關係，加上 Facebook 會定期提醒每位用戶，近期生日朋友之名單或是當朋友的朋友在朋友的塗鴉牆中留言之動態訊息也可即時可見，讓使用者之間的關係比起過往更加緊密。至於生日文的出現對於本研究之方法實作也有更多應用，假設透過本研究計算後，使用者可透過本系統調查在自己生日當天，有哪位朋友曾經記得祝福自己生日快樂的，若 46.

(53) 那些記得祝福的朋友當天生日，便可提醒使用者別忘了要回覆自己的祝福，以確保與朋友之間感情之維繫。 (二) 資料來源擷取較不完整本研究所使用之資料依據為 Facebook 平台，礙於 Facebook 過往之隱私權問題相當重視，因此本研究進行資料擷取過程中十分困難，以下列資料格式所示。. 圖 5.2 針對按“讚”之原始資料. 上列資料為其中一位受訪者之塗鴉牆資料，這是一筆張貼照片格式之資料，本研究之最大研究限制便是如資料所示，透過 Facebook API 所提供之擷取資料方法，所傳回之資料可得到塗鴉牆所有資料。以 like 為例，可發現資料顯示此筆訊息有 15 人按讚，但資料卻只抓回一筆，因此關於其他按讚之使用者必須利用手動方式抓回資料，這將耗費相當多的時間。 47.

(54) 圖 5.3 針對訊息內容之原始資料另一方面，針對塗鴉牆之互動訊息中也是遇到相同之限制，抓回之資料總數應為 11 筆，但資料只顯示其中兩筆資料，因此資料擷取時之限制，增加了字串處理之困難度。 (三) 字詞量不足進行實驗階段過程中，由於本研究之 Social Search 資料庫字詞量不足，因此進行非結構化之任務題組時，耗費較多時間尋找相關結果。若資料擷取來源之問題可解決，那麼字詞量之問題便可一同解決。 (四) CKIP 斷詞小組無法完整判斷加入關係之訊息由於 CKIP 斷詞小組只針對詞性來判斷，但在社群網站中無法正確判斷人名 48.

(55) 或是一些新穎詞彙，如打卡、淡定紅茶等等。因此需靠人工方式才能夠擷取出這些關鍵字，才能符合社會搜尋之需求。 (五)  值和  值於本研究結果較無明顯差異於先前章節中，曾提及針對本研究所提出之公式進行  值和  值之調整計算，但由於本系統之資料量較少，因此  值和  值於本研究所設定之不同權重值影響差異不大。倘若未來資料量大量時，即可進行此相關研究，將會得到是朋友的關係對於使用者較重要或是經常性之互動對於使用者較為重要。. 第三節未來研究與建議本研究有別以往研究搜尋之研究，加入了 Social Search 之概念，以 Facebook 為資料來源為基礎，實作了以 Social Search 為基礎之搜尋引擎。近年來，社會關係之議題相當熱門，以人與人之間之關係之相關研究來說，雖已有許多概念和方法，但卻從未深入社群網站中之互動關係問題來探討，目前學者只針對以共同興趣或是互為朋友之依據來作為關係之連線，因此本研究除了以朋友之依據來判斷在社群網站中之任意二人之關係外，更加入此二人之互動次數作為關係之加權。另外，關於 Facebook 公司本身於 2012 年 3 月 28 日發布一則新聞與本研究相關 (http://www.businessweek.com/articles/2012-03-28/facebook-delves-deeper-into-sear ch#p1)，大致內容為，前 Google 工程師低調開發 Facebook 之搜尋引擎，其中 Facebook 將組成約 24 人之團隊針對 Facebook 之用戶資料進行計算，因此搜尋結果可能為人名、粉絲專頁、地標等等項目，但目前尚未公佈排序之依據為何？因此，本研究所提出之社會排名將可作為 Facebook 公司之考量依據之一。目前礙於 Facebook 隱私權問題，資料仍未完全開放所有權限，倘若在不久將來，Facebook 通過隱私權開放之問題後，在 Facebook 中將會有更多關係和訊息可擷取，未來可朝以下幾個方向作研究：. 49.

(56) 1.. 與 Ontology 結合。. 以本研究實作狀況來說，由於目前尚未有一套關於社會關係之字詞庫。因此若能與 Ontology 結合，建立起以社群關係為基礎之主題性字詞庫，將可有利於未來開發者進行研究。 2.. 實作於社群網站平台中，如 Facebook、Twitter 或 Plurk。. 除了 Facebook 日前聲明開發搜尋平台之報導外，目前尚未出現測試版本，因此，社會關係之於社群網站之重要性是有的，但目前尚未善加利用這些資料的話，那麼將無法將資料利用至極。礙於目前社群網站尚未與搜尋結合。社群網站若能加入本研究所提出之社會搜尋之概念，將大幅提升使用者之使用度。如此，入口網站之必要性與需求性將大幅降低，使用者即可以社群網站為首頁，透過社會搜尋網站之搜尋引擎搜尋除了社群網站本身所擁有之資料庫資料外，仍可以搜尋其他領域之資料庫。 3.. 可利用 PageRank 排名方式進行社會搜尋之計算與比較。. 本研究所提出社會搜尋只實作 TF-IDF 方法，並且與 TF-IDF 方法作比較。若能進一步針對以 PageRank 為基礎之搜尋，將有助於得知本研究所提供之方法相較於這類型搜尋引擎之效能。. 50.