應用社會網路連結預測理論於政府官員職務繼任分析 - 政大學術集成

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文. 學. ‧ 國. 立. Master’s 政治Thesis 大. ‧. 應用社會網路連結預測理論. sit. y. Nat. 於政府官員職務繼任分析. n. er. io. Applying Social Network Analysis and Link Prediction al v Analysis i for Government Post Succession n Ch engchi U 研究生：沈曜廷指導教授：劉吉軒. 中華民國一零一年七月 July 2012.

(2) 應用社會網路連結預測理論於政府官員職務繼任分析 Applying Social Network Analysis and Link Prediction for Government Post Succession Analysis. 研究生：沈曜廷指導教授：劉吉軒政. Student : Yau-Ting Shen. 治. Advisor: Jyi-Shane Liu. 大. 學. ‧ 國. 立. 國立政治大學. ‧. Nat. y. 資訊科學系. n. er. io. al. sit. 碩士論文. i n U. Ch. v. A Thesis e n g c hofi computer Science Submitted to Department National Chengchi University In partial fulfillment of the Requirements For the degree of Master In computer Science. 中華民國一零一年七月 July 2012.

(3) 11 11- JEt iii hff Jt ?JT t~x. 0. k~. t~~.~. *± •. J)l. -tt1f /t. 治政大and Network Analvsis. .Applving Social .Government Post Succession Analvsis. 立. ~. Link Prediction for. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. J. tp~t\~. 101 Sf-7 A 9. s.

(4) Department of Computer Science. College of Science. National Chengchi University. Taipei, Taiwan, R.O.C.. As members of the Final Examination Committee, we certify that we have read the thesis prepared by SHEN, YAU-TING entitled. 政治大. Applving Social Network Analysis and Link Prediction for. 立. ‧ 國. 學. Government Post Succession Analvsisand recommend that it be accepted as fulfilling the thesis requirement for the Degree of Master of. ‧. Science.. I. n Thesis Advisor: Chairman: Date:. Ch. engchi. Jr ~ h. er. io. sit. y. Nat. al. i n U. v. --~,~--------------------------------.

(5) 應用社會網路及連結預測理論進行政府官員異動之分析. 摘要. 隨著資訊科技的發達，資訊成長的速度日以倍計，對於大量且片斷的資料，. 政治大. 社會網路分析(Social Network Analysis)提供我們可能的研究方法。社會網路. 立. 主要是由節點以及節點彼此間的連結所形成的網路結構，透過社會網路分. ‧ 國. 學. 析和連結預測理論，我們可以從微觀與巨觀的切入角度，來進行龐大資料. ‧. 量的政府人事異動資料庫進行研究分析。本論文研究，將政府人事異動資. io. sit. y. Nat. 料庫中的異動記錄建構為人物與職務兩類不同的社會網路結構，並透過社. er. 會網路分析以及連結預測，來發掘人物與不同職務之間的相互影響性，並. al. n. v i n Ch 進一步分析在特定職務的實際接任人選上，實際被影響的因素為何。實驗 engchi U 結果呈現本研究所設計出的模型，對於政府人事異動的互動關係在不同角度的觀察上有所幫助，也從中可以發現在實際接任人選上的考量上，歷任人選的歷任職務有相當程度的影響性，並瞭解社會網路分析與連結預測在實際情境應用下的可能性與限制性。. 關鍵詞：社會網路分析、連結預測、政府官員異動 1.

(6) Applying Social Network Analysis and Link Prediction for Government Post Succession Analysis. Abstract. 政治大 technology. SNA (Social立 Network Analysis) provides the possible research ways. Information grows up in very fast way with the advancement in information. ‧ 國. 學. for the large number of fragmentary information. Social network is the network structure which constructed by the links of each nodes in it. Through SNA. ‧. (Social Network Analysis) and Link Prediction theory, we can investigate. sit. y. Nat. government official's succession database with huge amount of data from micro and macro perspectives. The objective of this study is the construction of two. er. io. n. different types of person structures and the a and position social network v exploration of the. i l C n U and position nodes interaction hbetween e n g ctheh iperson. through. link prediction theory. We also discover the impact factors for actual appointee of specific position in further analysis. The study result shows the design model helps us to observe the interaction in government official's succession from different perspectives. We found that is great influence of successive positions of successive candidates in consideration of actual appointee.. Keyword: Social Network Analysis, Link Prediction, Government Post Succession 2.

(7) 目錄第一章. 緒論 ....................................................................................................................... 8. 1.1. 研究背景 .................................................................................................................. 8. 1.2. 研究資料 .................................................................................................................. 9. 1.2.1. 總統府公報 ........................................................................................................ 9. 1.2.2. 政府官員異動資料庫 ...................................................................................... 10. 1.3. 研究動機與目的 ............................................................................................... 11. 1.4. 本研究之貢獻 ......................................................................................................... 11. 1.5. 論文架構 ................................................................................................................ 12. 立. 文獻探討.............................................................................................................. 14. 學. 社會網路與分析 ............................................................................................... 14. 2.1. ‧ 國. 第二章. 政治大. 定義 ............................................................................................................... 14. 2.1.2. 社會網路 1-mode 與 2-mode 類型之差異 ..................................................... 15. 連結預測 ................................................................................................................ 16. Nat. y. 2.2. ‧. 2.1.1. 2.2.2. 演算法.............................................................................................................. 17. 第三章. er. al. n. 2.3. sit. 基本概念與定義 .............................................................................................. 16. io. 2.2.1. i n U. v. 小結 ........................................................................................................................ 20. Ch. engchi. 政府官員職務異動網路模型建置與系統架構 .................................................... 22. 3.1. 研究設計參數名稱說明 ......................................................................................... 22. 3.2. 政府官員職務異動網路模型建置 .......................................................................... 23. 3.3. 連結預測應用於職務繼任之方法分析 .................................................................. 25. 3.4. 系統架構 ................................................................................................................ 27. 3.4.1. 系統概述.......................................................................................................... 28. 3.4.2. 政府官員異動網路模組（Network Module）................................................. 30. 3.4.3. 相似度計算模組（Simrank Algorithm Module） ............................................ 35. 3.4.4. 預測列表建立模組（Prediction List Module） ............................................... 37. 第四章. 實驗設計與分析評估 .......................................................................................... 41. 3.

(8) 4.1. 實驗資料 ................................................................................................................ 41. 4.2. 實驗設計 ................................................................................................................ 44. 4.3. 實驗結果 ................................................................................................................ 45. 4.3.1 MRP(Most Recent Predecessor)參數設定討論 ................................................ 46 4.3.2 MRJ(Most Recent Job)參數設定討論 .............................................................. 52 4.3.3. 依部門和職等不同分析面向之討論 ............................................................... 54. 4.5. 實驗總結 ................................................................................................................ 62. 4.6. 官員資歷與職務繼任之觀察.................................................................................. 63. 5.1 5.2. 政治大研究結論 ................................................................................................................ 66 立未來研究方向 ......................................................................................................... 67 結論與未來研究方向 .......................................................................................... 66. 學. ‧ 國. 第五章. 參考文獻 ............................................................................................................................. 69 附錄一各預測單位歷任官員人數列表 ............................................................................. 71. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. 4. i n U. v.

(9) 圖目錄圖 1.1 論文研究架構圖 ...................................................................................................... 13 圖 3.1 2-mode 網路 Simrank 演算法計算示意圖 ............................................................... 27 圖 3.2 系統架構圖.............................................................................................................. 28 圖 3.3 系統運作流程圖 ...................................................................................................... 29 圖 3.4 Seed Network (MRP 為 4) 示意圖 .......................................................................... 31 圖 3.5 Seed Network (MRP 為 2) 示意圖 .......................................................................... 32. 治政圖 3.6 Seed Network (MRP 為 1) 示意圖 .......................................................................... 32 大立圖 3.7 Prediction Network 示意圖 ...................................................................................... 33 ‧ 國. 學. 圖 3.8 政府官員異動模組 (Network Module) 內部二子程序建構 2-mode 網路運作流程. ‧. 圖 ........................................................................................................................................ 34 圖 3.9 相似值計算模組（Simrank Algorithm Module）運作流程 ................................... 37. y. Nat. io. sit. 圖 3.10 Accumulation Procedure 推薦列表建立流程圖 .................................................... 39. n. al. er. 圖 3.11 Accumulation Procedure 推薦列表建立流程圖 .................................................... 40. Ch. i n U. v. 圖 4.1 財政部與內政部 15 操作職等之職務預測準確率比較圖:MRJ=2 ......................... 56. engchi. 圖 4.2 財政部與內政部 15 操作職等之職務預測準確率比較圖:MRJ=5 ......................... 56 圖 4.3 財政部與內政部 14 操作職等之職務預測準確率比較圖:MRJ=2 ......................... 57 圖 4.4 財政部與內政部 14 操作職等之職務預測準確率比較圖:MRJ=5 ......................... 57 圖 4.5 財政部與內政部 13 操作職等之職務預測準確率比較圖:MRJ=2 ......................... 58 圖 4.6 財政部與內政部 13 操作職等之職務預測準確率比較圖:MRJ=5 ......................... 58 圖 4.7 財政部與內政部 12 操作職等之職務預測準確率比較圖:MRJ=2 ......................... 60 圖 4.8 財政部與內政部 12 操作職等之職務預測準確率比較圖:MRJ=5 ......................... 60. 5.

(10) 表目錄表 3.1 官員職等與操作職等對應表.................................................................................. 24 表 4.1 期望預測職務實驗範圍 ........................................................................................ 43 表 4.2 法務部部長曾勇夫預測準確值列表 ..................................................................... 47 表 4.3 預測法務部部長之參考職務列表 ......................................................................... 47 表 4.4 原子能委員會核能研究所副所長蘇明峰預測準確值列表................................... 48 表 4.5 預測原子能委員會核能研究所副所長蘇明峰之參考職務列表 ........................... 48. 治政表 4.6 原子能委員會核能研究所副所長蘇明峰之歷任職務列表................................... 49 大立表 4.7 財政部常務次長劉燈城預測準確值列表 ............................................................. 49 ‧ 國. 學. 表 4.8 預測財政部常務次長劉燈城之參考職務列表 ...................................................... 49. ‧. 表 4.9 財政部常務次長劉燈城歷任職務列表 ................................................................. 50 表 4.10 財政部國有財產局副局長莊翠雲預測準確值列表 ............................................ 50. y. Nat. io. sit. 表 4.11 預測財政部國有財產局副局長莊翠雲之參考職務列表 .................................... 50. n. al. er. 表 4.12 財政部國有財產局副局長莊翠雲之歷任職務列表 ............................................ 51. Ch. i n U. v. 表 4.13 法務部部長曾勇夫預測準確值列表與趨勢圖 .................................................... 52. engchi. 表 4.14 預測法務部部長曾勇夫之參考職務列表-固定 MRP 參數................................... 52 表 4.15 法務部部長曾勇夫之歷任職務列表 ................................................................... 53 表 4.16 法務部政務次長黃世銘預測準確值列表............................................................ 53 表 4.17 預測法務部政務次長黃世銘之參考職務列表-固定 MRP 參數 ........................... 53 表 4.18 法務部政務次長黃世銘之歷任職務列表............................................................ 54 表 4.19 財政部與內政部 15 操作職等歷任官員數.......................................................... 55 表 4.20 財政部與內政部 15 操作職等預測準確值平均數 .............................................. 56 表 4.21 財政部與內政部 14 操作職等歷任官員數.......................................................... 56. 6.

(11) 表 4.22 財政部與內政部 14 操作職等預測準確值平均數 .............................................. 57 表 4.23 財政部與內政部 13 操作職等歷任官員數.......................................................... 58 表 4.24 財政部與內政部 13 操作職等預測準確值平均數 .............................................. 58 表 4.25 財政部與內政部 12 操作職等歷任官員數.......................................................... 59 表 4.26 財政部與內政部 12 操作職等預測準確值平均數 .............................................. 60. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 7. i n U. v.

(12) 第一章緒論 1.1. 研究背景在這個網路無國界的時代，資訊每天快速的以倍數在成長，也隨著資訊科技的日新. 月異，對於大量且片斷的資料，能有更好的處理方法，以往最常見的方式是針對每筆資料分別進行處理，而社會網路分析(Social Network Analysis)[3][4]提供我們可能的研究方法。社會網路主要是由節點彼此間的連結所形成的網路結構，節點可以是個人、組織、. 政治大. 文件或網頁等，而連結就是相互認識，上司下屬，文獻引用或是網頁超連結等關係，雖. 立. 然在每個個體的定義上是簡單的，但因為彼此的連結關係而形成複雜的結構。而藉著社. ‧ 國. 學. 會網路分析的研究方法，使得我們對於這樣複雜的網路結構的個體表現以及整體關係都能有更明確的瞭解與發現，而隨著近來資訊的成長速度越來越快與複雜度越來越高，社. ‧. 會網路分析也成為資訊領域的重要研究議題之一。. Nat. sit. y. 過去在社會網路分析多著重在靜態網路分析，近來有許多研究朝向將社會網路加上. n. al. er. io. 時間的維度，進行另一個角度的分析與檢視。加入時間維度後，網路結構的複雜度勢必. i n U. v. 提高，隨著時間的變化，節點可能會消失，也可能會有新的節點產生，而節點之間的關. Ch. engchi. 係也會因為時間變動而有不同的變化，同時，經由社會網路分析，能掌握目前的網路結構狀況，隨著時間的變化，是不是能夠進一步的去預測未來的網路結構呢？而連結預測 (Link Prediction)的理論為考量一社會網路加入時間概念，使其形成一個動態社會網路結構，而在不同的時間點的社會網路結構，其各節點之間的關係會有所不同。而如何能從既有網路結構中的節點連結關係去進行分析，並精準預測未來某一時間點各節點彼此之間的連結情況，也成為連結預測理論的主要探討的問題。. 8.

(13) 研究資料. 1.2. 在本篇研究中所使用的資料庫來源-政府官員異動資料庫，主要是從總統府公報中的人事任免命令中，經由資訊擷取技術彙整累積而成的資料庫。此外，為了深入探究政府組織結構與從屬關係，也進一步蒐集相關資料[4][5][6]，因而以下將針對總統府公報以及政府官員異動資料庫的相關資訊，依序進行詳述。. 1.2.1. 總統府公報. 立. 政治大. 總統府公報為政府提供相關訊息的公開措施，其發行的主要目的是希望藉由透過此. ‧ 國. 學. 種方式，可以做為提供人們獲取並瞭解有關政府目前相關資訊的管道。基於此種理念，我國政府自民國元年開始正式發行政府公報，迄今已經歷百餘年載，其間由於歷經數次. ‧. 政府體制的變更，因而使得公報名稱亦產生多次變動，其名稱先後為臨時政府公報、臨. Nat. sit. n. al. er. io. 報之稱。. y. 時公報、政府公報、陸海軍大元帥大本營公報、國民政府公報以及目前採行的總統府公. i n U. v. 總統府公報最初的發行單位是由總統府第五局負責，而後改由第三局負責發行，民. Ch. engchi. 國八十五年由於總統府組織法進行修正程序，針對府內相關業務職掌進行調整，因而目前是由第二局負責發行。公報的發行方式最初採行每日發行，其後改為每週發行二到三次，自民國 84 年 7 月 1 日起後則改為每週三發行，其中若觸及公布法律之日而非週三時，則額外增刊發行。此外，自民國 86 年 7 月 2 日第 6164 號公報開始，所有發行的公報均同時刊載於「總統府全球資訊網」網站上，並釋放電子文本以供民眾下載。總統府公報自民國元年開始發行至今，所公告的資訊內容隨著時代的變遷產生了多次變動，而目前公報的主要內容則包含了特載（如元旦、國慶公告以及聯合公報等）、總統令（如公布法律、任免官員、授予勳章、明令褒揚、題頒匾額等）、府屬機關令（如中央研究院、國史館等）、專載（如國賓抵台訪問、呈遞到任國書、總統府月會等典禮）、 9.

(14) 總統及副總統活動紀要、總統府新聞稿、司法院令以及公告（如總統府、國家安全會議、國家安全局、中央研究院、國史館等）等等。. 1.2.2. 政府官員異動資料庫. 總統府公報中蘊藏有極為豐富的資訊，其內不僅記載了不同時期我國家元首的重要公告內容，同時也彙整了我國近代民主發展的重要典章制度等等重要的相關文獻資料。. 政治大數位典藏化的精神，選擇以總統府公告中的人事任免命令為處理核心，藉由資訊擷取立. 而為了能夠達到資訊永續保存與發展的目的，政治大學資訊科學系與政大圖書館秉持著. ‧ 國. 學. （Information Retrieval）技術的研發，自動解析自然語言文件並從中萃取出重要核心資訊，進而累積建置為中華民國政府人事異動資料庫，以供後續進一步的加值處理與應. ‧. 用。. sit. y. Nat. 本篇研究中的資料來源為政府官員異動資料庫，所採用的資料是以民國 79 年 1 月 1. io. er. 日至民國 98 年 12 月 31 日之間的異動記錄為主，其中總計有 253,059 筆異動記錄，包含. al. 有 168,914 個不同人物和 83,684 個不同職務；其中，由於在資料庫中部份職務類型（如. n. v i n Ch 薦任公務人員、警階升遷等）的異動記錄中並不具有異動的部門資料，僅有異動的職務 engchi U 名稱，其所提供的資訊量不足以進行後續有效的分析評斷，故選擇將此類型的異動記錄予以排除；此外，也另外從中央選舉委員會所建置的選舉資料庫中取出相關的資訊來補充由未包含非由總統任命的民選官員（如縣市長、總統等等民選公務人員），以盡量補齊我國近代政治生態變遷的資料完整性。總計最後進行系統實驗階段時包含有 56,567 筆異動記錄、26,793 個不同人物以及 13,274 個不同職務；其中每筆異動記錄中，均包含有下列資料欄位：姓名、任免（上任或免職）、部門、職務、職等、公報期數、出刊年月日以及異動公告年月日。. 10.

(15) 1.3. 研究動機與目的在傳統的社會網路分析中，無論是找出網路中的關鍵角色或是某特定族群的偵測研. 究，這些基本的問題都能獲得解答。而社會網路裡的節點，隨著時間的變化而不斷的增加，形成更大型的社會網路，因而產生許多動態社會網路的相關研究議題。我國的政府人事異動資料庫，是一個特殊且完整的資料庫，過去使用了傳統社會網路分析方法，也研究了連結預測的相關議題，然而在這些異動資料中，隨著時間變化，是否受到某些因素所牽動影響著，而這樣的影響因素，在不同部會的影響程度為何？是否會因為部門專. 治政業屬性不同而有不同的影響？人事異動資料與一般的社會網路模型也不同的地方，不大立僅要將單一時空下的人事升遷變化，將之對應並呈現在網路模型中，本研究希望能利用 ‧ 國. 學. 社會網路分析與連結預測的方式，將政府人事異動資料庫中的官員升遷記錄轉換成動態. sit. y. Nat. 本研究之貢獻. io. 1.4. n. al. er. 何。. ‧. 網路，並透過特定指標觀察出影響升遷異動的關鍵因素，以及在不同部會中的影響力為. i n U. v. 本研究中以政府官員異動資料庫為主要資料來源，其內蘊藏有極為龐大的職位異動. Ch. engchi. 記錄資料。首先，我們依據所設定期望預測的各式職位以及時間，從相關的異動記錄中擷取出異動人員的姓名、異動部門、異動職位、職等以及異動時間等重要欄位的資訊，建構出屬於 2-mode 型態社會網路結構的人物異動網路，以完整呈現各人物與其歷任職位間的異動連結情況。其後，再藉由以適用於 2-mode 網路型態下的 Simrank 演算法（本研究中稱為 Simank for 2-mode）為核心建置而成的職位接替人選預測系統，從社會網路分析中連結預測理論的角度切入分析，以針對所設定期望預測的職位，產生出相對應的接替人選推薦列表。其後，再經由多種不同的實驗模型設計，不僅依序探究 Simrank 演算法中諸多係數的調整對於系統預測效果的影響程度，同時亦針對所得的各類實驗數據結果，從不同的 11.

(16) 角度搭配相關的領域知識進行分析研究，以從中挖掘出不同層級的職位階層以及政府各式部門，在對於其內職位的接替人選的考量上，依據不同實驗參數組合而影響程度，並進一步從所呈現的預測成果中，歸納分析影響其預測效果的淺藏因素。. 1.5. 論文架構本論文的架構如下圖所示，. 政治大. 第一章，緒論：說明本研究之研究背景，研究資料，研究動機與目的，研究架構及預期. 立. 研究貢獻。. ‧. ‧ 國. 探討及回顧。. 學. 第二章，文獻探討：針對社會網路分析、連結預測和動態網路分析領域的相關文件進行. 第三章，研究系統架構及研究方法：將說明如何根據所使用的資料庫來建構社會網路系. sit. y. Nat. 統架構，以及研究方法的分析，包含專有名詞的說明，分數排名計算方式，以及參數的. io. al. er. 說明，最後針對整體系統架構進行詳細闡述。. n. 第四章，實驗設計與分析評估：進行實驗介紹，並說明實驗中所需要的參數設定，最後. Ch. engchi. 進行實驗數據結果的分析以及驗證。. i n U. v. 第五章，結論與未來研究方向：為本論文的研究結論以及未來的研究方向。. 12.

(17) •研究背景 •研究資料第一章 •研究動機與目的 •社會網路分析(Social Network Analysis)文獻第二章 •連結預測(Link Prediction)文獻 •網路特性與演算法 •網路模型建置第三章 •系統架構分析 •實驗資料 •實驗設計第四章 •實驗結果分析. 立. 政治大. ‧ 國. 學. •研究結論第五章 •未來研究方向. Nat. n. al. er. io. sit. y. ‧. 圖 1.1 論文研究架構圖. Ch. engchi. 13. i n U. v.

(18) 第二章文獻探討本章將依序簡述與研究主題的相關文獻資料，先針對社會網路分析（Social Network Analysis）的定義、構成要素以及網路性質分析理論的相關文獻進行回顧，其後則針對研究的核心理論－連結預測（Link Prediction）－相關文獻進行探討，希望能對與本研究相關的文獻資料有更完整的理解，以能更確立研究的方向。. 社會網路與分析. 2.1. 立. 政治大. 社會網路分析方法是由社會學家根據數學方法、圖論等發展起來的定量分析方法，. ‧ 國. 學. 近年來，該方法在職業流動、城市化對個體幸福的影響、世界政治和經濟體系、國際貿易等領域廣泛應用，並發揮了重要作用。社會網路分析是社會學領域比較成熟的分析方. ‧. 法，社會學家們利用它可以比較得心應手地來解釋一些社會學問題。許多學科的專家如. Nat. sit. y. 經濟學、管理學等領域的學者們在新經濟時代——知識經濟時代，面臨許多挑戰時，開. n. al. er. io. 始考慮借鑒其他學科的研究方法，社會網路分析就是其中的一種。. 2.1.1. 定義. Ch. engchi. i n U. v. 社會網路分析研究的對象應是社會結構，而不是個體。通過研究網路關係，有助於把個體間關係的「微觀」網路與大規模的社會系統的「巨觀」結構結合起來。傳統上對社會現象的研究存在著個體主義方法論與整體主義方法論的對立。前者強調個體行動及其意義，認為對社會的研究可以轉換為對個體行動的研究。社會學的研究對象就是獨立的個體的行動。但整體主義方法論強調只有結構是真實的，認為個體行動只是結構的派生物。儘管整體主義方法論者重視對社會結構的研究，但他們對結構概念的使用也有很大的分歧。其實社會結構是在各不相同的層次上使用的。它既可用以說明微觀的社會互動. 14.

(19) 關係模式，也可說明巨集觀的社會關係模式。也就是說，從社會角色到整個社會，都存在著結構關係。對於社會網路的基本定義，可以了解到雖然社會網路理論最初是探討人與人之間的互動關係以及所在的社會結構研究，而基於其理論核心，在於探討節點(人)間彼此的關係，以及節點的行為表現對於網路結構的影響，而社會網路概念則為將每個實體間的關係用圖形的鏈結來表示，社會網路可看成一個異質或多重性質的圖形。這樣的圖形通常相當的大，每一個節點(node)代表一個物件，而每個邊(edge)代表一個鏈結，也代表兩個. 政治大. 物件之間的關係[21]，這樣的鏈結可以是有方向性，或是無方向性的。故 20 世紀 70 年. 立. 代以來在社會學、心理學、人類學、數學、通信科學等領域，能夠快速發展起來的一個. ‧ 國. 學. 的研究分支，而社會網路分析則是社會網路理論所發展出來的分析工具[22][23]，主要透過一些分析計算法則，同時從微觀以及巨觀的角度來觀察和分析所建構的網路結構資. ‧. 料，並從中獲取所需資訊。. y. Nat. 社會網路 1-mode 與 2-mode 類型之差異. sit. 2.1.2. n. al. er. io. 社會網路中的節點可以是任何的個人、群體、社區、企業、組織、國家等等。而在. i n U. v. 一社會網路中並不限於只能存在一種類型的節點，也可能同時存在數種不同的節點類型，. Ch. engchi. 而分別於各關係網路中扮演不同的角色。當一社會網路內部僅含有一種類型的節點時，將之稱為 1-mode 網路，其內的節點彼此間屬性上會產生差異，但本質上仍屬於相同類型，舉例來說，一般常見的人與人所構成的網路即為此類；而當網路中的節點分屬兩種類型時，則稱之為 2-mode 網路，例如以顧客與其所購買商品所構成的網路即為 2-mode 網路；一般而言，2-mode 網路僅在不同類型的節點間產生關係連結，相同類型的節點間若也要產生關係連結，則將對於整體網路的性質定義與分析方面提升不少難度；基於相同的理由，當一社會網路中的節點類型愈多時，對於該網路的分析將會造成更複雜的難題，因而目前三種以上節點類型的網路結構較不常見。在本研究中，依據政府官員異動資料庫中的政府官員資料形成一種人物類型的節點， 15.

(20) 以及將政府職務資料形成另一種職務類型的節點，而該官員是否擔任過該職務之關係形成人物與職務兩個不同類型節點之間的連結，在這樣的結構之下，建構出兩種不同節點類型的異動網路，是一個 2-mode 網路結構。. 連結預測. 2.2. 連結預測（Link Prediction）理論是以社會網路分析理論為基礎擴展而來的一嶄新研究領域。常見的社會網路分析理論主要著重於探討資料節點的特質、彼此間的連結關係. 治政以及整體網路結構對其行為表現的影響程度，較偏向於針對單一社會網路結構，進行靜大立態形式的分析[9]；而連結預測理論選擇引入了時間的概念，認為社會網路的本質是屬於 ‧ 國. 學. 動態的架構，節點與節點彼此間可能會隨著時間的流逝而建立新的連結關係，也就是說，. ‧. 對於一個在時間點 t 的社會網路，如何去預測在時間點 t’時的社會網路，哪一個鏈結會出現：故如何能夠準確預測哪些節點彼此間未來可能會產生新的連結，即成為連結預測. y. Nat. n. al. er. io. 測演算法進行介紹。. sit. 理論所要探討的主要核心問題。以下將依序針對連結預測的基本理論定義以及相關的預. 2.2.1. 基本概念與定義. Ch. engchi. i n U. v. 連結預測理論認為社會網路的本質為一隨著時間變化的動態架構，同時隨著時間變化其整體網路規模以及節點彼此間的連結關係也會有所變動；一社會網路可能會因為歷經一段時間過後某些事件的發生而產生新的節點，或者原先無連結關係的節點間因應新事件的發生，而於彼此間產生了新的連結關係。而連結預測理論主要探討的問題核心便在於如何透過一連結預測器（Link Predictor）準確預測、判定哪些新的關係連結，將出現於經過一段時間過後的社會網路結構中。. 16.

(21) 2.2.2. 演算法. 連結預測理論相關演算法的共同設計概念主要在於，針對所輸入的社會網路結構，其中所包含的任一對點. ，若其彼此間的相似程度（Similarity）愈高，則該對點. 在. 未來某一時段的社會網路結構中，將愈有可能會在彼此之間產生新的連結關係；舉例來說，在一以公司為節點、曾經共同參與一合作計畫而建立連結關係的社會網路結構中，現有 A、B 兩公司，其彼此間未曾合作而產生連結關係，但若其各自曾經合作過的公司節點集合相有較高的重複性，則可以合理推斷 A、B 兩公司未來將有較大的可能性相互. 政治大各自的相連公司節點集合的重複性為其相似度的計算法則，而依據針對單一對點立. 合作，亦即其彼此間將可能於未來產生連結關係。在上述的舉例中，是以任兩公司節點彼. ‧ 國. 將依序介紹目前較為常見的連結預測演算法。. ‧. Graph Distance：計算任意兩節點彼此間相似度高低最基礎的方法之一，即是以任彼此間的最短路徑距離作為計算準則；當兩節點彼此間的最短路徑距離愈. y. Nat. 意一對點. sit. 1.. 學. 此間相似度計算法則的定義之不同，因此也就衍伸出不同的連結預測演算法。接下來，. io. 一對點. er. 短時，相似度愈高。公式 1 所示即為其相似度計算公式；其中值得特別注意的是，當任. al. 的最短路徑距離為 1 時，代表該對點在 training interval 階段的社會網路結構. n. v i n Ch 中，彼此間已有連結關係相連，不屬於可預測範圍之內，故選擇從最短路徑距離 engchi U 對點集合中，依照各對點所計算出的. 的. 值依降冪排序，並取出前 n 對對點以作. 為連結預測的結果。公式 2.. Common Neighbors：此相似度計算公式的設計概念在於，認為在社會網路結構中任. 意兩不相連的節點，若其彼此間擁有愈多的共同鄰居結點時，亦即當兩節點各自的鄰居節點集合的內含元素重複性愈高時，則該兩節點在未來某一時段的社會網路結構中可能產生連結關係的機會愈大。公式 2 所示即為其相似度計算公式；其中鄰居節點集合。 17. 代表節點 x 的.

(22) 公式 3.. Jaccard's Coefficient：Jaccard's Coefficient 是由 Guha 等人於 1998 年所提出，. 經常運用於資訊擷取（information retrieval）領域，其主要是用於度量兩集合所屬元素之間的相似程度，現假設有 A、B 兩集合，則公式 3 所示即為此兩集合透過 Jaccard Coefficient 所呈現的相似度值；而當運用至連結預測領域時，選擇將原先的 A、B 集合改以網路中任意二節點 x、y 各自的鄰居節點集合來取代，如公式 4 所示，因此便可藉由 Jaccard's Coefficient 計算出 x、y 鄰居節點集合間的相似度；若二節點其鄰居節點集. 政治大. 合彼此間的相似度高，則可推估該二節點未來彼此間產生新連結關係的機率可能亦會較. 立. ‧. 公式. Katz：此項理論選擇從任意兩節點彼此間相互連接的路徑數量多寡的角度切入觀. sit. y. Nat. 4.. 公式. 學. ‧ 國. 高。. io. er. 察，其認為當兩節點彼此間相互連接的路徑數量愈多，同時其中又以較短長度的路徑數. al. 量所佔比率較多時，則可推估該兩節點彼此間的相似程度應該較高；故其相似度計算公. n. v i n Ch 式是以任意兩節點彼此間不同長度路徑數量的總和，作為評量該兩節點相似程度的基準， engchi U 其中並藉由一設定參數來調整對於不同長度之路徑的權重計算。其相似度計算公式如公式 5 所示，其中. 代表從節點 x 到節點 y 路徑長度為的路徑集合。公式. 5.. SimRank Algorithm：此演算法是由 Glen Jeh 與 JenniferWidom 在 2002 年所提出的. [10]，其基本理論基礎是由一遞迴關係概念所構成，認為任意兩節點彼此間的相似程度會因為與該兩節點相連的其他節點彼此間相似程度的高低而受到影響；舉例來說，現欲探討 a、b 兩節點間的相似程度，其中 a 節點與 c 節點相連，而 b 節點則與 d 節點相連，. 18.

(23) 此時若已知 c 節點與 d 節點彼此間相似程度較高，則可推估 a、b 兩節點彼此間的相似程度應該亦會較高。公式 6 所示即是將上述的基本理論精神以算式方式來呈現。，，. ，. 公式. 當欲計算任意二節點 x,y 間的相似程度時，若 x 與 y 相同，亦即希望計算單一節點與自身的相似度時，其值為 1；若 x,y 為不同節點時，則須先取得 x 節點的鄰居節點集. 政治大. 合中任一節點（亦即. ）與 y 節點的鄰居節點集合中任一節點（亦即. 個別相似度值（亦即. 立. ）彼此間的. ），再將所有的個別相似度值依序累加取得總計. ‧ 國. 學. 後以做為計算 x,y 二節點相似度的基礎；其中參數 c1 為一相似度遞減參數，其值介於 0 和 1 之間；此參數設計的目的主要是用於顯示任意兩節點彼此間相似度受到其鄰居節點. ‧. 彼此間相似度的影響效果將會呈現遞減現象；舉例來說，現假設有一節點 a 同時與二節. Nat. sit. y. 點 b、c 相連結，而 b、c 間互不相連；則經由 SimRank 演算法原理可知 b、c 二節點彼. n. al. ，但已知其中 a. er. io. 此間的相似度將可透過 a 節點來進行計算，亦即. i n U. v. 節點與自身的相似度為 1（亦即 score（a,a）=1），此時若因此推估節點 b、c 間的相似度. Ch. engchi. 為 1，亦即 b、c 兩節點為相同節點將有違一般常理推估，因而設計一遞減參數 c 使得，以顯示任意兩節點間相似度受到其周遭鄰居節點彼此間相似度影響的遞減現象。，，. ，. ，. 公式. ，公式 6 中所示為 SimRank 演算法的基本理論精神，而公式 7 所示則為實際進行任意 19.

(24) 二節點間相似度計算時的遞迴公式；其中. 代表當進行至第 k 次遞迴時節點 x、y. 間的相似度，而 k 值代表了所期望進行的遞迴次數，可依照實際計算需求自行設定；從上述公式中可以得知，每次進行第（. 次相似度計算（. ）時，均是以第次. ）所得的相似度值為基礎累積計算；其中並明確定義出當進行至第 0 次遞迴. 計算（. ）時節點 x、y 間的相似度計算法則，以做為整個遞迴流程的計算終止點。. 而根據 Glen 與 Jennifer 所提出的數學推論證明中可以得知，當 k 值設定趨近於無限大時，也就是在經過無限次的遞迴計算過程後，所得的. 政治大. 將會趨近於. ，也就. 是趨近於節點 x、y 間真正的相似度值。如公式 8 所示。. 立. 公式. ‧ 國. 學. 而在某特定職務出缺時，上位者在考慮特定職務的實際接任人選時，曾經擔任過此職務之歷任人選的歷任職務政府官員，較會容易受到矚目，而若某官員的歷任職務與歷. ‧. 任人選的歷任職務相似時，則出線的機率會比其他官員高。基於這樣的觀察，在對特定. Nat. sit. y. 職務的實際繼任人選進行分析時，除了從此特定職務的歷任人選的歷任職務中，找出曾. n. al. er. io. 經擔任過這些歷任職務的人，並分析這些人的歷任職務，再從中計算出實際接任人選的. i n U. v. 預測準確值，本研究中所建構的政府官員職務異動網路是一個 2-mode 網路結構，而. Ch. engchi. Simrank 演算法不同於其他演算法多以 1-mode 網路為應用領域，Simrank 演算法可同時適用於 1-mode 和 2-mode 網路，從網路結構分析角度來看，是運用遞迴原理，計算兩兩節點之間相似度的方式，符合政府官員職務異動網路特性，包含人物與職務兩種不同型態的節點，也符合本論文的研究需求，故我們選擇以 Simrank 演算法為基礎，並做適當延伸為 Simrank for 2-mode（請參考公式 9），作為政府官員職務繼任分析的研究核心。. 2.3. 小結透過以上針對社會網路分析（Social Network Analysis）領域以及連結預測（Link. Prediction）理論方面的文獻資料，我們可以發現社會網路分析兼具微觀與巨觀的切入角 20.

(25) 度，對於資料量如此龐大的政府人事異動資料庫，是一個適合的研究分析工具，而連結預測理論中所引入社會網路的時間和相似度概念，也符合我們進行探討職務歷程隨著時間變化而造成相似度的影響程度，對於實際接任人選影響的研究需要。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 21. i n U. v.

(26) 第三章政府官員職務異動網路模型建置與系統架構每當政府機構中有重要職務出缺時，往往成為社會大眾所關注的焦點，並引起許多人繼而討論可能的接替人選，包含這個職務所需要具備的相關條件，曾經在這個職位上的歷任官員都有什麼樣的經歷? 在其經歷中，有什麼特殊經歷會成為接任此職務的重要關鍵之一? 以上均是針對預測職務的接替人選常見的相關推論。為了能夠將上述推論以數據化方式呈現，因此在本研究中，沿用[1]的制訂方式選擇以政府官員異動資料庫中的人事異動紀錄作為基礎，來建置人物異動網路，並在異動資料庫中選定特定職務，延伸. 治政透過不同的參數組合而得到實驗數據，進行分析而得到預測結果，並從中探討歷任官員大立職務歷程的相似程度對於後續接替職務人選的影響程度。 ‧ 國. 學. 研究設計參數名稱說明. 3.1. ‧. 以下針對本研究中所設計的參數名稱解釋如下：. io. sit. y. Nat. 3.1.1 針對特定預測職務所參考的前 n 任官員資料（Most Recent Predecessor n, 簡稱 MRP n）. n. al. er. 指對於某個預測職務所要參考的前 n 任官員資料。舉例來說，若 MRP（Most Recent. Ch. i n U. v. Predecessor）為 4，指參考前四任的官員資料。透過 MRP（Most Recent Predecessor）變. engchi. 數，除了觀察政局的變化對於相似值預測的影響，也可透過參考範圍的不同，得到不同的訓練資料，來觀察對於相似值預測所造成影響的不同。MRP（Most Recent Predecessor）為 1 則是僅參考前一任的官員資料，也是最少的參考訓練資料，MRP（Most Recent Predecessor）為 2 則是參考前二任的官員資料，而 MRP（Most Recent Predecessor）為 4 則是參考前四任的官員資料。 3.1.2. 參考之政府官員所曾經擔任過的職務（Most Recent Job, 簡稱 MRJ）. 指參考標的人物曾經所擔任過的職務。每個人物在其公務生涯的過程中，每一個就任卸任的職務都被紀錄在資料庫中，而集結所有的職務異動紀錄，就是這個人物的歷任職務。 22.

(27) 3.1.3. 參考之政府官員 n 個最近時間所擔任過的職務（Most Recent Job n, 簡稱 MRJ n）. 指參考標的人物 n 個最近時間所擔任過的職務。為了考量讓預測的參考職務能依據其重要性而有不同的權重，越重要的職務經歷會對未來可能擔任的職務會產生較大的影響，而當一個職務出缺時，最可能去參考接任的候選人之最近的職務歷程，故認為最近的職務歷程會對於未來可能接任的職務會有比較大的影響。. 3.2. 政府官員職務異動網路模型建置在本研究中所建置的政府官員職務異動網路，主要是依據政府官員異動資料庫中的. 治政人事異動紀錄所建置而成。從所設定的異動時間區段中，依序取出每一筆異動紀錄的姓大立名、職等、異動部門、異動職務以及異動時間等相關欄位資訊，將紀錄中的人物姓名資 ‧ 國. 學. 訊形成一種類型節點，稱為人物節點；而紀錄中異動部門和異動職務資訊則形成另一種. ‧. 類型節點，稱為職務節點。故本研究中的政府官員職務異動網路是一個 2-mode 網路，包含人物節點和職務節點兩種類型的節點。. y. Nat. io. sit. 在每一筆的異動紀錄中，從中可得知該名官員在特定時間點調動到某個部門和職位，. n. al. er. 因此可將所產生的人物節點與職務節點之間建立連結；而單一官員在異動時間區段中可. Ch. i n U. v. 能產生多次異動，於是會有多筆異動紀錄，所以單一人物節點會與多個不同的職務節點. engchi. 產生連結。相對而言，單一職務節點在異動時間區段中，也可能依序由不同的官員擔任，所以單一職務節點也會與多個不同的人物節點產生連結。綜合上述，本研究中所建置的政府官員職務異動網路為 2-mode 網路，其中包含人物節點與職務節點等兩種不同類型的節點，而異動網路中的連結關係建立於此兩種不同類型的節點之間，相同類型節間之間並無產生連結。透過這樣的設計所建置的社會網路，我們藉由不同的參數設定來調整此網路的規模大小；其中可以調整的參數有針對特定預測職務所參考的前幾任官員資料 (Most Recent Predecessor, MRP)以及參考之官員所曾經擔任過的職務(Most Recent Job, MRJ)等兩種設定參數。藉由不同的參數設定組合，來. 23.

(28) 觀察不同的異動資料對於特定職位接替人選的預測率準確度的影響程度。由於在目前現行的公務人員制度規範下，僅有事務官（如司長等）具有職等的規定，且其所訂定的最高職等為 14 職等，所以在本研究中沿用[2]的制訂方式，以事務官的最高職等（14 職等）為基準，賦予政務官以及各高階職務中未有職等規定的職務一虛擬職等，本研究中稱之為「操作職等」，同時轉換其他職等為相對應之操作職等如下表 3.1，而縣市長及其副官分別為 16 與 15 職等、各級部長及其秘書長為 15 職等、副部長為 14 職等、各院會院長及其副院長分別為 18 與 17 職等、總統則為 19 職等；並選擇將資料. 政治大. 庫中 14 職等以下的職位歸類為事務官，而 15 職等以上的職位則歸類為政務官，以各別. 立. 進行預測分析；透過此種職等設計的方式，我們便可選擇以低於所期望預測職位職等二. ‧ 國. 學. 職等的所有人員及其相關的異動資訊，來建構出系統進行預測時所需的人物異動網路，以有效控制建置出的社會網路的規模大小，同時這也是考量到在一般情況下政府機構中. ‧. 的人事調動，其在一次職位調動的過程中，通常較少出現一次跨越 3 職等以上的情形；. Nat. sit. y. 亦即當進行人事調動時，若其原先的職位職等為 12 職等，則調動後的職位職等通常不. al. n. 職稱. er. io. 會出現一次即調動至 15 職等以上的情形。. i n U. v. 文官職等. 操作職等. 無. 15. 14. 14. 主任秘書、副司長、所長、局長、署長、關務監總局長、處長、副署長、 13 副局長. 13. 副署長、處長、副所長、主任秘書、關務監副總局長、關務監局長、 12 局長、主任、所長、主任委員、參事、常務次長. 12. 部長、主任委員、署長、局長. Ch. engchi. 政務次長、常務次長、副主任委員、秘書長、副署長、局長、副局長. *同一職稱的職位，會因年代不同，而有不同職等賦予，故同一職稱的職位會對應到不同的操作職等。. 表 3.1 官員職等與操作職等對應表. 24.

(29) 3.3. 連結預測應用於職務繼任之方法分析為了探討特定職位接替人選的決定上受到歷任人物的職務歷程相似度的影響程度. 多寡，本研究希望能夠以曾經擔任過該特定職務的所有人物結合為基礎，依序找出曾經擔任過的職務歷程與前述特定職務接替人選的職務歷程極為相似的候選人物集合，經過綜合分析取出職務歷程相似值最高的前 n 名，以作為該特定職務的預測接任人選集合；若實際的接替人選確實出現在預測接任人選集合中，則可依據此分析結果欲推估當該特定職位產生空缺的時候，上位者在考量其接任人選，會受到其歷任人物之職務歷程的影. 治政響，換言之，上位者若在考量接替人選的時候，會參考曾經擔任過該職位的所有人物他大立們擔任過的職務歷程，並從其中找尋職務歷程與他們最相似的人選為最主要的接替人 ‧ 國. 學. 選。. ‧. 有鑑於連結預測理論相關演算法的設計概念同樣也是以相似度為核心，同樣以預測兩節點未來產生連結關係可能性的判斷準則；也就是說，若任何兩個原先並無連結關係. y. Nat. io. sit. 的節點，彼此之間的相似度高，則此兩節點在社會網路中的未來某個時刻，彼此產生新. n. al. er. 連結的可能性會比較高。而此種設計概念剛好符合本研究所期望尋找之某特定職務歷任. Ch. i n U. v. 人物的職務歷程相似度較高的人選，以作為可能接替該特定職務預測人選的需求，因此，. engchi. 本研究選擇以連結預設理論的相關演算法作為研究核心方法。由政府官員異動資料庫所建置而成的人物異動網路，其主要特性是一個包含人物以及職務兩種不同型態節點的 2-mode 網路，所以本研究希望能夠尋找一個可以適用於 2-mode 網路且從網路結構分析的角度進行兩兩節點之間的相似度計算的演算法。在連結預測相關演算法中，Simrank 不同其他演算法多以 1-mode 網路為應用領域，Simrank 演算法可同時應用 1-mode 和 2-mode 網路，且其從網路結構分析的角度，是運用遞迴原理計算兩兩節點間相似度的方式，符合人事異動網路的特性(包含人物與職務等不同型態的節點)和本論文的研究需求，故我們選擇以 Simrank 演算法作為接替人選預測系統的. 25.

(30) 核心，將 Simrank 運用至 2-mode 網路，並對計算公式進行適當的延伸，是為 Simrank for 2-mode。 2.2.2 小節中所顯示的 Simrank 演算法相似度計算公式（亦即公式 6 和公式 7），主要是適用於 1-mode 網路之中，當欲將 Simrank 運用到 2-mode 網路時，則需要針對現有公式進行適當的調整；公式 9 所示即為 Simrank for 2-mode 相似度計算公式。其中 A、B 與 c、d 分屬二種不同類型的節點，則均為相似度遞減係數。. 立. 政治大. ，. ，. ，. ‧. ‧ 國. 學，. 一. ，，. 二. Nat. y. 與. 公式. io. sit. 而. 代表單一節點的所有鄰居節點所形成的集合；. n. al. er. 對於公式 9 所代表的含意，我們可藉由圖 3-1 中顯示的簡易 2-mode 網路為示意圖. Ch. i n U. v. 來進行解說。首先，依據 2.1.2 小節對於 2-mode 網路所給予的定義中可以得知，2-mode. engchi. 網路具有網路結構中含有兩種類型節點以及連結關係僅建立於此兩種不同類型節點之間的兩種特性；在 2-mode 網路模式下，當運用 Simrank for 2-mode 演算法計算任二相同類型的節點彼此間的相似度時，其基本計算原理與 1-mode 網路模式下大同小異，仍舊是以該任二節點的所有相鄰節點彼此間的相似程度總合為計算基礎；但由於其本身所有的連結關係均是建立於兩種不同類型的節點之間，故在 1-mode 網路時僅需以單一類型的節點進行計算，而在 2-mode 網路中時，則須以另一種類型的節點來進行計算。以下我們以圖 3-1 中所示的 2-mode 網路為範例說明 Simrank for 2-mode 演算法的計算過程，其中. 、、、. 屬於相同類型節點，而、、、、則屬於另一種類型. 26.

(31) 的節點，如圖中所示網路中所有的連結關係均僅建立於此兩種不同類型的節點之間。當希望計算出 A、B 兩節點之間的相似度時，依據 Simrank for 2-mode 演算法的計算原理，故首先我們需依序計算出 A 的鄰居節點集合、與 B 的鄰居節點集合、、、中彼此所有對點間的相似度，亦即須計算出以及. 、. 、. 、和. 、. 、. 的相似度值，再將之進行後續的. 加總計算處理，而這也就是如公式 9 的第一部份計算公式所顯示；其後，為了能夠取得上述對點間的相似度，同樣也是需要依序計算出每一對點的鄰居節點集合中彼此所有對值為例，則需要進一步依序計算出 b 的鄰政治大. 點間的相似度，以欲取得上述中的. 立. 和 c 的鄰居節點集合. 彼此所有對點間的相似度，亦即. 和. 學. ‧ 國. 居節點集合. 的相似度值，也就是如公式 9 的第二部份計算公式所示。依此類推，藉由第一部份和第二部份計算公式不斷的遞迴交替計算，直到達到所設定的遞迴次數，最後便. ‧. 可取得原先所希望計算的 A、B 兩節點間的相似度值。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3.1 2-mode 網路 Simrank 演算法計算示意圖. 3.4. 系統架構圖 3-3 中顯示了本研究所設計的職務接替人選預測系統之架構圖，其中主要可分為. 政府官員異動網路模組（Network Module）、相似度計算模組（Simrank Algorithm Module）以及預測列表建立模組（Prediction List Module）三大模組，在後續的章節中將依序對各模組進行詳細說明。 27.

(32) 立. 政治大. ‧. ‧ 國. 學. n. 3.4.1. 系統概述. 圖 3.2 系統架構圖. Ch. engchi. er. io. sit. y. Nat. al. i n U. v. 在本研究中所建置的職務接替人選預測系統，主要是希望依據所期望預測的職務名稱和時間點，找出在時間點之前曾經擔任過該職務的所有人物（在本研究中我們稱其為 Seed Person Set），再以這些人物各自曾經擔任過的職務歷程為基礎比較核心，運用 Simrank for 2-mode 演算法計算出與各人物職務歷程相似度較高的其他人選，在經過綜合分析之後，作為系統對於該職務的預測接替人選結果。其整體系統的運作流程主要可細分為三階段，不同階段各別由不同的程式模組負責執行相關工作。圖 3.3 中為預測系統的整體運作流程圖，在圖中並同時顯示了和各階段執行工作相互對應的程式模組。. 28.

(33) 系統運作流程的第一階段為人物網路建置階段，主要是由政府官員異動網路模組（Network Module）負責執行相關工作；此階段執行工作的主要目的在於，依據所設定期望預測的時間和職務名稱，以及根據不同參數設定(針對特定預測職務所參考的前幾任官員資料：Most Recent Predecessor, MRP, 以及參考之政府官員所曾經擔任過的職務： Most Recent Job, MRJ) ，由政府官員異動網路模組（Network Module）負責建置出 Seed Network 以及 Prediction Network。其中 Seed Network 負責提供曾經擔任過期望預測職務的人物及其相關資訊；而 Prediction Network 則負責作為系統進行職務歷程相似度計算時的具體網路架構。. Simrank Algorithm Module. 預測列表建置. ‧. 相似度計算. Network Module. 學. Prediction List. Nat. y. Module. n. er. io. al. 圖 3.3 系統運作流程圖. sit. 人物網路建置. ‧ 國. 立. 政治大. Ch. i n U. v. 系統的第二階段為相似度計算階段，是由相似度計算模組（Simrank Algorithm. engchi. Module）負責執行主要的職務歷程相似度計算工作，其所採行的核心計算法則受制於第一階段中由政府官員異動網路模組（Network Module）所建置的 Prediction Network 屬於 2-mode 網路的影響，故選擇採行公式 9 中所顯示的 2-mode 網路型態下的 Simrank for 2-mode 演算法。依序取得 Prediction Network 中所有人物與 Seed Person Set 中各人物的相似度計算結果之後，最後將由預測列表建立模組（Prediction List Module）負責執行系統最後的運作階段，完成職務接替人選推薦列表的建置。透過系統三階段的運作流程，取得最後的職務接替人選推薦列表之後，即可藉由人. 29.

(34) 事異動資料庫中該職務的實際接替人選，來檢驗系統的整體預測效果，並可進一步進行分析每一職務的接任人選受到歷任人物職務歷程的影響程度。在以下各小節中，我們將陸續針對政府官員異動網路模組（Network Module）、相似度計算模組（Simrank Algorithm Module）以及預測列表建立模組（Prediction List Module）三程式模組進行進一步的解說。. 3.4.2. 政府官員異動網路模組（Network Module）. 政治大務名稱之不同，配合不同的參數設定(針對特定預測職務所參考的前幾任官員資料：Most 立. 政府官員異動網路模組（Network Module）可隨著輸入的期望預測時間點和預測職. ‧ 國. 學. Recent Predecessor, MRP; 以及參考之政府官員所曾經擔任過的職務：Most Recent Job, MRJ) ，從人事異動資料庫中取出所需的相關異動記錄資料，其後藉由模組內部的二網. ‧. 路建構子程序：person-with-position network construct procedure 以及 position-with-person. sit. y. Nat. network construct procedure，同時建構出相對應的 Seed Network 以及 Prediction Network。. io. er. 其中 Seed Network 是由所期望預測的職務節點，以及從預測時間點之前曾經擔任過期望. al. 預測職務的所有異動記錄中，所取出的人物節點共同建構而成的子網路；而 Prediction. n. v i n Ch Network 則是從在預測時間點之前的所有人事異動記錄中，依據所設定的訓練資料年限 engchi U 長度，從所擔任職務的職等低於所期望預測職務的職等 2 等之內的人選中，根據其在訓練資料年限範圍之內的異動記錄，依序擷取出職務節點以及人物節點共同建構成一 2-mode 網路。對於選擇以和期望預測職務職等相距為 2 等的人物集合為主要人選的原因，主要是因為透過觀察資料庫中的異動記錄，發覺其絕大多數的職務異動範圍均在 2 個職等之內，故合理推論可能的接替人選也應出現於此職等範圍之內的人選之中。舉例來說，當期望預測職務為法務部部長（操作職等為 15），訓練資料年限長度為 6 年時，我們會先取出職務職等介於 14 至 15 等之間的人選，再從民國 96 年至民國 92 年間的異動記錄集合中，依據這些人選名單取出其異動記錄，再依序擷取出職務及人物節點以建構出 30.

(35) Prediction Network。承上節，在建構 Seed Network 時，會依據參考不同的異動時間區以及參考預測標的人物最近的歷任職務多寡，而形成不同結構的 Seed Network。如圖 3.4 中顯示預測時間為 97 年，預測職位為經濟部部長，設定 MRP（Most Recent Predecessor）參數為 4，亦即參考前面 4 任經濟部部長資料的 Seed Network 示意圖；圖 3.5 中顯示設定 MRP（Most Recent Predecessor）參數為 2，亦即參考前面 2 任經濟部部長資料的 Seed Network 示意圖；圖 3.6 中顯示設定 MRP（Most Recent Predecessor）參數為 1，亦即參考前面 1 任經. 政治大. 濟部部長資料的 Seed Network 示意圖；圖 3.7 中顯示預測職務為 97 年經濟部部長，設. 立. 定 MRP 為 4 以及 MRJ 為 2 之 Prediction Network；藉由 Seed Network 以及 Prediction. ‧ 國. 學. Network 的建構完成之後，後續的相似度計算模組（Simrank Algorithm Module）便可從 Seed Network 中擷取出曾經擔任過該期望預測職務的所有人物，將之彙整形成所謂的. ‧. Seed Person Set，之後再以此 Seed Person Set 為核心基礎依序與 Prediction Network 中所. Nat. n. al. er. io. sit. y. 有的人物進行職務歷程相似度的計算。. 經濟部部長. Ch. engchi. i n U. v. 林義夫. 陳瑞隆. 黃營杉. 何美玥. 圖 3.4 Seed Network (MRP 為 4) 示意圖. 31.

(36) 經濟部部長. 黃營杉. 陳瑞隆. 圖 3.5 Seed Network (MRP 為 2) 示意圖. 經濟部部長. 陳瑞隆. 學. 圖 3.6 Seed Network (MRP 為 1) 示意圖. ‧. ‧ 國. 立. 政治大. 接下來，我們便開始針對政府官員異動網路模組（Network Module）內部二子程序. y. Nat. er. io. sit. 於建構 2-mode 網路時的流程進行解說。首先藉由從圖 3.7 中可以看出，在系統設定參數 MRP（Most Recent Predecessor）為 4 和設定參數 MRJ（Most Recent Job）為 2，且期. n. al. Ch. i n U. v. 望預測職務操作職等為 15 等到 13 等的條件之下，其所呈現的人物以及職務節點已達一. engchi. 定程度的數量，尤其是在較低的操作職等，所產生的人物和職務節點會更高。為了系統計算效能方面的考量，政府官員異動網路模組（Network Module）在針對 2-mode 網路的建置方面，主要是藉由 person-with-position network construct procedure 以及 position-with-person network construct procedure 兩子程序，其中 person-with-position network construct procedure 責負責從異動記錄中，搭配不同的系統參數擷取出人物姓名以及異動部門、職位等資訊，建構出以人物姓名為 Key 值，以異動部門與職位合併而成的職務資訊為 Value 值的資料表；而 position-with-person network construct procedure 則負責從異動記錄中，搭配不同的系統參數建構以職務資訊為 Key 值，人物姓名為 Value. 32.

(37) 值的 Hash Map。圖 3.8 所示政府官員異動模組(Network Module) 透過二個子程序，搭配系統參數 MRP（Most Recent Predecessor）為 4 和 MRJ（Most Recent Job）為 2，進行預測 97 年經濟部部長而產生的 Hash Map 來模擬單一 2-mode 網路的示意圖。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3.7 Prediction Network 示意圖. 33.

(38) 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3.8 政府官員異動模組 (Network Module) 內部二子程序建構 2-mode 網路運作流程圖. 34.

(39) 3.4.3. 相似度計算模組（Simrank Algorithm Module）. 在政府官員異動網路模組（Network Module）依據所設定的期望預測時間和職務，以及配合不同的 MRP 和 MRJ 參數組合，完成 Seed Network 以及 Prediction Network 的建置之後，接著交由相似度計算模組（Simrank Algorithm Module）負責開始執行職務歷程相似度的計算工作。由於本研究立意是希望探討單一職務的歷任人物，他們曾經擔任. 政治大經擔任過所期望預測職務的成員有哪些。針對於此相似度計算模組首先根據 Seed 立過的職務歷程對於該職務後續接替人選的決策影響程度，故首先需從資料庫中擷取出曾. ‧ 國. 學. Network 中所提供的人物節點資訊，收集各人物曾經擔任過的職務歷程資訊彙整形成 Seed Person Set。其後再以此 Seed Person Set 為基礎，以 Prediction Network 為計算範圍，. ‧. 透過其內的 individual-whole procedure 以及 pair-calculation procedure 二子程序負責進行. sit. y. Nat. 職務歷程的相似度計算工作。. io. er. 當進行相似度計算工作時，individual-whole procedure 以及 pair-calculation procedure. al. 此二子程序彼此是相輔相成的。其中 individual-whole procedure 主要負責排定計算順序. n. v i n C h Seed PersonUSet 中逐一選擇單一 Seed Person 成列表以及收集計算結果的工作，其會從 engchi. 員，將之和 Prediction Network 中所有的人物結點依序形成對點再交由 pair-calculation procedure 執行；而 pair-calculation procedure 則專司負責運用公式 9 的計算法則來執行任兩人物結點彼此間的職務歷程相似度計算工作，之後將其所產生的相似度計算數據結果交由 individual-whole procedure 處理；最後再由 individual-whole procedure 負責暫存各單一 Seed Person 成員與 Prediction Network 中所有人物結點彼此間的相似度計算數據，其後並進一步彙整出與每一個 Seed Person 成員的職務歷程相似度最高的前 x名人物列表，其中 x 值可視實驗需求而定。圖 3-9 中即顯示了相似度計算模組（Simrank Algorithm Module）內部兩子程序進行職務歷程相似度計算的詳細流程，其中圖內的 35. 代表 Seed.

(40) Person Set 中的任一成員 i，則代表. 與. 代表在 Prediction Network 中的任一人物節點 j，而. 兩人物結點彼此間的相似度值。 Seed Person Set. Prediction Network. individual-whole procedure. Prediction Network. 政治大. （SP1,PP1）（SP2,PP1） ........ （SPn,PP1）（SP1,PP2）（SP2,PP2） ........ （SPn,PP1）（SP1,PP3）（SP2,PP3） ........ （SPn,PP1）. 立. ‧. ‧ 國. 學. .. .. .. （SP1,PPm）（SP2,PPm） ........ （SPn,PPm）. pairs-calculation procedure. n. Ch. engchi. .................. .................. ................... er. io. al. sit. y. Nat Score（SP1,PP1） Score（SP2,PP1） Score（SP1,PP2） Score（SP2,PP2） Score（SP1,PP3） Score（SP2,PP3）. i n U. v. Score（SPn,PP1） Score（SPn,PP1） Score（SPn,PP1）. .. .. .. Score（SP1,PPm） Score（SP2,PPm）.................. Score（SPn,PPm）. individual-whole procedure. 相似度列表（取前 x 名，按照 Score 值高→低呈現） SP1. （PPi,ScorePPi）. （PPj,ScorePPj）. ... ... SP2. （PPh,ScorePPh）. （PPk,ScorePPk）. ... ... ... .. （PPa,ScorePPa）. .. （PPc,ScorePPc）. ... ... ... ... SPn. 36.

(41) 圖 3.9 相似值計算模組（Simrank Algorithm Module）運作流程. 3.4.4. 預測列表建立模組（Prediction List Module）. 在經由相似度計算模組（Simrank Algorithm Module）依序針對 Seed Person Set 中的每一成員，計算取得與其職務歷程相似度最高的前 x 名人物列表之後，其後所有的相似度計算結果將交由預測列表建立模組（Prediction List Module）來負責執行最後的職務預測人選統整工作。現假設一 Seed Person Set 中含有 n 名成員，則最多將會產生 n*x 位的人物相似度列表以及各人物相對應於各 Seed Person Set 成員的相似度值，就如圖 3-9 中. 治政最後階段所呈現的相似度列表示意圖所示，再加上參數變化 MRP （Most Recent 大立 Predecessor）與 MRJ（Most Recent Job）組合，實驗中最多產生 n*x*6 位的人物相似列 ‧ 國. 學. 表和各人物對應於各 Seed Person Set 成員的相似度值。而由於在這些相似度列表中極有. ‧. 可能出現單一人物同時與多位的 Seed Person Set 成員均具有較高的相似度值，也就是單一人物以不同的相似度值出現於多位 Seed Person Set 成員各自的列表之中，故為了彙整. y. Nat. n. al. er. io. 選預測結果。. sit. 這些人物的相似度值同時也針對全部的相似度列表進行統整以給定最後的職務接替人. Ch. i n U. v. 在 Accumulation Procedure 中主要是採行最基礎的計算法則：相似度累加機制。. engchi. Accumulation Procedure 會針對每一個 Seed Person Set 成員所各自產生的相似度列表，逐一檢視列表中的所有人物與其相似度值，並將這些人物與其相似度值加入一暫存的列表之中，倘若在整體檢視的過程之中，發覺有人名重複的現象，也就是即將新加入的人物在暫存的列表之中已有相同的人物存在，則代表該名人物同時與多名 Seed Person Set 成員均有較高的相似度值，此時選擇將該名人物的新相似度值與暫存列表中原有的相似度值進行加總，再將加總後的相似度值回存暫存列表中。在依序完成所有相似度列表的檢視之後，針對暫存列表進行排序，取出暫存列表中相似度值最高的前 x 名人物及其相似度值，即為最後的職務接替人選預測集合。圖 3.10 即為以 98 年法務部部長曾勇夫為期. 37.

(42) 望預測職務，參數設定為 MRP 為 2 且 MRJ 為 2，經由 Accumulation procedure 機制產生接替人選推薦列表的流程圖。. 系統參數設定 MRP=2 以及 MRJ=2. Database. 相似值列表. Yes. 暫存列表中已有資料?. ‧ 國No. 立 ... ... ... ... ... ... ... ... 排序取出前 x 名. n. al. er. io. sit. y. ‧. 相似度值. Nat. 姓名. 學. 暫存列表. 相似度值累加器. Ch 排名. e n g推薦列表 chi. i n U. v. 姓名. 相似度值. 1. 曾勇夫. 1.32553400. 2. 吳英昭. 0.62082120. 3. 謝文定. 0.57107000. 3. 黃世銘. 0.49909260. 5. 顏大和. 0.20918480. 6. 盧仁發. 0.15264660. 7. 劉景義. 0.14800180. 8. 王添盛. 0.14800180. 9. 林錫湖. 0.12385240. 10. 陳守煌. 0.09737120. 38. Accumulation Procedure. 政治大.

(43) 圖 3.10 Accumulation Procedure 推薦列表建立流程圖下圖 3.11 即為以法務部部長曾勇夫為期望預測職務，參數設定為 MRP 為 4 且 MRJ 為 2，經由 Accumulation procedure 機制產生接替人選推薦列表的流程圖。系統參數設定 MRP=4 以及 MRJ=2. Database. 相似值列表. Yes. 暫存列表中已有資料?. 暫存列表相似度值. ... ... ... ... ... ... ... ... er. io. sit. y. ‧. 姓名. Nat. 排序取出前 x 名. n. al. 相似度值累加器. 學. ‧ 國No. 立. Ch. e n g推薦列表 chi. i n U. v. 排名. 姓名. 相似度值. 1. 黃偉峰. 0.91412620. 2. 傅棟成. 0.91412620. 3. 游盈隆. 0.91412620. 3. 劉德勳. 0.91412620. 5. 童振源. 0.91412620. 6. 顏大和. 0.90799600. 7. 黃世銘. 0.88837580. 8. 謝文定. 0.88225020. :. : 曾勇夫. :. 24. 39. 0.48570200. Accumulation Procedure. 政治大.

(44) 圖 3.11 Accumulation Procedure 推薦列表建立流程圖而在系統預測準確值方面，主要是藉由公式 22 來進行計算，其中由於系統對於每一特定職位所產生的預測人選均是以推薦列表的方式來呈現，亦即每一次的預測結果均是由多位人選的計算後相似值排序而成的列表所組成，故對於判定預測準確值則為該預測職位的實際接任人選出現在推薦列表中的名次，若為第 1 名則得 100 分，若第二名則為 99 分，若為第 100 名或以上，則為 1 分。預測準確值. 立. 治推薦列表名次政大. （公式. ）. 若某政府官員在推薦列表中的預測準確值較高的話，代表此官員經過系統計算後的. ‧ 國. 學. 相似值高，成為實際接任人選的機率較高，反之，若此官員在推薦列表中的預測準確值. ‧. 較低的話，則成為實際接任人選的機會相對的低。而若在系統計算後，有多位官員獲得同樣的計算後相似值，則擁有同樣的推薦列表，而排名採高爾夫球競賽排名規則，舉例. y. Nat. io. sit. 來說，若官員 A 在推薦列表中的相似值為 0.995，官員 B 和官員 C 的相似值為 0.975，. n. al. er. 官員 D 的相似值為 0.96，則官員 A 的推薦列表名次為 1，官員 B 和官員 C 的名次為 2，. Ch. i n U. v. 官員 D 的名次為 4，故官員 A,B,C 和 D 的預測準確值分別為 100, 99, 99 和 97。. engchi. 從圖 3.10 以及圖 3.11 可以看出，對於同一個預測職務，設定不同系統參數，會有不同的參考職務，透過計算後得到不同的預測結果，然而，對於預測結果並不完全因為 MRP 和 MRJ 參數的增加而相對提高，對於某些職務甚至會造成預測準確度下降之影響；以上述為例，預測法務部部長曾勇夫，在系統參數設定 MRP 為 2 和 MRJ 為 2 時，預測準確值為 100，但當提高 MRP 參數為 4 時，預測準確值下降到 77，參考職務新增加了「行政院大陸委員會副主任委員」，造成 Prediction Network 成員增多，導致曾勇夫的排名降低，而預測準確值也變低。對於不同參數組合得到的結果將於第四章做進一步的說明。. 40.

(45) 第四章實驗設計與分析評估在本章中將依序詳述職務接替人選預測系統的實驗設計、實驗數據結果以及後續的分析與討論。首先針對系統選定的實驗資料與職位進行說明，並闡述所設計的三種實驗模式的內容及實驗目的。其後以圖表的方式呈現系統的實驗數據結果，最後再依據實驗結果進行分析與探討。. 4.1. 實驗資料. 政治大. 本研究設計之系統所採用的實驗資料主要是取自於政府官員人事異動資料庫中民. 立. 國 79 年 1 月 1 日至民國 98 年 12 月 31 日的異動記錄集合，其中總計有 253,059 筆異動. ‧ 國. 學. 記錄，並包含有 168,914 個不同人物和 83,684 個不同職務；扣除掉其中蘊藏資訊量較為不足，無法進行有效分析的異動記錄，並額外從中央選舉委員會建置的選舉資料庫中補. ‧. 充相關選舉資訊之後，總計最後進行系統實驗階段時的異動記錄共有 56,567 筆以及. Nat. sit. y. 26,739 個不同人物與 13,274 個不同職務。. n. al. er. io. 由於系統設計的主要目的在於依據歷任人員的職務歷程，來進行預測特定職位的接. i n U. v. 替人選，故在實驗規劃方面，我們將民國 79 年至民國 98 年間的異動記錄依不同的時間. Ch. engchi. 區段切成不同等分，時間區段的最小單位為預測職務中一任的任期，選定不同的時間區段 (Most Recent Predecessor, MRP)作為期望預測，也因異動紀錄時間區段不同，取其時間區段內的異動紀錄子集合作為訓練資料來源。例如取 79-84 年為一個時間區段，選定 84 年為期望預測時間點，79-83 年的異動紀錄為主要訓練資料。除了以針對特定預測職務所參考的前幾任職務異動資料有不同的時間點當作實驗係數考量，另外也依據時間區段內的參考標的人物最近的歷任職務多寡(Most Recent Job, MRJ)當作另一個實驗係數考量。在時間區段（Most Recent Predecessor, MRP）的實驗係數分別為 1, 2, 4 任期；在參考標的人物歷任職務（Most Recent Job, MRJ）的實驗係數分別為 2, 5 任。 41.

(46) 而在系統實驗部分，也同樣依此標準將期望預測的職務區分為事務官及政務官二大部份，在事務官的職位選定範圍為操作職等為 14 到操作職等為 12（請參考表 3.1 官員職等與操作職等對應表），並分別選定特定職位以進行預測實驗與討論。在特定職位的篩選條件部分，不論是政務官或是事務官的實驗部分，均從異動資料庫中，觀察其中異動紀錄為較多且較齊全的職位，並從中選擇職等較高的職位為優先考量。而表 4.1 所示則為實驗部份所選定的期望預測職位，分別從資料庫中取出操作職等為 15、14、13 以及 12 職等，且其中異動記錄至少 3 筆以上的職位。這樣的篩選方式原. 政治大. 因除了能針對職位進行較有效的分析，並能比較相同職務數量在不同部門或不同階層的. 立. 職位，所造成預測準確率的差異性。. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 42. i n U. v.