• 沒有找到結果。

由史料中探勘社會網絡:以乾隆時期為例

N/A
N/A
Protected

Academic year: 2021

Share "由史料中探勘社會網絡:以乾隆時期為例"

Copied!
33
0
0

加載中.... (立即查看全文)

全文

(1)

沈錳坤

Department of Computer Science, NCCU

由史料中探勘社會網絡:以乾隆時期為例

Social Network Mining from Historical Documents– by Example during Qianlong’s Reign

(2)

1722

研究概述

• 研究目的:由史料中探勘分析

– 找出「權臣 (the chief counselors) 」

– 判斷權力結構的改變 • 權臣:沒落 ←→ 崛起

• 文本

– 《清高宗實錄》:乾隆 • 由盛轉衰 → 適合 • 雍正13年 (1735) → 嘉慶4年(1799),共65年 • 官書:皇帝、中央政府 雍正 乾 隆 嘉慶 1736 1796

(3)

相關研究

• 社會網絡分析

(Social Network Analysis)

– Network Centrality [Freeman’79]

• 量化指標 → 網絡節點重要性 • Degree Centrality:網絡參與程度

• Closeness Centrality:時間或成本─ 溝通整體網絡 • Betweenness Centrality:橋樑─ 其它節點間連絡管道

– Cohesive Subgroups [Wasserman’94]

• 緊密相連的群體:密切關係

• Based on Reachability and Diameter

– n-cliques、n-clans 及 n-clubs

• Based on Nodal Degree

(4)

研究流程

文本 ={和珅, 張廷玉, 雅爾哈善,…} 從文本建立人物間連結 建置當時的人脈網絡 在網絡中找出權臣 權臣個人的重要性變化 權臣的權力團體之消長 方法一: 方法二: Phase 1. 歷史人名識別 Phase 2. 探勘權臣 Phase 3. 偵測權力結構的變化

(5)

歷史人名識別

• 詞夾子演算法

[張尚斌’05] – 歷史文本時常有特殊的patterns • 「臣…跪奏」:臣和珅跪奏、臣紀曉嵐跪奏 – 詞夾子 (Word-Clip) • 人名周遭的詞彙 • 構成: L…R – 演算法核心 臣…跪奏 詞夾子 L:左詞夾子 R:右詞夾子 和珅、紀曉嵐… 已知人名 詞夾子 未知人名 評分機制 和珅、紀曉嵐 臣和珅跪奏 惟紀曉嵐是問 臣…跪奏、惟…是問 臣劉羅鍋跪奏 惟李衛是問 劉羅鍋、李衛

(6)

歷史人名識別

(續)

• 詞夾子演算法 – 評分機制 • 詞夾子分數 – 平方:好的詞夾子 → 夾中許多不同詞 » 詞夾子 A:夾中10個詞 (5個樣本詞) » 詞夾子 B:夾中2 個詞 (1個樣本詞) • 人名候選詞分數 – wc1, wc2, …, wcn 夾中候選詞 c – 為候選詞加分 • 百家姓*I、官名*II

T

R

2  R:詞夾子夾中的樣本詞數  T:詞夾子夾中的總詞數 10 5 2 1 10 25 A B 佳 劣

=

=

n i i

Swc

Sc

1  Swci 為詞夾子 wci 的分數 劉羅鍋 宰相劉羅鍋 I II

(7)

歷史人名識別

(續)

• 修改詞夾子演算法

– 左詞夾子必須是官名:準確率↑、執行時間↓ – 左右詞夾子皆為頓號:召回率↑

• 過濾錯誤候選詞

– 地名*I、官名*II、普通詞庫*III – 長期出現在文本中*IV • 60年 協辦大學士尚書阿桂、程景伊、署協辦大學士尚書英廉、尚書豐昇額、 袁守侗、福隆安、綽克托、奎林、侍郎福康安、〈清高宗實錄1028卷〉 所有列在一等之進士舉人邱桂山、祝盆、洪榜、戴衢亨、關槐、俱著以 內閣中書補用。 〈清高宗實錄1007卷〉 、…、 長度為2~3首字為百家姓 江南 蘇州 I 左庶子 武備院卿 II 情形 前往 III 奏稱 議覆 IV

(8)

探勘權臣

• 為歷史人物間建立連結

– 網絡的表達 • Node:人物 • Link:人物間存在關係 (連結) – 文本符號「○ 」 • 時序排列:收錄諭旨、奏疏 → 事件 – 建立:位於相同「○ 」

• 人脈網絡的建置

– 方式:unweighted 及 weighted – 單位:年 ○辛未。上詣皇太后宮問安。 ○遣官祭關帝廟。 ○調原任浙江巡撫黃 叔琳。直隸按察使浦文焯。 〈清高宗實錄1012卷〉 1 2 3

(9)

探勘權臣

(續)

• Network Centrality

– Degree Centrality CD(pk):節點分支度 • 參與很多政務,與多人產生連結 – Closeness Centrality CC(pk):拜訪網絡的最短路徑 • 掌握網絡有良好能力 • 使用 Floyd-Warshall Algorithm

= = n i k i k D p a p p C 1 ) , ( ) (  pi:網絡上的任一點  a(pi, pk):點 pi 與點 pk 相鄰 值 0 是 否

= = n i k i k C p d p p C 1 ) , ( ) (  d(pi, pk):點 pi 與點 pk 的最短路徑長度 pk

(10)

探勘權臣

(續)

• Network Centrality

– Betweenness Centrality CB(pk):資訊流通時經過的頻率 • 溝通派系 → 身處其它人物彼此溝通的特殊角色 • 最短路徑:p1 ←→ p3 – p2p4 • Floyd-Warshall Algorithm pk P1 p3 p4 p2 0.5

< = n j i k ij k B p b p C ( ) ( ) 遞減排序

(11)

偵測權力結構的變化

• 根據兩個不同面向

(1)權臣重要性之變化

(2)

權力核心團體之變化

(1) 基於權臣個人的重要性變化

– 權臣重要性:Centrality

– 每年所有權臣之重要性: vector space model – 兩年間的權力結構變化:Difference of vectors ∑ = − − = − m i N N N N Y C i C i Y Diff 1 1 1, ) ( ) ( ) (  CN-1(i):權臣 i 第 N-1 年的 Centrality 值  CN(i):權臣 i 第 N 年的 Centrality 值

(12)

偵測權力結構的變化

(續)

• 基於權力團體的消長 – 權臣構成的 Cohesive Subgroups • 關係密切 • 各成員須具重要性 – 尋找的流程 • 最大的 connected component • Step 1:菁英─ 移除相距過遠的 nodes

• The Small World Problem [Milgram’67]

– Six Degrees of Separation » Indirect links 平均為 6 – for i=1 to j » 與所有權臣皆相距過遠 由史料中探勘人脈網絡 Step1 6 ) , (p i > d k Step 1 Step 2 菁 英 集 團 Step 3 派 系 權 力 核 心 (2)權力核心團體之變化

(13)

偵測權力結構的變化

(續)

• 基於權力團體的消長 – 尋找的流程 • Step 2:派系─ 用 k-cores 分解 • Subgroups 內與多少成員相鄰 • 若 Ns 為 k-core • 從 k=2 – k=1 → connected component – k↑ → Subgroups 更緊密 • 停止條件 – 目前k-cores 的 k 值 由史料中探勘人脈網絡 Step2 k i ds ( ) ≥ for all niNs ) ( kmax = dg Chiefq  dg(Chiefq):目前 k-cores 內,有最小分支度的權臣之分支度 → 達 k 值的極限 派 系 k-core 1-core 2-core kmax

(14)

偵測權力結構的變化

(續)

• 基於權力團體的消長 – 尋找的流程 • Step 3:權力核心─ 尋找clique • 權力團體─ 人物間的關係最 cohesive • Maximal cliques – 消長:團體差異 • Cliques 間差異 • Jaccard distance 由史料中探勘人脈網絡 Step3

The 1st year The N-1thyear The Nthyear

clique clique clique clique clique clique clique clique clique  AB :為集合A與集合B聯集的個數 clique 權 力 核 心 B A B A B A B A J ∪ ∩ ∪ ) , ( = − δ

(15)

偵測權力結構的變化

(續)

• 基於權力核心的消長 • 兩年間權力結構變化量 由史料中探勘人脈網絡 ) ( ))) , ( min ) , ( min ( ) , ( 1 , , , , 1 1 1 N N C j j i i C C i i j j C N N C J i j J j i C C C Diff N N N N + + = ∈ ∈ ∈ ∈ −

− − δ δ  i為第N-1年權力核心內的某個clique  j為第N年權力核心內的某個clique i i i CN-1 CN ) , ( ji Jδ > 差異門檻值→ 判斷有所變化! j j j CDE BCDE XYZ The 1st year The 2nd year

Difference ABE ABCDE /0.4, 0.2, 1/ /0.8, 0.6, 1/ /0.4, 0.8/ /0.2, 0.6/ /1, 1/ = (0.2+0.6+0.4+0.2+1) /5 = 0.48 Diff(C1st,C2nd) 標準化 0.4 0.2 1

(16)

實驗

• 評估方法:Precision、Recall 及 F-score

• 歷史人名識別

– 全1500卷 → 隨機標注15卷 (1%) – 實驗結果(1):限定左詞夾子為官名 retrieved items of number Total retrieved items relevant of Number = P collection in items relevant of number Total retrieved items relevant of Number = R R P R P F + × × × + = ( 2 2 1) β β 所有實驗皆 β=1 P R F Num NER(0) 11.36% 41.71% 17.86% 44,196 without

(17)

17

實驗 :

人名識別

• 歷史

– 實驗結果(2):利用詞庫過濾候選詞 – 實驗結果(3):利用頓號補召 – 實驗結果(4):剔除長期出現在文本的詞彙 (60年) P R F Num NER(1) 51.81% 39.41% 44.76% 6,779 NER(2) 84.63% 37.25% 51.73% 5,872 P R F Num NER(2) 84.63% 37.25% 51.73% 5,872 NER(3) 77.54% 44.91% 56.87% 10,157 P R F Num NER(3) 77.54% 44.91% 56.87% 10,157 NER(4) 78.08% 44.76% 56.90% 10,141 without with without with without with

(18)

實驗:探勘權臣

• 探勘權臣

– Ground truth:軍機大臣及內閣大學士 自清世宗雍正設立軍機處以來,內閣權傾,軍機處漸重,已成為清代中 央政府中具有重要威權的機構 [古鴻廷’05] 清初沿襲明制,雍正以後,始設軍機處,至是,內閣無實權,然大學士 亦常入軍機,固仍不失為宰輔也。[蕭一山’62]

(19)

實驗:探勘權臣(續)

– 實驗結果:網絡中心性間的比較 (unweighted)

– Closeness > Betweenness > Degree 0.00 5.00 10.00 15.00 20.00 25.00 0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00 80.00 90.00 Recall (%) P reci si o n ( %) Degree Centrality Closeness Centrality Betweenness Centrality 16.65 31.80 < < 掌握 斡旋 活絡 → 君權、嚴密 → 中高階

(20)

實驗:

探勘權臣

(續)

• Closeness Centrality:n+10

– Precision = 16.65% Recall = 31.80% F-score = 21.86%

• 低估準確率 • 高 → 影響力、人脈深廣 傅鼐:副都統銜(正二品) 甘汝來:禮部右侍郎(從二品),副總裁,兵部尚書(從一品) 三泰:協辦內閣大學士(從一品) 任蘭枝:吏部左侍郎(從二品),世宗憲皇帝實錄總裁官,禮部尚書(從一品) 等 福敏:協辦大學士(從一品),太子太保(正一品),翰林院掌院學士(從二品) 等 徐元夢:內閣學士(從二品),刑部右侍郎(從二品),禮部右侍郎(從二品) 等 張廷瑑:工部右侍郎(從二品),世宗憲皇帝實錄副總裁官 等 不在標準答案集 雍正13年部份結果 正一品 從一品 正二品 … 從九品 高 低

(21)

實驗:偵測權力結構變化

• Ground truth: 軍機領班大臣解職時間 – 實驗結果(7):兩年間權力結構差異─ 基於權臣個人的重要性變化 軍機處創立後,內閣權輕,時人遂改以軍機領班大臣為相權之代 表 [蔡秉叡’07] 0 5 10 15 20 25 30 35 40 45 乾隆元年 乾隆4 年 乾隆7 年 乾隆1 0年 乾隆1 3年 乾隆1 6年 乾隆1 9年 乾隆2 2年 乾隆2 5年 乾隆2 8年 乾隆3 1年 乾隆3 4年 乾隆3 7年 乾隆4 0年 乾隆4 3年 乾隆4 6年 乾隆4 9年 乾隆5 2年 乾隆5 5年 乾隆5 8年 嘉慶元年 嘉慶4 年 year di ff er en ce

(22)

實驗

(續)

• 偵測權力結構變化

– 實驗結果(8):兩年間權力結構差異─基於權力團體的消長 – 實驗結果(9):權力結構偵測的效果 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 乾隆元年 乾隆4 年 乾隆7 年 乾隆1 0年 乾隆1 3年 乾隆1 6年 乾隆1 9年 乾隆2 2年 乾隆2 5年 乾隆2 8年 乾隆3 1年 乾隆3 4年 乾隆3 7年 乾隆4 0年 乾隆4 3年 乾隆4 6年 乾隆4 9年 乾隆5 2年 乾隆5 5年 乾隆5 8年 嘉慶元年 嘉慶4 年 year di ff er en ce ( % ) P R F 基於權臣個人的重要性變化 41.67% 55.56% 47.62%

(23)

實驗:

偵測權力結構變化

(續)

• 基於權力團體的消長

– Precision = 57.14% Recall = 44.44% F-score = 50.00%

• 亦低估準確率 • 標準答案:軍機領班大臣的解職 – 內閣大學士 [古鴻廷’05] 內閣大學士為清代官僚體系中的最高職位,陞及此人臣之極的正一品官職, 自非易事。內閣大學士往往為軍機處成員,而軍機大臣之職位僅為一項兼職 年代 乾隆5年 乾隆11年 乾隆31年 乾隆36年 乾隆45年 乾隆58年 嘉慶3年 正確答案 正確答案 正確答案 正確答案 莊有恭 解職 (內閣大學士) 解職─ 死亡、貶職

(24)

未來研究

• 歷史資訊學? 協助歷史研究之工具

• Recall 重於Precision

• Ongoing research

– 根據「一人得道雞犬升天」探勘派系community mining – 編年體 vs. 紀傳體 vs. 編年事件別史之轉換 – 探勘史學矛盾 – 計量歷史學

(25)

紀傳體編年體轉換

• 紀傳體轉換編年體 – 紀傳體 • 以人物為中心 • 《史記》等二十四史 – 編年體 • 按時間先後次序 • 《左傳》、《資治通鑑》 – 編年事件別史? • 某一領域的歷史 • 《晚清帝國主義侵入史》、《大清與外族關係史》… • 加入其他「二十四史」後 – 針對明清兩代 » 以《明史》與《清史稿》做材料 » 《中國前近代社會與文化史》 – 以《史記》、《三國志》、《五代史》 » 《中國的分裂時代》 » 分析比較出中國分裂時代的特徵 等

(26)

紀傳體編年體轉換(續)

• 編年體轉換紀傳體?

– [反面] • 各代已存有紀傳形式的正史 • 實用性? – [正面] • 尋找矛盾點 • 史學家早已知道? • 過去史家撰史的材料 – 正史之外?

(27)

紀傳體編年體轉換(續)

• 從事件文句中挖掘隱含訊息?

– 事件關聯法則 • 「天災」與「罪己詔」 • 主軸研究後下一步! • 其他可能應用?

(28)

紀傳體編年體轉換(續)

《清史稿》 〈本紀〉 〈列傳〉 〈 本紀、列傳 〉 甲申春正月 … 事件1:高宗甲申春正月… 事件2:聖祖乙酉春二月… 事件3:世宗癸巳夏六月… 事件2:聖祖乙酉春二月… 事件3:世宗癸巳夏六月… 事件1:高宗甲申春正月… 《清史稿》 本紀世家之 編年版

(29)

• 矛盾

(《史記》〈司馬相如傳〉贊) – 「相如雖多虛辭濫說,…揚雄以為靡麗之賦,勸百風 一,…。」

史學研究:比較方法

司馬遷是武帝時代的人 揚雄是哀帝、平帝、王莽時代的人!

(30)

• 除了找尋矛盾…

– 避諱於本紀,散見於列傳 – 「《三國志》雖多迴護,而其翦裁斟酌處,亦自有下 筆不茍者。…郭后李陰貴人,竝愛幸,甄失志,出怨 言,帝怒,遂賜死。是雖諱之於紀,猶載之於傳也。」 (趙翼《廿二史劄記》卷六)

史學研究:比較方法 (續)

發現歷史的真面目!

(31)

史學研究:比較方法 (續)

• 轉手記載與原書比較

– 一手史料 v.s. 二手史料 – 抄錄、刪節、潤飾、斷章取義、竄改 – 《資治通鑑》 – 《廿二史劄記》 • 「吳〈孫輔傳〉,其子松為射聲校尉都鄉侯,黃龍三年卒。蜀 相諸葛亮與兄瑾書曰…。」 (〈三國志誤處〉) 《三國志》〈孫翊傳〉

(32)

史學研究:計量分析法

• 用形容詞、動詞出現探討

– 歷史人性 – 發掘時代

• 海爾 (William Bayard Hale, 1856-1924)

– 美國總統─威爾遜 • 波德(David P. Boder) – 形容詞與動詞商數(A.V.G) – 美國哲學家愛默森 (R.W.Emerson, 1803-1882) 0 20 40 60 80 100 120 1845.07 1845.08 1845.09 1845.07 1845.08 1845.09

(33)

史學研究:計量分析法(續)

• 計量歷史學?

– 「名詞消長」、「新事物普及」 – 一件事物何時萌芽、盛行、消失? • 「胡風與胡化」 • 「基督教在中國歷史上的消長」 – 沒有資訊科技的幫助 • 只能透過傳統研究法 – 上泉碧落下黃泉!

參考文獻

相關文件

中國語文科卷一 閱讀理解 學生做小測.. 中國語文科卷一 閱讀理解

新媒體定義 網絡形象 網絡言行 網絡自保 網絡交友 網絡法律 網絡欺凌 沉迷上網

 今天早上在網絡社交平台見到「飛彈」的狀態已轉為單

[r]

煞停距離:駕駛者從黃燈始亮 到決定煞車,且安全緩和的停

背景:一名小學生家長投訴學校在沒有通 知家長的情況下,向網絡程式供應商提供

哈瑞斯女士說,假如 Google 光是簡單地撤 出中國,外界會認為他們拋棄中國用戶; G oogle 是盡了很大的努力,來保證搜索內容

 智能電話 、平板電腦的出現  無線網絡普及.  小班教學優化課堂