第三章 研究方法
3.2 學術研究關係處理
在眾多的研究領域中,每位研究學者皆有各自專精的研究領域。藉由學者在 各自研究領域的發展,我們從中透過研究領域的共同性,建立研究學者之間的關 係。在學術網路中,每位學者的研究主題是建構彼此關聯的重要橋樑,我們收集 每位學者在個人網頁中所提供的著作篇名和研究領域。透過著作篇名可以發現每 位學者曾經在各領域上的研究成果。在研究領域的部分,直接說明每位學者自己 目前著重的研究領域並更新於自己的首頁,如圖 7 所示。我們將著作篇名與研究 領域對應至維基百科電腦科學的六十八類,流程如圖 8 所示。
圖 7:研究領域網頁
每位研究者的著作篇名及研究領域,再經由前置處理後,再經由 LSA 分類 處理,將每一篇著作篇名及研究領域對應到維基百科中的電腦科學分類。最後,
每一位學者依據著作篇名分類的統計,得到學者在六十八類的研究比例。利用每 位研究者在六十八類的比例,計算彼此間在學術研究上的關係。
13
圖 8:學術研究處理流程圖
Deerwester et al.[1990]所提出的 LSA 是一種索引方式。LSA 將詞和文檔對應 到潛在語意空間,從中去除原始向量空間中的雜訊。最後利用向量間的關係來判 斷詞與文檔間的關係。
我們使用經由前處理的維基百科內文,共六十八個文檔, 10,672 個單字詞。
文檔與單字詞間使用 TF-IDF,計算每個詞彙對於各文檔中的重要性。TF 代表詞 彙在在文檔出現的頻率,IDF 涵義為當詞彙在多個文檔中出現,表示該詞彙對於 區分文檔的意義變低。TF-IDF 如公式 2。Ni,j表示詞彙 i 出現在文檔 j 的次數。D 表示文檔數量,亦即六十八個文檔。ti表示詞彙 i。
i j i j
k j
k log
i (2) 經由上述公式計算後,可以得到一個 68 ×10,672 的矩陣 M。由於詞彙當中 有許多雜訊,亦即不重要的詞彙。接著將矩陣 M 透過 SVD 降維,降維的目的可 以將不相關的詞彙刪減。透過 SVD 計算,最後得到 5,192 個詞彙。將 M 表示成 三個矩陣相乘,如公式 3 表示。
t (3)
我們將經由前置處理後的著作篇名當作輸入,並使用矩陣 Vp表示。矩陣 Vp
計算輸入詞彙對應到矩陣 M 中詞彙的次數。表示如方式 4 所示。
p tj (4) 最後,將矩陣 Vp對應到矩陣 M 中。如公式 5 所示。
(5) 利用餘旋相似度計算輸入詞彙與哪一個文檔最相似。如公式 6 所示。取出最
語料前處理
LSA 分類處理
著作領域資料庫 研究領域資料庫
學術研究 維基百科
電腦科學
著作篇名 學者領域
14
大相似度最為該著作篇名所屬的類別。
im i 68i j i j
j j i i j
(6) 範例:
著作篇名:Learning a Merge Model for Multilingual Information Retrieval 前置處理後:learn merg model multilingu inform retriev
相似度計算結果:49,7,50,26,13,33,64,30,56,62,...
在相似度排序中,取出最高的相似度表示該篇論文主題的分類。
分類結果(小類):Machine learning 分類結果(大類):Artificial intelligence
依照上述方法,統計每位學者在各領域的研究比例。以交通大學梁婷老師為例,
如表 9 所示。藉由研究者的著作篇名及研究領域,可以推測梁婷老師前三個主要 研究領域為: Data mining、Network topology 、Natural language processing。其餘 未顯示的領域,皆為預設值零。表示該研究者在這些領域上沒有相關的研究。
表 9:梁婷教授研究領域
領域 比例
Data mining 23.00%
Network topology 14.67%
Natural language processing 11.85%
Database management systems 9.74%
Information theory 9.04%
學術研究關係(research),由研究者的著作領域與研究領域組成。每位研究者 之間藉由下列公式 7 計算出彼此間關係強度。公式如下所示。 表示研究者 i 的 著作領域向量。如表 10 所示。 表示研究者 i 的著作領域向量中第 k 項。
表示 與 相同的個數。
, , ,
(7) (8)
研究者彼此間如果有共同的研究領域,表示研究者之間有共同的研究興趣。
因此,利用基本集合運算,交集(彼此間共同研究領域)除以聯集(彼此間所有研 究領域)。透過此計算,彼此間共同的研究領域越多,研究者之間關係強度越顯 著。關係越強,表示研究者之間有越多共同的研究領域。相反的,關係強度越弱,
表示研究者之間共同的研究領域越少。
表 10:學術研究關係計算範例
著作領域向量 T 1 T 2 T3 T 4
15
Pi 0.7 0.2 0.1 0
Pj 0.6 0 0.3 0.1
Pk 0.5 0 0.3 0.2
Pl 0.2 0 0.3 0.5
Pi=[0.7 , 0.2 , 0.1 , 0]表示研究者 i 對研究領域T ~1 T 的比重為 70%、4 20%、10%、0%。
Pi與Pj 共同研究領域為T 與1 T ,即3 P i Pj =2。Pi與Pj 所有研究領域為T 、1 T 、2 T 與3 T ,即4 P i Pj =4。故Pi與Pj關係強度為 P i Pj / P i Pj =0.5。
Pj 與Pk共同研究領域為T 、1 T 與3 T ,即4 P j Pk =3。Pi 與Pj所有研究領域 為T 、1 T 與3 T ,即4 P i Pj =3。故Pj 與Pk關係強度為 P j Pk / P j Pk =1。
依據上述計算,得到共同研究領域矩陣如表 11 所示。
表 11:共同研究領域矩陣 關係強度
Pi Pj Pk Pl
Pi 1 0.5 0.5 0.5
Pj 0.5 1 1 1
Pk 0.5 1 1 1
Pl 0.5 1 1 1
從矩陣內容可發現,Pi與Pj 、Pk、Pl 關係強度較低於Pj、Pk 、Pl 之間的 關係強度。表示在共同研究領域中,Pj 、Pk、Pl包含較多的共同研究領域。
在上述範例中,雖然Pj 、Pk、Pl具有相同的研究領域,但在研究比例次序上並
16
17
18
Pl。原因在於,Pj與Pk 在研究領域次序上完全相同,皆為T 、1 T 、3 T 。4 Pj 與Pl 在研究領域次序上只有第二個研究領域相同(即T )。故在考慮研究次序時,3 Pj與
Pk 在研究領域著重次序較優於Pj與Pl。
藉由共同研究領域矩陣,以及次序性的研究領域矩陣。將兩矩陣加總,表示 研究者之間的學術研究關係。學術研究關係如表 13 所示。
表 13:學術研究關係 學術研究
Pi Pj Pk Pl
Pi 1 0.4 0.383 0.25
Pj 0.4 1 0.954 0.667
Pk 0.383 0.954 1 0.667
Pl 0.25 0.667 0.667 1
從表中發現,Pi與Pj 、Pk、Pl 學術關係較低,原因在於,Pi 與其他三者 間只有兩個共同研究領域(T 、1 T )。此外,3 Pi與Pl 學術關係又較低於Pi與Pj以 及Pi與Pk的學術關係。貣因為,Pi的研究領域次序為T 、1 T 、2 T ,3 Pj 以及Pk的 研究領域次序為T 、1 T 、3 T ,4 Pl 的研究領域次序為T 、4 T 、3 T 。1 Pi與Pj 以及Pi與
Pk 在研究領域次序中,第一個研究領域皆為T 。而1 Pi與Pl 研究領域次序上,沒 有任何相同的研究領域。所以,在計算研究領域次序時,Pi與Pj 以及Pi與Pk 關 係較高於Pi與Pl 。故Pi與Pl學術關係又較低於Pi與Pj以及Pi與Pk的學術關係。
Pj 與Pk學術關係較高於Pj 與Pl 。研究者Pj、Pk 與Pl 三者,在共同研究領域中 皆為T 、1 T3、T 。4 Pj 與Pk最有興趣的研究領域為T ,次之為1 T3,最後為T 。然4
19
而Pl最有興趣的研究領域為T ,次之為4 T ,最後為3 T 。因此在學術關係中,1 Pj與
Pk 學術關係較高於Pj與Pl。Pk 與Pl 學術關係意同於Pj 與Pl 。