學術研究關係處理

第三章研究方法

3.2 學術研究關係處理

在眾多的研究領域中，每位研究學者皆有各自專精的研究領域。藉由學者在各自研究領域的發展，我們從中透過研究領域的共同性，建立研究學者之間的關係。在學術網路中，每位學者的研究主題是建構彼此關聯的重要橋樑，我們收集每位學者在個人網頁中所提供的著作篇名和研究領域。透過著作篇名可以發現每位學者曾經在各領域上的研究成果。在研究領域的部分，直接說明每位學者自己目前著重的研究領域並更新於自己的首頁，如圖 7 所示。我們將著作篇名與研究領域對應至維基百科電腦科學的六十八類，流程如圖 8 所示。

圖 7:研究領域網頁

每位研究者的著作篇名及研究領域，再經由前置處理後，再經由 LSA 分類處理，將每一篇著作篇名及研究領域對應到維基百科中的電腦科學分類。最後，

每一位學者依據著作篇名分類的統計，得到學者在六十八類的研究比例。利用每位研究者在六十八類的比例，計算彼此間在學術研究上的關係。

圖 8:學術研究處理流程圖

Deerwester et al.[1990]所提出的 LSA 是一種索引方式。LSA 將詞和文檔對應到潛在語意空間，從中去除原始向量空間中的雜訊。最後利用向量間的關係來判斷詞與文檔間的關係。

我們使用經由前處理的維基百科內文，共六十八個文檔， 10,672 個單字詞。

文檔與單字詞間使用 TF-IDF，計算每個詞彙對於各文檔中的重要性。TF 代表詞彙在在文檔出現的頻率，IDF 涵義為當詞彙在多個文檔中出現，表示該詞彙對於區分文檔的意義變低。TF-IDF 如公式 2。Ni,j表示詞彙 i 出現在文檔 j 的次數。D 表示文檔數量，亦即六十八個文檔。ti表示詞彙 i。

i j ^{i j}

k j

k log

i (2) 經由上述公式計算後，可以得到一個 68 ×10,672 的矩陣 M。由於詞彙當中有許多雜訊，亦即不重要的詞彙。接著將矩陣 M 透過 SVD 降維，降維的目的可以將不相關的詞彙刪減。透過 SVD 計算，最後得到 5,192 個詞彙。將 M 表示成三個矩陣相乘，如公式 3 表示。

_t (3)

我們將經由前置處理後的著作篇名當作輸入，並使用矩陣 Vp表示。矩陣 Vp

計算輸入詞彙對應到矩陣 M 中詞彙的次數。表示如方式 4 所示。

p _t_j (4) 最後，將矩陣 Vp對應到矩陣 M 中。如公式 5 所示。

(5) 利用餘旋相似度計算輸入詞彙與哪一個文檔最相似。如公式 6 所示。取出最

語料前處理

LSA 分類處理

著作領域資料庫研究領域資料庫

學術研究維基百科

電腦科學

著作篇名學者領域

大相似度最為該著作篇名所屬的類別。

im _i ⁶⁸ⁱ ^j^{i j}

_j _j _i _{i j}

(6) 範例:

著作篇名:Learning a Merge Model for Multilingual Information Retrieval 前置處理後:learn merg model multilingu inform retriev

相似度計算結果:49,7,50,26,13,33,64,30,56,62,...

在相似度排序中，取出最高的相似度表示該篇論文主題的分類。

分類結果(小類):Machine learning 分類結果(大類):Artificial intelligence

依照上述方法，統計每位學者在各領域的研究比例。以交通大學梁婷老師為例，

如表 9 所示。藉由研究者的著作篇名及研究領域，可以推測梁婷老師前三個主要研究領域為: Data mining、Network topology 、Natural language processing。其餘未顯示的領域，皆為預設值零。表示該研究者在這些領域上沒有相關的研究。

表 9:梁婷教授研究領域

領域比例

Data mining 23.00%

Network topology 14.67%

Natural language processing 11.85%

Database management systems 9.74%

Information theory 9.04%

學術研究關係(research)，由研究者的著作領域與研究領域組成。每位研究者之間藉由下列公式 7 計算出彼此間關係強度。公式如下所示。表示研究者 i 的著作領域向量。如表 10 所示。表示研究者 i 的著作領域向量中第 k 項。

表示與相同的個數。

，，，

(7) (8)

研究者彼此間如果有共同的研究領域，表示研究者之間有共同的研究興趣。

因此，利用基本集合運算，交集(彼此間共同研究領域)除以聯集(彼此間所有研究領域)。透過此計算，彼此間共同的研究領域越多，研究者之間關係強度越顯著。關係越強，表示研究者之間有越多共同的研究領域。相反的，關係強度越弱，

表示研究者之間共同的研究領域越少。

表 10:學術研究關係計算範例

著作領域向量 T ₁ T ₂ T3 T ₄

Pi 0.7 0.2 0.1 0

Pj 0.6 0 0.3 0.1

Pk 0.5 0 0.3 0.2

Pl 0.2 0 0.3 0.5

Pi=[0.7 , 0.2 , 0.1 , 0]表示研究者 i 對研究領域T ~₁ T 的比重為 70%、₄ 20%、10%、0%。

Pi與P_j 共同研究領域為T 與₁ T ，即₃ P _i P_j =2。P_i與P_j 所有研究領域為T 、₁ T 、2 T 與₃ T ，即₄ P _i P_j =4。故P_i與P_j關係強度為 P _i P_j / P _i P_j =0.5。

Pj 與P_k共同研究領域為T 、₁ T 與₃ T ，即₄ P _j P_k =3。P_i 與P_j所有研究領域為T 、₁ T 與₃ T ，即₄ P _i P_j =3。故P_j 與P_k關係強度為 P _j P_k / P _j P_k =1。

依據上述計算，得到共同研究領域矩陣如表 11 所示。

表 11:共同研究領域矩陣關係強度

Pi P_j P_k P_l

Pi 1 0.5 0.5 0.5

Pj 0.5 1 1 1

Pk 0.5 1 1 1

Pl 0.5 1 1 1

從矩陣內容可發現，P_i與P_j 、P_k、P_l 關係強度較低於P_j、P_k 、P_l 之間的關係強度。表示在共同研究領域中，P_j 、P_k、P_l包含較多的共同研究領域。

在上述範例中，雖然P_j 、P_k、P_l具有相同的研究領域，但在研究比例次序上並

Pl。原因在於，P_j與P_k 在研究領域次序上完全相同，皆為T 、₁ T 、₃ T 。₄ P_j 與P_l 在研究領域次序上只有第二個研究領域相同(即T )。故在考慮研究次序時，₃ P_j與

Pk 在研究領域著重次序較優於P_j與P_l。

藉由共同研究領域矩陣，以及次序性的研究領域矩陣。將兩矩陣加總，表示研究者之間的學術研究關係。學術研究關係如表 13 所示。

表 13:學術研究關係學術研究

Pi P_j P_k P_l

Pi 1 0.4 0.383 0.25

Pj 0.4 1 0.954 0.667

Pk 0.383 0.954 1 0.667

Pl 0.25 0.667 0.667 1

從表中發現，P_i與P_j 、P_k、P_l 學術關係較低，原因在於，P_i 與其他三者間只有兩個共同研究領域(T 、₁ T )。此外，₃ P_i與P_l 學術關係又較低於P_i與P_j以及P_i與P_k的學術關係。貣因為，P_i的研究領域次序為T 、₁ T 、₂ T ，₃ P_j 以及P_k的研究領域次序為T 、₁ T 、₃ T ，₄ P_l 的研究領域次序為T 、₄ T 、₃ T 。₁ P_i與P_j 以及P_i與

Pk 在研究領域次序中，第一個研究領域皆為T 。而₁ P_i與P_l 研究領域次序上，沒有任何相同的研究領域。所以，在計算研究領域次序時，P_i與P_j 以及P_i與P_k 關係較高於P_i與P_l 。故P_i與P_l學術關係又較低於P_i與P_j以及P_i與P_k的學術關係。

Pj 與P_k學術關係較高於P_j 與P_l 。研究者P_j、P_k 與P_l 三者，在共同研究領域中皆為T 、₁ T₃、T 。₄ P_j 與P_k最有興趣的研究領域為T ，次之為₁ T₃，最後為T 。然₄

而P_l最有興趣的研究領域為T ，次之為₄ T ，最後為₃ T 。因此在學術關係中，₁ P_j與

Pk 學術關係較高於P_j與P_l。P_k 與P_l 學術關係意同於P_j 與P_l 。

在文檔中台灣資訊研究者的學術網路 (頁 20-27)

第三章 研究方法

3.2 學術研究關係處理

第三章研究方法